新闻自动配图方法研究毕业论文

2020-02-23 18:18:41

摘要

在互联网年代，新闻工作者获得了更多的手段来获取信息，尽管人们获得了获得大量信息^[3]的手段，但是缺乏对信息有效分类的手段。国内外新闻工作者同时拥有图片以及文档两种信息，而新闻报道与新闻相关图片之间就存在着内容上的联系，而找出相应联系同时自动化匹配方式，将能大大提高新闻工作者的工作效率。如今深度学习将图像信息提取进行了极大的优化，而机器学习也推动了文本内容识别的进度。

自图灵测试的提出，人类找到了判断机器是否拥有智能的标准。人类一直在不懈追求让计算机通过视觉观察和理解世界，使计算机有能力适应环境并以自然语言和视觉数据进行通信。无论是图片识别还是文档匹配，都需要提取相应的特征。现阶段在两种领域研究都集中在同一模态的数据进行训练，不同模态的数据很难找到一种较为准确的匹配理论。

本研究旨在将图像理解与文本理解技术相结合，针对多模态数据处理的特点，对自动图像描述问题给出自己的解决方案，制定从图像到文本的自动生成模型。本文中主要的实现方式为：

利用了两种文档向量化方式：TFIDF与doc2vec
实现了VGG16模型，将图片转化为同维度向量
将两种向量利用相似度算法进行了相应的训练，并得出训练模型

研究完成后，预计基于自然计算、多模态数据处理技术，构建一个根据图像自动匹配描述文字的系统。

关键词：图片识别；文档信息；卷积神经网络；机器学习；文档图像匹配；

Abstract

In the Internet age, journalists obtained more means to obtain information. Although people obtained means to obtain a large amount of information, they lacked the means to effectively classify information. There are content links between news reports and news-related pictures. Finding the corresponding links and automatic matching methods will greatly improve the work of journalists. effectiveness. Deep learning now optimizes the extraction of image information. Machine learning also promotes the progress of text content recognition.

Since Turing proposed Turing test, he proposed a standard to judge whether the machine has intelligence^[19]. Humans have been tirelessly pursuing the goals of computers that can visually observe and understand the world as humans, have the ability to communicate with computers in natural language. Whether it is image recognition or document matching, you need to extract the corresponding function. At this stage, research in both areas has focused on the same modal data. It is difficult to find more accurate matching theory for different modal data.

The purpose of this research is to combine image understanding and text techniques. According to the characteristics of multi-modal data processing, it gives its own solution to the problem of automatic image description and formulates an automatic model from image to text. The main implementation in this thesis is:

1. Utilize two types of document vectorization: TFIDF and doc2vec

2. Implemented the VGG16 model and transformed the image into the same dim vector

3. wo vectors are trained using the similarity algorithm and the training model is obtained.

After the completion of the research, it is expected that a system based on natural image computing and multi-modal data processing technology will automatically match descriptive text based on images.

Key Words：Image recognition; document information; convolutional neural networks; machine learning; document image matching

1. 绪论 7

1.1 研究背景 7

1.2 研究意义 7

1.3 国内外研究现状 8

1.3.1 国外研究发展现状 8

1.3.2 国内研究发展现状 8

2. 图片文档相似度匹配方法 10

2.1 文档相似度匹配方法 10

2.2 图片相似度匹配方法 10

2.3 文档与图片的相似度匹配方法 11

3. 文档向量提取 12

3.1 文档数据处理目标 12

3.2 基于scikit-learn的文本加权技术 12

3.2.1 基于结巴分词的中文文档处理 12

3.2.2 停用词的选择和使用 12

3.2.3 基于TFIDF的文本向量化方法 13

3.2.4 通过文本向量判断同模态文件相似度 13

3.3 基于doc2vec的文本向量化技术 13

3.3.1 基于结巴分词的文档处理 15

3.3.2 基于doc2vec的文本向量化方法 15

3.3.3 通过文本向量判断同模态文件相似度 15

3.4 文档处理方案选择 15

4 图片数据向量提取 16

4.1 基于深度学习的环境搭建 16

4.1.1 Tensorflow介绍以及环境搭建 16

4.1.2 Keras介绍以及环境搭建 17

4.2 卷积神经网络原理 17

4.3 基于keras的VGG16网络搭建 19

4.3.1 VGG16模型 19

4.3.2 同模态图像相似度匹配验证 19

5 基于深度学习网络的图片文档匹配方法 21

5.1 基于余弦相似度的匹配算法的设计 21

5.1.1 模型训练 21

5.1.2 实验成果 22

5.2 匹配算法优化结果分析 22

6 总结与展望 24

6.1 总结 24

6.2 不足及完善方法 24

绪论

研究背景

自 20 世纪 90 年代以来，随着互联网的快速普及，人们在享受互联网带来的丰富信息资源的同时也面临着前所未有的海量数据。近年来，便携式摄影设备的大量普及使得数字图像和数字视频的数量飞速增长。基于现有丰富的数据资源，如果可以利用深度学习技术形成一套基于图像的文本生成模型，则意味着机器不仅能够完成检测出图像中存在的物体的任务，还能够理解图像中物体的相互关系，并用合适的语言描述出图像中物体之间的高层语义信息。

本研究旨在将图像理解与文本分析技术相结合，针对多模态数据处理的特点，对自动图像描述问题给出自己的解决方案，制定从图像到文本的自动生成模型。本研究计划基于深度学习技术，完成机器的智能看图说话功能，即给定一张图片，经图像视觉特征提取和特定的文本生成模型，输出与图像内容相关的文本。研究完成后，预计基于自然计算、多模态数据处理技术，构建一个根据图像自动生成描述文字的系统。

研究意义

人工智能从20世纪80年代发展以来，理论成果和技术成果逐渐丰富，应用领域不断延伸。目前更是成为了国家战略。人工智能通过智能代理的设计和研究来探索并实现智能的本质，科学家们一直希望能制造出能够以人类智能的方式进行运行的新型智能机器。人工智能的核心问题包括推理，知识，计划，学习，沟通，感知，移动以及操纵对象的能力。现在人工智能方面核心的研究有：机器人、自然语言处理、图像识别等。

近年来，人工智能理论及其支持技术的发展使机器开始了解更高级别的图像内容。在人工智能领域，这是机器的 Image Caption(自动图像描述)^[8]能力，其本质是视觉到语言（Visual-to-Language, V2L）的问题。这种对于人类非常简单的任务，在计算机视觉领域却不能不说是一个挑战：因为图像信息需要在不同模态的信息（图像信息到文本信息）之间进行转换。

图像文本匹配一直都是人工智能和自然语言处理领域的重大挑战。在文本生成过程中，很多时候都是针对于特殊场景进行文本生成。好的图片描述程序，能够对于特定场景进行准确地理解。例如，文本和图片表达的内容要一致。在语法方面，词法句法也要尽量符合语言的使用习惯。好的文本生成模型应该做到语意连贯和文雅。

1）针对一个海量数量集，计算机具有强大的分类能力，可以从中快速的选出合适的词组。

2）计算机在辨识，学习，甚至是记忆模式和生成规则方面具有突出的优势。一个自动的文本智能产生系统可以被广泛应用到各个领域。

自动图像描述，将深度学习，计算机视觉，自然语言处理相融合，给定一张图片，经图像识别和特定的生成模型，系统将输出与图内容相关的文本。图像自动描述作为一个连接此两个领域的问题，其突破性的进展更深层次的意义在于表明人工智能的全面进步。

国内外研究现状

国外研究发展现状

在自然语言处理方向，国外研究一直处于领先地位，在JAVA，PATHON上都有相应的自然语言处理工具，他们都有着非常高的分析效率和较高的内容提取精度。而在图像识别的方向中，美国的深度学习研究十分领先，图像自动匹配并不是一个新兴的任务，直到 2015 年，O Vinyals 等人应用了一种将深度卷积神经网络（Deep Convolutional Neural Network，DCNN）和循环神经网络 ( Long Short-Term Memory，LSTM )^[10], 结合起来的方法在 Image Caption 问题上，才大大提高了 Image Caption 的效果。Image Caption 的另外一大部分工作是解决对给定图片的描述文本进行排序的问题。普遍的处理方法是基于将图片和文本编码在一个相同的向量空间。例如对于一个图片，和图片相似的图片在编码空间上相似的描述将会被检索到。同时，我们现在使用的诸多图像识别模型都来自国外的图像识别竞赛。谷歌在深度学习领域开源了Tensorflow其中有封装好的NIC模型，利用深度卷积神经网络能将给定的图片进行识别并分类。同时在神经网络方面国外也具有相当多的成熟的网络可以使用，例如LeNet，AlexNet，VGG16等等。他们都有非常好的特征提取的效果。其中最早的网络结构是LeNet，他给出了最基础的神经认知机模型。而AlexNet网络则是在2012年的比赛中脱颖而出一极高的识别率证明了神经网络的重要性。

国内研究发展现状

在自然语言处理方面，国内的研究非常成熟，在分词工具上有结巴分词和NLPIR等工具，但在具体文档信息提取上和内容分析水平仍然距离国外工具有所差距，NLP技术处于一个有限的“积木搭建”的世界中。其中自然语言处理具有如下几个难点：1.词语边界界定2.一词多义等容易产生歧义的问题3.方法的模糊性4.语言的行为性和计划性。现在深度学习已经在NLP问题中取得的稳定的理论收获，我国在文本建模、结构化等方面都有着领先的技术。在图片识别方面，“图像工程”概念实在1982年提出，这是一个在大框架大环境中的综合应用，在图像处理、分析、理解三个方面，我们国内一直有着不错的进展，同时近年来随着神经网络的兴起，国内也涌现出不少可使用的模型，尽管在准确度上仍然与国外模型有着差距，但是一直有良好的发展前景。图像识别问题的数学本质是一个映射问题，在近20年来随着图像分割技术和VLSI技术的发展，国内图像处理方面的研究有了极大的提高。而在本实验所涉及的交叉领域中，国内的新媒体科技公司中，诸多新媒体信息公司中掌握着着领先的成果。

图片文档相似度匹配方法

文档相似度匹配方法

在介绍文档相似度的概念之前，我们需要讲解几个关键性的概念：1.关键词提取（Automatic Keyphrase extraction）。关键词是能代表文章信息的词汇，意味着我们将文章的核心内容总结成一连串的几个具有代表性的词。而我们要如何将文档的关键词提取出来将是我们解决文档匹配信息的第一步。

文档中的关键信息提取，一个简单的思路就是找到出现次数最多的词。但是次数出现最多的词中往往有很多无意义的词语，如“的”等等。这个时候我们需要引进第二个概念：停用词。停用词指的是在文章中拥有很高的出现频率但拥有极少的数据价值。我们在实验过程中需要去掉文件中的停用词来提高关键信息的提取。

最后一个概念是余弦距离判断，在空间中向量之间的相似度可以通过计算余弦距离来衡量，到这里文档相似度问题就转换成计算两个向量相似度的问题了。我们称代表文档含的向量成为特征向量。而这个特征向量可以被想象成空间的两条方向不同的线段，通过向量的特征，我们不难看出向量的相似度由向量的夹角决定。可以认为向量夹角越小，越代表相似。

如果我们有如下量两个向量

句子A：我 1喜欢 2看 2电视 1电影 1不 1也 0 句子A[1,2,2,1,1,1,0]

句子B：我 1喜欢 2看 2电视 1电影 1不 2也 1 句子B[1,2,2,1,1,2,1]

从上面的几点我们能看出文档相似度的初步结论，我们通过一定的手段将文本转换成维度相同的向量信息，然后通过放入学习网络中进行训练，找到一个角度范围来确定两个向量是否相似，从而确定文档的相似性。

最后，我们在关键词信息提取问题上我们采取两种方法做对比试验，一种TFIDF，一种word2vec。通过提取文档特征后，我们将文档特征词选出组成合适的向量，最后在对比两种向量的代表性是否能满足实验要求。

图片相似度匹配方法

在讨论图片相似度之前，我们同样要分析图片特征提取的问题，计算机无法像人类那样对图片的不同的特征进行认识的能力，更有趣的是在计算机看来，图片是一堆数字的集合，那么如何找到这种数学关系就至关重要了。由于图片在存储过程中往往为矩阵形式，而将这种矩阵在不损失特征的情况下转换成向量就是解决需求的方法了，而这里我们就需要借用到卷积神经网络了，卷积神经网络就是能将图片通过一系列的图像平滑处理后将图像转变为一个向量。

图片的处理中也能通过计算余弦距离或者欧式距离来判断相似性，但是在主流的图像识别分类方案中，都使用神经网络进行一定的分类学习，通过优化问题的引进，来完善一个类别物体识别的准确度。

文档与图片的相似度匹配方法

自动图像文档匹配，其本质是视觉到语言的问题。原则上，它们对应人工智能的两个最重要的子领域:机器视觉和自然语言处理。机器视觉和自然语言处理从来没有相互分离过，从完整的智能系统角度上来看，无论是现在的人类智能或终极机器的智能如何，多模态的集成是不可避免的需求，视觉和语言理解表达是必不可少的，它们相辅相成。因此，图像文档匹配能力作为两个智能领域的关键环节一直是人工智能领域最顶尖的研究者最密切关注的任务之一，也是亟待攻克的难关，直到最近O Vinyals 等人的研究成果发表，这一问题才开始有了突破性的进展。

最近的进展源自 Encoder-Decoder 结构的提出。Encoder-Decoder 结构最早是由 K Cho 等人^[18]在机器翻译领域提出的，最初是为了解决不同语言翻译过程中单词序列长度不匹配的问题。在传统 CNN 网络中，输入和输出的长度是严格等长的，但是在进行机器翻译任务的时候，经常需要面对不同长度的单词序列。K Cho 等人构造了 Encoder-Decoder 结构，将输入的单词转化为对于的 Word-embeding 形式，再将其输入 RNN 网络。

文档向量提取

文档数据处理目标

我们的文档处理目标是将文本转化为与图片相同维度的向量。我们准备的向量长度有100,500,1000这三种实验目标。其中要求向量尽可能的能区分不同的文档。

基于scikit-learn的文本加权技术

Scikit-Learn是基于Python开发的机器学习库，其中包含了机器学习算法、数据集，能够处理各种数据挖掘的问题。用Cpython编写一些核心算法来实现功能并提高性能。在支持向量机的方面，用LIBSVM周围的Cpython包装器来实现。而在逻辑回归算法和线性支持向量机算法上，scikit-learn通过类似的LIBLINEAR包装。

配置过程：在cmd中通过pip安装Scikit-Learn，在安装前需要安装Numpy和Scipy.

基于结巴分词的中文文档处理

Jieba 分词自带了一个dict.txt词典，是通过概率语言模型进行的分词，分词用到的算法：1.基于Trie树结构实现高效的词图的扫描，将句子中的所有汉字可能转换为词的情况构成一个有向无环图。2.通过动态规划查找出最大概率路径，找到词频最大的切分词。3.对于没有在dict.txt中记录的词，利用HMM模型以及Viterbi算法。

Jieba 配置过程：选择定好的conda虚拟环境，在cmd中通过pip安装jieba分词。

停用词的选择和使用

文章中往往会出现很多票频率很高但是却没有实际意义的词，诸如“的”“是”“在”这一类最常用的词，往往为人类语言中包含的功能词语，与其他词相比功能词极其普遍，但却没有实际含义，另一类是词汇词语，如“want”他们也非常多，但是这样的词语并不能给出真正的结果，相反会降低搜索的效率，我们称这一类词为停用词，他们在文章中占有极高的词语出现频率，但是对于表示文章意义却并不具有很高的价值。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

新闻自动配图方法研究毕业论文

绪论

研究背景

研究意义

国内外研究现状

国外研究发展现状

国内研究发展现状

图片文档相似度匹配方法

文档相似度匹配方法

图片相似度匹配方法

文档与图片的相似度匹配方法

文档向量提取

文档数据处理目标

基于scikit-learn的文本加权技术

基于结巴分词的中文文档处理

停用词的选择和使用

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

新闻自动配图方法研究毕业论文

绪论

研究背景

研究意义

国内外研究现状

国外研究发展现状

国内研究发展现状

图片文档相似度匹配方法

文档相似度匹配方法

图片相似度匹配方法

文档与图片的相似度匹配方法

文档向量提取

文档数据处理目标

基于scikit-learn的文本加权技术

基于结巴分词的中文文档处理

停用词的选择和使用

您可能感兴趣的文章

最新文档

推荐栏目