登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 物联网工程 > 正文

基于机器学习的文档内容识别分类系统——分类模块开题报告

 2020-04-23 19:39:18  

1. 研究目的与意义(文献综述)

背景资料:

上世纪九十年代以来, 因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。
利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。
根据分类指数获取的方法不同,文本自动分类系统可以划分为两种类型:基于知识工程的分类系统和基于统计的分类系统。

知识工程的方法主要依赖于语言学知识,通过人工大量的推理规则作为分类知识,实现相当复杂,单纯使用这种方法来进行分类对于较复杂的系统而言,规则的数目将系统的复杂度呈指数递增,而且对于不同的分类系统,可能需要大量修改已有的推理规则。因此这种分类系统需要花费大量的人力物力,非常难以实现,但是知识工程在逻辑和知识方面具有较好的感知能力。相比之下,统计方法的实现机制比较简单,但是在对逻辑依赖性较强的负责文档进行分类,或者对于分类范畴比较模糊的类别进行分类时,效果不理想。综合两种方法,由于统计方法实现文档分类实现简单,对大对数实际文档分类速度较快,准确度在一定的条件约束下较高,系统成本比较低,因此为大多数文档分类系统所采用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

基本内容与目标:

1)根据训练数据设计文本特征词典。
2)根据训练数据设计学习分类模型。
3)设计分类器。
4)进行多类文本内容分类。

技术方案及措施:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1. 2018/1/14-2018/3/5,确定选题,查阅文献,外文翻译和撰写开题报告;
2. 2018/3/6-2018/4/30,系统架构,程序设计与开发,系统测试与完善;
3. 2018/5/1-2018/5/26,撰写修改论文;
4. 2018./5/27-2018/6/6,准备答辩;

4. 参考文献(12篇以上)

[1] Ralph M.stair,George W.Reynolds.PrinciPles of Information Systems,A Managerial Approach
[2] Courant R,Hilbert Methods of Mathematic Physics.Vol 1,1953
[3] Salton G,Wong A ,Yang C S,A Vector Space Model for Automatic Indexing,Communication of ACM,1975
[4] 侯汉清,《分类法的发展趋势简论》,1981
[5] 侯敏著,计算机语言学与汉语自动分析。

北京:北京广播学院出版社,1992.12
[6] 霓娜,基于语义理解的智能分词方法及其应用研究,武汉大学硕士毕业论文,2003
[7]《统计学习方法》李航编,清华大学出版社
[8]《机器学习导论》Ethem ALpaydinz 著范明等译,机械工业出版社
[9] Convolutional Neural Networks for Sentence Classification ,Yoon Kim,New York University
[10] Character-level Convolutional Networks for Text Classification,Xiang Zhang Junbo Zhao Yann LeCun,Courant Institute of Mathematical Sciences, New York University
[11] 《基于机器学习的文本自动分类研究进展》张雪英,2006.12
[12] 孙斌,文本信息提取技术(概述),2002年8月北京大学计算机系计算语言所讲座
[13] Understanding Convolutional Neural Networks ,David Stutz ,August 2014
[14] Recurrent Convolutional Neural Networks for Text Classification,Siwei Lai, Liheng Xu, Kang Liu, Jun Zhao ,Institute of Automation, Chinese Academy of Sciences, China
[15] Boureau, Y.-L; Bach,F.; LeCun, Y:; Ponce, J. Learning mid-level features for recognition. In CVPR, 2010.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图