基于深度学习的文本分类研究开题报告
2020-02-18 19:22:40
1. 研究目的与意义(文献综述)
1、目的及意义(含国内外的研究现状分析)
1.1 研究意义
随着信息和互联网技术的快速发展,数字信息量呈爆炸式的增长,各种各样的数字信息充斥人们生活的每个角落。人们享受着这些数字信息带来的便利,同时还在不断的产生和创造新的数字信息数据。预计由于信息技术的发展和硬件设备的广泛应用,全球的数据总量每18个月增长一倍,诸多文本信息的增长速度已远远超越了人工处理数据的能力,文本等非结构化或非结构化的数据信息约占数据信息的很大一部分,人类社会早已进入了数字数字信息时代,将面临着难以想象的大数据时代的到来。因此,有效的组织管理和利用当前的数据信息是当前工业界和学术界的热点问题。文本数据作为数据信息的一种重要承载形式,如何对其进行有效的组织管理与定位利用信息,进年来得到了人们广泛关注并快速发展,文本分类技术作为一种高效的信息检索和数据挖掘的信息技术,在对文本数据信息的组织和管理中有着举足轻重的地位。
文本分类(text classification)是自然语言处理领域的核心任务之一,其主要目标在于从自然语言中理解语义并分析归纳信息,为用户简化信息管理。在图书管理、网络信息过滤、用户推荐系统、垃圾邮件过滤等涉及自然语言处理的项目中均起到重要作用,因此其属于当前自然语言领域的一大热点。传统文本分类主要基于人工规则,停用词过滤,主题分析等机制。
深度学习(deeplearning)是一套基于高度抽象化的数据模型的算法的统称,属于机器学习的一个分支。人工智能领域能处理的三大信息格式主要为:文本,语音和图像。其中,文本处理由于其庞大的数据源,相对成熟的处理技术和广泛的应用的需求,备受关注。文本处理中最典型的场景为文本自动分类,即由计算机系统自动将文本数据归类到预设好的类别中。文本自动分类有着重要的应用,如客服工单的自动分类、提供个性化新闻。
2. 研究的基本内容与方案
2、基本内容和技术方案
2.1基本内容
虽然基于神经网络技术进行文本分类在各个方面均有所发展,但是上述研究多基于英文语料,对中文语料来讲,由于其语法及结构的差异,不定会取得相同优秀的成果;再有,神经网络在文本分类上的研究较少结合传统的句法、语法知识,而该类知识在分类时将会有较大的指导作用;另外,当前的深度学习模型捕捉文本特征时角度单一化,不能融合多角度特征;最后,研究人员很难找到一个对众多文本分类任务均适用的模型,需要针对不同的任务设计不同的模型进行处理。
目前文本分类口的方法大多是基于统计学习的,运用机器学习领域的分类模型进行自动分类,常用分类模型有:rocchio 算法、朴素贝叶斯(nb)、支持向量机(svm)、k近邻(knn)等。其中对knn算法来说,由于其理论成熟,思想简单,而且对数据没有假设,准确度高,在文本分类领域得到了广泛的应用。nirmala devi m等口提出了一种将利用k-means算法去除不完整和模糊数据的方法,以此来提高分类的准确率和效率。张雪萍等将k-medoids与mapreduce平台相结合来提高文本的分类速率,提高了文本的分类效率。罗贤锋等提出了一种基于k-medoids聚类的样本裁剪方法,先通过k-medoids算法对文本聚类,并通过计算每个样本的相似度与阀值对比,如果相似度小于设定阀值,则将该文本直接删除,然后运用knn算法对待测样本进行判别,提高了分类速率。谢娟英等提出了基于k近邻的密度峰值的搜索分类算法,通过搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心,最终利用k近邻算法对待测文本进行分类,提高了文本分类的准确性。 黄贤英等提出了利用文本词性相似度和knn算法结合的方法对文本数据进行分类,通过对文本数据词性相似度的计算,分给每个词性信息的不同的权重值
3. 研究计划与安排
3、进度安排
第 1 周—第 3 周 搜集资料,撰写开题报告;
第 4 周—第 5 周 论文开题;
4. 参考文献(12篇以上)
4、参考文献 [1]朱世玲,郑彦.改进的文本特征选取算法研究[J/OL].计算机技术与发展,2019(05):1-4[2019-03-05].http://kns.cnki.net/kcms/detail/61.1450.TP.20181221.1554.050.html. [2]汪少敏,杨迪,任华.基于深度学习的文本分类系统关键技术研究与模型验证[J].电信科学,2018,34(12):117-124. [3] 孙伟,刘文静,葛丽阁,余璇.一种基于词加权LDA模型的专利文献分类方法[J/OL].计算机技术与发展,2019(03):1-10[2019-03-05].http://kns.cnki.net/kcms/detail/61.1450.TP.20181219.1510.004.html. [4]彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算科学,2018,45(12):148-152. [5]王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J/OL].计算机应用研究:1-5[2018-12-28].https://doi.org/10.19734/j.issn.1001-3695.2018.06.0514. [6]张宇艺,左亚尧,陈小帮.基于改进的CBOW与ABiGRU的文本分类研究[J/OL].计算机工程与应用:1-11[2018-12-28].http://kns.cnki.net/kcms/detail/11.2127.TP.20181211.0934.012.html. [7]邱宁佳,丛琳,周思丞,王鹏,李岩芳.结合改进主动学习的SVD-CNN弹幕文本分类算法[J/OL].计算机应用:1-8[2018-12-28].http://kns.cnki.net/kcms/detail/51.1307.TP.20181127.1616.010.html. [8]梁艳红,坎启轩,苏翌.基于主题优化分布的模糊文本分类研究[J/OL].计算机工程:1-8[2018-12-28].https://doi.org/10.19678/j.issn.1000-3428.0052033. [9]文武,李培强.基于K中心点和粗糙集的KNN分类算法[J].计算机工程与设计,2018,39(11):3389-3394. [10]张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(04):1023-1025 1035.
|