基于深度学习的文本分类研究任务书
2020-02-18 15:45:55
1. 毕业设计(论文)主要内容:
目前,人工智能领域能处理的三大类信息格式主要为:文本、语音和图像。其中,文本数据由于其庞大的数据源和相对成熟的处理技术,备受关注。目前,对文本的分类具有较强的应用价值,被广泛应用于各项领域,例如对新闻、文章的自动分类与标签标记;对专利文献的自动分类;对用户反馈意见的分类等。在技术手段上,不仅有基于统计词频的传统文本分类方法,也有基于SVM、随机森林训练模型、CNN、KNN等的分类方式,还可以采用聚类等无监督、标签的文本分类方法。本文拟采用KNN分类方法,针对搜狗新闻文本语料库进行分类研究,设计并完成该系统,实现对文本的分类功能,输出每个训练样本对各个类别的概率,并将最高概率类别视为最终分类结果,分类准确率应不低于80%。并实现简易的文本分类仿真平台。
2. 毕业设计(论文)主要任务及要求
1.查阅相关资料15篇以上(其中近五年英文文献不少于3篇)
2.完成开题报告
3.根据课题要求完成对数据集的建立并选用基本网络模型。
3. 毕业设计(论文)完成任务的计划与安排
第1周—第3周 搜集资料,撰写开题报告;
第4周—第5周 论文开题;
第6周—第12周 撰写论文初稿;
第12周—第15周 修改论文;
第16周 论文答辩。
4. 主要参考文献
[1]朱世玲,郑彦.改进的文本特征选取算法研究[j/ol].计算机技术与发展,2019(05):1-4[2018-12-28].http://kns.cnki.net/kcms/detail/61.1450.tp.20181221.1554.050.html.
[2]汪少敏,杨迪,任华.基于深度学习的文本分类系统关键技术研究与模型验证[j/ol].电信科学:1-11[2018-12-28].http://kns.cnki.net/kcms/detail/11.2103.tn.20181218.1034.002.html.
[3]孙伟,刘文静,葛丽阁,余璇.一种基于词加权lda模型的专利文献分类方法[j/ol].计算机技术与发展,2019(03):1-10[2018-12-28].http://kns.cnki.net/kcms/detail/61.1450.tp.20181219.1510.004.html.