基于弱监督学习的文本分类开题报告
2020-02-20 10:23:28
1. 研究目的与意义(文献综述)
1 课题来源、目的、意义以及国内外研究现状
1.1 课题来源
本课题来源于国家自然科学基金项目“基于迁移学习的地理领域知识图谱构建技术(61702386)”。
1.2 研究目的及意义
1.2.1 研究目的
文本分类是指根据给定的类别,将文本集合中的文本按照一定的规则确定指定类别的过程。
而弱监督学习文本分类指的是根据用户的提供少量的种子信息,来进行文本的分类任务。
1.2.2 研究意义
随着现在信息技术和互联网的不断发展,信息文本的数量正呈爆炸式增长,人们如果想快速地从这些海量信息资源中查找出自己所感兴趣的内容,就需要抽取出其中的关键词,来代表文档的主要内容,方便人们查询。关键词自动抽取是利用计算机从文献中提取出反映主题信息的词语,是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。
2. 研究的基本内容与方案
2 研究内容与方法
2.1 研究内容
本文主要研究在弱监督学习中神经模型进行文本分类的算法。探索在用户仅能提供有限的少量种子信息时,如何准确地将文本分类。研究的主要内容主要包括以下几点:
(1)种子信息获取及整合方案
种子信息可以是各种形式:每个类的一组代表性关键字、一些(少于十二个)标记的文本、类的表面名称等。现有的研究表明弱监督学习中不同类型的种子信息对神经模型的表现非常有帮助。
(2)伪文档生成器方案:
3. 研究计划与安排
3 进度安排
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] meng y , shen j , zhang c , et al. weakly-supervised neural text classification[j]. 2018.
[2] mikolov t , sutskever i , chen k , et al. distributed representations of words and phrases andtheir compositionality[j]. advances in neural information processing systems,2013, 26:3111-3119.
[3] luhn h p . astatistical approach to mechanized encoding and searching of literaryinformation[j]. ibm journal of research and development, 1957, 1(4):309-317.