基于语境的短文本信息提取分析研究开题报告
2022-01-11 15:59:33
全文总字数:1390字
1. 研究目的与意义及国内外研究现状
随着计算机诞生与发展,人类逐渐迈进了信息化社会时代,信息化的发展让人们的生活变得更加便利,丰富多彩。
人类社会生产活动产生的各种信息转换成数据,不断沉积在电子设备与计算机网络之中,伴随着这样的背景,淘宝,微信,微博,qq等逐渐成为人们日常中不可或缺的存在。
信息化时代实现了信息资源的共享,然而网络上的信息90%以上都是文本信息,因此文本信息的提取分析的问题成为信息技术领域的热门问题。
2. 研究的基本内容
文本的表示及其特征项的选取是把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
3. 实施方案、进度安排及预期效果
我会参考网上已有的相关资料对课题进行进一步的研究,将淘宝商品的数据集进行研究对象,初步定下文本的处理过程1)对所有文本进行分词2)分词的同时计算各个词的正确性3)所有文本分词完毕后计算IDF值4)生成文本对应的n维向量预计2月份查阅资料,进行课题的深入了解3月份准备数据,制定算法流程4月-5月完成算法及论文
4. 参考文献
1.邱震强. 语境及其对语义的制约[J]. 长沙理工大学学报(社会科学版), 2009, 24(1):85-88.2.晋耀红,苗传江.一个基于语境框架的文本特征提取算法,计算机研究与发展,2004,41(4):582-5863.蔡志威.基于概念的短文本分类,华南理工大学,20164.王仲远,程健鹏,王海勋,文继荣 .短文本理解研究,计算机研究与发展,2016 , 53 (2) :262-269 5.宗成庆. 自然语言理解[R]. 北京: 中国科学院模式识别国家重点实验室, 2007.