语义相似度计算方法研究开题报告
2020-03-27 11:28:13
1. 研究目的与意义(文献综述)
随着计算机的广泛应用和intemet的普及,各类信息都在急速地膨胀。
信息量的增长给人们带来了方便,同时也带来了信息查找较为困难,人们越来越希望能够对词义归类以便进行科学研究、商业决策和企业管理,带来经济效益或社会效益。
在现实世界中,词语是最重要的信息载体。
2. 研究的基本内容与方案
基本内容:
本文主要根据语义相似度计算理论的知识,特别是在文本语义相似度方面的深入研究,对原有的传统算法提出改进措施,设计并完成相似度计算系统,主要内容包括以下三个部分:
1.学习研究相似度计算理论,理解语义相似度计算方法的相关概念、文本的中文分词技术、基于 vsm 的文本相似度计算方法,字符串匹配算法等各类算法思想做基本了解,分析各种算法的优缺点、适用特点。
2.重点对基于语义的相似度算法做出研究,分析和学习《知网》的知识库系统,理解对于义原的相似度之间做出优化,并在此基础上加入段落相似度的因素,对于新改进的算法做出有效性的验证。
3.根据算法理论,设计并实现文本相似度系统,介绍系统的组成模块、基本流程、数据结构、结构设计,利用设计系统的特点,选择合适的技术路线和开源框架,完成对各个模块的实现并应用于实际项目中。
3. 研究计划与安排
(1)2018/1/14--2018/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2018/3/1--2018/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2018/5/1--2018/5/30:撰写及修改毕业论文;
(4)2018/5/26--2018/6/6:准备答辩;
附:详情见周记
4. 参考文献(12篇以上)
[1] zhen y, zhong x, li l, et al. animproved algorithm for conceptual semantic similarity in domain ontology[c]//joint international information technology, mechanical and electronicengineering conference. 2017.
[2] 李昊迪. 语义相似度的混合计算方法. 哈尔滨工业大学, 2013.
[3] 陈二静,姜恩波.文本相似度计算方法研究综述. 《数据分析与知识发现》2017 第6期