基于Word2vec的文本相似度算法的研究和设计开题报告
2022-01-08 22:20:02
全文总字数:1372字
1. 研究目的与意义及国内外研究现状
自然语言处理,英文是naturallanguage process, 共分为两部分自然语言生成系统把计算机数据转化为自然语言,便于人类的理解,自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
文本相似度的计算作为自然语言处理的重要组成部分,在信息检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问答、论文评分、短答题、机器翻译、文本摘要等任务中,在文本相关研究和应用中发挥着越来越重要的作用。词汇相似性是文本相似性的基本组成部分,是句子、段落和文档相似性的主要阶段。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容
借助于谷歌2013年发布的word2vec工具,基于向量空间模型,尝试对传统的文本相似度计算方式改进,并实验。
3. 实施方案、进度安排及预期效果
序号 | 起止时间 | 工作任务 |
01 | 2018/01/01-2018/01/05 | 理解论文要求,编写并提交任务书。
|
02 | 2018/01/06-2018/01/09 | 查阅资料,编写并提交论文开题报告。
|
03 | 2018/01/10-2018/02/28 | 查阅文献,对于传统相似度的计算方法理解,对于文本的特征提取代码的实现 |
04 | 2018/03/01-2018/03/31 | 编写代码,实现传统的相似度算法 |
05 | 2018/04/01-2018/04/30 | 在传统的相似度算法上进行创新,并代码实现 |
06 | 2018/05/01-2018/05/20 | 撰写论文,进行毕业论文查重,答辩资格获取,提交毕业论文定稿,准备答辩。
|
4. 参考文献
[1]r. girshick fast r-cnn (2015)
[2]asurvey of text similarity approaches
[3]tomasmikolov, ilya sutskever, kai chen, greg corrado, and jeffrey dean. distributedrepresentations of words and phrases and their compositionality.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付