登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于Word2vec的文本相似度算法的研究和设计开题报告

 2022-01-08 22:20:02  

全文总字数:1372字

1. 研究目的与意义及国内外研究现状

自然语言处理,英文是naturallanguage process, 共分为两部分自然语言生成系统把计算机数据转化为自然语言,便于人类的理解,自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本相似度的计算作为自然语言处理的重要组成部分,在信息检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问答、论文评分、短答题、机器翻译、文本摘要等任务中,在文本相关研究和应用中发挥着越来越重要的作用。词汇相似性是文本相似性的基本组成部分,是句子、段落和文档相似性的主要阶段。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

借助于谷歌2013年发布的word2vec工具,基于向量空间模型,尝试对传统的文本相似度计算方式改进,并实验。

3. 实施方案、进度安排及预期效果

序号 起止时间 工作任务
01 2018/01/01-2018/01/05 理解论文要求,编写并提交任务书。

02 2018/01/06-2018/01/09 查阅资料,编写并提交论文开题报告。

03 2018/01/10-2018/02/28 查阅文献,对于传统相似度的计算方法理解,对于文本的特征提取代码的实现
04 2018/03/01-2018/03/31 编写代码,实现传统的相似度算法
05 2018/04/01-2018/04/30 在传统的相似度算法上进行创新,并代码实现
06 2018/05/01-2018/05/20 撰写论文,进行毕业论文查重,答辩资格获取,提交毕业论文定稿,准备答辩。

4. 参考文献

[1]r. girshick fast r-cnn (2015)

[2]asurvey of text similarity approaches

[3]tomasmikolov, ilya sutskever, kai chen, greg corrado, and jeffrey dean. distributedrepresentations of words and phrases and their compositionality.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图