基于word2vec的中文文本相似度计算文献综述

2021-02-26 11:16:36

1．目的及意义

Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库，通过优化后的训练模型快速有效的将一个词语表达成向量形式，其核心架构包括 CBOW和Skip-gram。

使用Word2vec处理新闻内容，可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作，比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度，并排序。也可以在训练时，设置-classes参数来指定聚类的簇个数，使用kmeans进行聚类。

本课题的内容就是利用Word2Vec对新闻内容进行自动分词并做相似度计算。

{title}

2. 研究的基本内容与方案

{title}

完成的主要任务及要求：

1.查阅15篇相关文献（含2篇外文），并每篇书写200—300字文献摘要（装订成册，带封面）；
2.认真填写周记，完成800字开题报告；
3.完成5000中文字以上的相关英文专业文献翻译，并装订成册（中英文一起，带封面）；
4.完成系统的编码与调试；
5.完成10000字以上的毕业论文；
6.进行论文答辩。

研究方法：

第一步：学习Word2vec，了解Word2vec的工作原理和算法机制，并掌握其应用方法。

第二步：查阅相关文档文献资料，了解课题所涉内容，翻译外文文献。

第三步：深度学习Word2vec，参考相关文献资料等，设计实现文本相似度的计算程序，实现新闻的自动分词并完成相似度的计算。

第四步：调试分析，撰写及修改毕业论文，准备答辩。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码