基于word2vec的中文文本相似度计算文献综述
2021-02-26 11:16:36
Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括 CBOW和Skip-gram。
使用Word2vec处理新闻内容,可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。
本课题的内容就是利用Word2Vec对新闻内容进行自动分词并做相似度计算。
{title}2. 研究的基本内容与方案
{title}完成的主要任务及要求:
1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。
研究方法:
第一步:学习Word2vec,了解Word2vec的工作原理和算法机制,并掌握其应用方法。
第二步:查阅相关文档文献资料,了解课题所涉内容,翻译外文文献。
第三步:深度学习Word2vec,参考相关文献资料等,设计实现文本相似度的计算程序,实现新闻的自动分词并完成相似度的计算。
第四步:调试分析,撰写及修改毕业论文,准备答辩。