基于word2vec的中文文本相似度计算任务书
2020-09-15 22:04:04
1. 毕业设计(论文)主要内容:
Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括 CBOW和Skip-gram。使用Word2vec处理新闻内容,可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。
本课题的内容就是利用Word2Vec对新闻内容进行自动分词并做相似度计算。
2. 毕业设计(论文)主要任务及要求
完成的主要任务及要求:
1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。
3. 毕业设计(论文)完成任务的计划与安排
完成任务的时间节点:
(1)2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2017/2/23—2017/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2017/5/1—2017/5/25:撰写及修改毕业论文;
(4)2017/5/26—2017/6/6:准备答辩。
4. 主要参考文献
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付