基于向量表示的文本聚类方法研究任务书
2020-02-20 08:36:50
1. 毕业设计(论文)主要内容:
身处信息爆炸的时代,面对内容繁杂、质量参差不齐的海量信息,需要付出大量的精力去筛选,高效的文本聚类可以帮助人们更好、更快地获取最新的资讯。
本课题选取中文语料库为数据集,以自然语言处理技术为基础,按照机器学习基本思想完成数据预处理、文本向量表示、模型构建,最终实现对中文文本的有效聚类。
2. 毕业设计(论文)主要任务及要求
1.查阅15篇相关文献(含近五年外文3篇),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成1500字开题报告(“设计的目的及意义”至少00汉字;“基本内容和技术方案”至少400汉字;学术的调研是否充分展开?基本内容和技术方案是否已明确?是否已经具备开始设计(论文)的条件?是否能够达到预期的目标?是否同意进入设计(论文)阶段);
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
3. 毕业设计(论文)完成任务的计划与安排
1.2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
2.2019/3/1—2019/4/30:完成解决方案合理性、科学性认证,包含实验结果分析;;
3.2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 主要参考文献
1)magnus lie hetland. python基础教程.第2版[m]. 2014.
2)mckinney w . 利用python进行数据分析[m]. 机械工业出版社, 2014.
3)peter harrington. 机器学习实战[m]. 人民邮电出版社,2013.