面向市场问卷调研的英文短文本相似度计算方法研究任务书
2020-04-06 11:06:44
1. 毕业设计(论文)主要内容:
1. 前期知识储备:
通过阅读相关文献,理解词语相似度、句子相似度、短文本相似度、语义的相关概念与计算方法;
2.完成功能:
针对英文短文本特点,从词干提取、特征建模出发,基于BTM优化模型,获取短文本语义特征,设计基于语义的英文短文本相似度计算方法,利用来自市场问卷调查公司的调研数据,测试其匹配率,并与其它主题模型进行分析比较。
2. 毕业设计(论文)主要任务及要求
1. 查阅15篇相关文献(含近五年外文10篇),并每篇书写200—300字文献摘要(装订成册,带封面);
2. 认真填写周记,完成800字开题报告;
3. 完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4. 完成系统的编码与调试;
5. 按武汉理工大学理工类本科生毕业论文撰写规范撰写毕业论文,论文字数不少于10000字。
6. 进行论文答辩。
3. 毕业设计(论文)完成任务的计划与安排
1. 2018/1/22—2018/2/28:明确选题,查阅相关文献,外文翻译和撰写开题报告;
2. 2018/2/28—2018/4/30:系统架构,系统设计与开发(或算法研究与设计)、系统测试、分析、比较与完善;
3. 2018/5/1—2018/5/25:撰写论文初稿;修改论文,定稿并提交论文评审;
4. 2018/5/26—2018/6/6:准备论文答辩。
4. 主要参考文献
[1] 朱甜甜.短文本语义相似度量的方法和应用研究[D].上海:华东师范大学,2014.
[2] Bouaziz A, Dartigues-Pallez C, Pereira C D C, et al. Short Text Classification Using Semantic Random Forest[M]. Switzerland: Springer International Publishing, 2014: 288-299.
[3] Pradhan N, Gyanchandani M, Wadhvani R. A Review on Text Similarity Technique used in IR and its Application[J]. International Journal of Computer Applications, 2015(9): 120.
[4] 张芸. 基于BTM主题模型特征扩展的短文本相似度计算[D]. 安徽大学, 2014.
[5] Yan X, Guo J, Lan Y, et al. A biterm topic model for short texts[C]. International Conference on World Wide Web. ACM, 2013: 1445-1456.
[6] Shareghi E, Bergler S. Feature Combination for Sentence Similarity[M]. Advances in Artificial Intelligence, 2013: 150-161.
[7] Albitar S, Fournier S, Espinasse B. An Effective TF/IDF-Based Text-to-Text Semantic Similarity Measure for Text Classification[M]. Web Information Systems Engineering-WISE 2014. Springer International Publishing, 2014: 105-114.
[8] Bassel Alkhatib, Ammar Alnahhas, Firas Albadawi. A New Method for Measuring Text Similarity in Learning Management Systems Using WordNet[J]. International Journal of Web-Based Learning and Teaching Technologies (IJWLTT), 2014, 9(2): 1-13.
[9] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013(26): 3111-3119.
[10] 刘宏哲.文本语义相似度计算方法研究[D].北京:北京交通大学,2012.
[11] MattJ.Kusner,YuSun,NicholasI.Kolkin,et.Weinberger.FromWord Embeddings To Document Distances[A].Proceedings of the 32nd International Conference on Machine Learning, Lille, France, 2015:217-220.