面向小说《红楼梦》的人物图谱与事件年谱分析开题报告
2020-02-20 10:31:01
1. 研究目的与意义(文献综述)
自然语言处理(nlp)作为人工智能领域的一个重要分支,现在已经发展成为人工智能研究中的热点方向。
自然语言处理作为机器学习与语言学、统计学等的综合学科,不仅知识内容多,发展迅速,而且非常依赖于工程能力。
目前,统计学以及数据驱动的方法在nlp中占据着统治地位。
2. 研究的基本内容与方案
基本内容、目标:基于《红楼梦》的中文文本处理,生成《红楼梦》人物关系图谱和时间图谱。
例如当我们选择贾宝玉这一角色,会出现此角色的关系密切人物,即书籍核心人物关系。
拟采用的技术方案及措施:使用python语言工具、自然语言处理(nlp)技术,具体方法为使用中文分词工具jieba抽取关键词、使用word2vec训练词袋向量模型,利用依存句法分析抽取关系三元组,使用gephi绘制人物关系图谱和事件图谱,使用neo4j搭建一个小型的可视化系统并完成简单的问答操作。
3. 研究计划与安排
2018.12.30之前:完成毕业设计选题;
2019.01.20之前:结合选题和任务书的目标要求,完成开题报告撰写;
2019.05.10之前:完成系统的设计和实施、提交论文初稿;
2019.05.20之前:根据指导老师的修改意见,完成系统的修改完善和论文的修订;
2019.05.25之前:进行毕业设计答辩的相关准备,参加毕业设计答辩;
2019.05.31之前:根据答辩小组老师的修改意见,完善论文和系统,提交和上传最终的毕业设计相关资料(论文和系统)。
4. 参考文献(12篇以上)
1)【美】吴军,数学之美,北京:人民邮电出版社,2012
2)宗成庆,统计自然语言处理,北京:清华大学出版社,2008
3)【英】伯德,【英】克莱因,【美】洛普,Python自然语言处理,北京:人民邮电出版社,2010
4)【美】弗朗索瓦#8226;肖莱,Python深度学习,北京:人民邮电出版社,2018
5)周志华,机器学习,北京:清华大学出版社,2016
6)Daniel Jurafsky amp; James H.Martin,自然语言处理综论,北京:电子工业出版社,2018
7)Magnus Lie Hetland,Python算法教程,挪威,2016
8)阮敬编,Python数据分析基础,北京:中国统计出版社,2018
9)余本国,基于Python的大数据分析基础及实战,北京:中国水利水电出版社,2018
10)涂铭,刘祥,刘树春,Python自然语言处理实战核心技术与算法,北京:机械工业出版社,2018
11)Joshua Goodman: A bit of progress in language modeling, MSR Technical Report, 2001
12)Ronan Collobert et al.: Natural Language Processing (almost) from Scratch, J. of Machine Learning Research, 2011
13)Xiang Zhang, Junbo Zhao, and Yann LeCun: Character-level Convolutional Networks for Text Classification, NIPS 2015
14)Oriol Vinyals, Quoc Le: A Neural Conversation Model, 2015
15)Ilya Sutskever, Oriol Vinyals, and Quoc V. Le: Sequence to Sequence Learning with Neural Networks, NIPS 2014