面向小说《红楼梦》的人物图谱与事件年谱分析文献综述
2020-04-15 17:29:27
自然语言处理(NLP)作为人工智能领域的一个重要分支,现在已经发展成为人工智能研究中的热点方向。自然语言处理作为机器学习与语言学、统计学等的综合学科,不仅知识内容多,发展迅速,而且非常依赖于工程能力。目前,统计学以及数据驱动的方法在NLP中占据着统治地位。NLP可以被应用于很多领域,如机器翻译、情感分析、智能问答、文摘生成、文本分析、舆论分析、知识图谱等。在数据爆炸性增长、信息过载问题越来越严重的时代下,面对海量信息,使用人力来分析和驱动的传统方式,已经显得越来越捉襟见肘。这样的情况下,能够自动化处理大规模文本相关的数据的NLP,即将成为未来人工智能发展技术的新趋势和方向。其已构成的知识体系如下:句法语义分析、关键词抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统等。
本次毕业设计基于中国四大名著之一《红楼梦》,使用自然语言处理(NLP)将红楼梦中繁杂的人物关系抽取并图像化,事件顺序图像化,使得读者在未读到此书时,便能知晓书籍中核心人物关系以及事件顺序,节省读者大量的时间成本,并且效率更高。
{title}
2. 研究的基本内容与方案
{title}基本内容、目标:基于《红楼梦》的中文文本处理,生成《红楼梦》人物关系图谱和时间图谱。
例如当我们选择贾宝玉这一角色,会出现此角色的关系密切人物,即书籍核心人物关系。
拟采用的技术方案及措施:使用Python语言工具、自然语言处理(NLP)技术,具体方法为使用中文分词工具jieba抽取关键词、使用Word2Vec训练词袋向量模型,利用依存句法分析抽取关系三元组,使用Gephi绘制人物关系图谱和事件图谱,使用neo4j搭建一个小型的可视化系统并完成简单的问答操作。
3. 参考文献
1)【美】吴军,数学之美,北京:人民邮电出版社,2012
2)宗成庆,统计自然语言处理,北京:清华大学出版社,2008
3)【英】伯德,【英】克莱因,【美】洛普,Python自然语言处理,北京:人民邮电出版社,2010
4)【美】弗朗索瓦#8226;肖莱,Python深度学习,北京:人民邮电出版社,2018
5)周志华,机器学习,北京:清华大学出版社,2016
6)Daniel Jurafsky amp; James H.Martin,自然语言处理综论,北京:电子工业出版社,2018
7)Magnus Lie Hetland,Python算法教程,挪威,2016
8)阮敬编,Python数据分析基础,北京:中国统计出版社,2018
9)余本国,基于Python的大数据分析基础及实战,北京:中国水利水电出版社,2018
10)涂铭,刘祥,刘树春,Python自然语言处理实战核心技术与算法,北京:机械工业出版社,2018
11)Joshua Goodman: A bit of progress in language modeling, MSR Technical Report, 2001
12)Ronan Collobert et al.: Natural Language Processing (almost) from Scratch, J. of Machine Learning Research, 2011
13)Xiang Zhang, Junbo Zhao, and Yann LeCun: Character-level Convolutional Networks for Text Classification, NIPS 2015
14)Oriol Vinyals, Quoc Le: A Neural Conversation Model, 2015
15)Ilya Sutskever, Oriol Vinyals, and Quoc V. Le: Sequence to Sequence Learning with Neural Networks, NIPS 2014