基于Python的小说文本挖掘系统开题报告
2022-01-14 21:26:23
全文总字数:1192字
1. 研究目的与意义及国内外研究现状
此次毕业设计的选题是小说文本挖掘系统,是由于一位影响深远的小说家所影响,想要去尝试能否用计算机来分析小说文本,从中得出一些有意义的结果;自然语言处理现如今已经是人工智能的一个重要分支,有很多学者都在对此进行深入的研究,中文作为一个难以理解的语言,对中文进行分析处理的难度相较其他语言来说难度要大一些,要从小说中分析出人物情感变化固然也是有挑战性的;希望通过此次毕业设计,能够使用计算机分析小说文本,分析小说的性质,其中人物的情感变化,以及其他一些有意义的结果,尝试分析博大精深的中文。
国内外研究现状
自然语言处理是现代技术最重要的组成部分之一,其目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。近年来,自然语言处理处于快速发展阶段,暂时的研究成果来看,部分问题已经得到解决,很多基础问题已经得到解决,但是仍然暴露和存在很多的问题,研究中仍然缺乏坚实的理论基础。
2. 研究的基本内容
此次毕业设计的研究内容是使用深度学习来进行中文的文本挖掘,首先将文本进行分词,然后尝试使用神经网络进行词性标注、语义角色标注,在此基础上,对上述结果进行句法分析、并对内容进行情感分析、相似度分析,尝试识别出实体间关系。
将小说文本通过一些分析从而得到一些有意义的结果,将这些结果通过可视化技术显示出来,比如关系网络展示等;使用一些数据来说明一些问题,并通过分析得出这些问题的答案。
3. 实施方案、进度安排及预期效果
在做此系统之前,首先对可能运用的技术与算法进行系统的学习,准备使用45天完成技术与算法的学习,然后使用60天进行系统的制作与论文撰写,在论文答辩前完成论文修改等后续工作。
4. 参考文献
[1]用python写网络爬虫【澳】.人民邮电出版社,理查德劳森,2016.9
[2]deep learning https://abb67f88ae59bb701c7025c6c78ddc76.vpn.nuist.edu.cn/
[3]薛为民, 陆玉昌. 文本挖掘技术研究[j]. 北京联合大学学报:自然科学版, 2005, 19(4):59-63.