学术论文作者关系挖掘及可视化的研究与实现开题报告
2020-02-20 07:17:58
1. 研究目的与意义(文献综述)
1.1目的及意义
人工智能等技术的高速发展使得信息处理和加工日益便捷,借助先进的自然语言处理技术、web技术可挖掘学术论文作者间的复杂关系,从而能帮助其他研究人员更加便利检索到相关研究领域的研究成果。本课题将在知网中选取一个专业领域,通过web链接分析和自然语言分析等技术,获取学术论文作者间的关系;在此基础上采用信息处理技术对所获取作者关系进行可视化处理。
1.2国内研究现状
2. 研究的基本内容与方案
本次毕业设计的基本内容为,从知网中的某一个领域中获取到足够的文献,把这些相关文献的作者及其有关的作者建立联系,将这些关系进行整合,可以得到多种作者的关系,其中又可以分为主要的关系和次要的关系,把这些关系通过信息处理技术来实现可视化就是我们的结果。
本次设计的基本内容为:
1. 利用python爬虫技术结合算法,将知网网页通过url来进行爬取,获得该篇论文的html内容,这些内容是大量的非结构化的数据;
3. 研究计划与安排
2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
2019/3/1—2019/4/30:完成系统分析、设计与编码、系统测试与完善;
2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1]罗刚,张子宪.自然语言处理原理与技术实现[m].电子工业出版社, 2016.
[2]magnus lie hetland.python基础教程.第2版[m]. 2014
[3]刘浏,王东波.命名实体识别研究综述[j]. 情报学报. 2018,37(03):329-340.