前沿学科主题动态演进显示平台构建毕业论文
2022-01-05 20:32:59
论文总字数:27910字
摘 要
当前论文及研究文献呈现出井喷的态势,随着国内外大量的论文研究文献不断增加, 出现了研究方法上单一化、学术建制上浅薄化等问题。掌握当前研究动向了解趋势便可避免上述问题,以期在前人的研究基础上进行创新。然而面对当前实时涌现的海量文献,传统的方式已不再适合,出现了分析结果的滞后性、分析数据的单一性、分析结果的局限性等问题。海量的文献需要高效、实时的处理才能满足基于文献分析的研究主题的追踪。
利用网络爬虫技术可实现信息的实时获取,采用文本挖掘技术可以实现研究主题的实时计算,采用知识图谱可实现主题演进的可视化显示。基于以上三点,笔者设计并实现了前沿学科主题动态演进显示平台。平台可具有突现词计算及主题演进图谱查询等功能,具有实现文献信息的定时获取、主题演进的实时跟踪、易于使用且美观的数据分析工具。
在测试环节,笔者选取了Science杂志代表时代前沿的科学研究,基于2015年1月至2020年2月文献,进行平台功能测试,并可视化地展示了数据分析结果。测试结果显示,系统能成功获取研究主题趋势,实现预定目标。其结果对研究者规划未来研究方向和主题,提供了有重要价值的参考信息。
关键词: 主题演进 突现词 知识图谱 Science杂志
A Dynamic Visualization System for Research Theme Evolution
ABSTRACT
The emerging of research papers and works of literature is showing a blowout trend. With the increasing number of research papers and works of literature at home and abroad, problems are also seen such as the simple repetition of research methods and the superficial implementation of the academic establishment. A good understanding of the current research trends will not only help to avoid the above problems but also create innovations on top of previous research. Facing the huge amount of literature that is emerging in real-time, the traditional method not suits the need. It sees lags in analysis results, lacking diversity in analysis data, and limitations of analysis results among many other issues. The processing of massive literature needs efficient and real-time methods to satisfy the needs of effectively tracking of research topics based on literature analysis.
The use of web crawler technology can help with real-time information acquisition, applying text mining technology can achieve real-time calculation of research topics, and employing knowledge graphs can realize visual display of topic evolution. Based on the above three points, the author designed and implemented a dynamic evolution display platform for cutting-edge subjects. The platform has functions such as the calculation of emergent words and the query of the theme evolution map, the periodic acquisition of document information, real-time tracking of theme evolution, and easy-to-use data analysis and visualization.
In the testing, the author selected Science magazine to represent scientific research at the forefront of the times. Based on the literature from January 2015 to February 2020, the platform functional was tested, and the data analysis results were visualized. The testing results show that the system is able to successfully acquire the trends of the research themes. Thus the expected target has been achieved. The results provide valuable reference for researchers to plan their future research direction and topics. .
Key Words: Theme evolution; Emergent words; Knowledge graph; Science Magazine;
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究动态 1
1.2.1 国内研究现状 1
1.2.2 国外研究现状 3
1.3 课题研究内容 3
1.3.1 主要研究工作 3
1.3.2 论文结构安排 4
第二章 需求分析及关键技术 5
2.1 系统需求概述 5
2.1.1 需求概述 5
2.2 网络爬虫介绍 8
2.2.1 爬虫原理 8
2.2.2 WebMagic介绍 9
2.3 文本挖掘技术 10
2.3.1 关键词提取 10
2.3.2 突现词 11
2.3.3 知识图谱 11
第三章 主体系统设计 13
3.1 系统设计概述 13
3.1.1 前台页面设计 13
3.1.2 后端核心功能模块 18
3.2 网络爬虫设计 19
3.2.1 爬虫逻辑设计 19
3.2.2 程序设计 20
3.3 关键词提取 22
3.3.1 逻辑设计 22
3.3.2 关键词提取程序结构 24
3.3.3 数据库设计 26
3.4 主题演进计算与可视化 28
3.4.1 主题演进可视化界面设计 28
3.4.2 相关程序模块设计 30
第四章 系统信息及功能测试 32
4.1 系统信息 32
4.2 系统功能测试 33
4.2.1 数据总览 33
4.2.2 趋势分析 35
4.2.3 类团关键词 36
4.2.4 文献下载 37
4.3 测试结果与优化方案 37
5.2.1 系统性能 37
5.2.2 关键词提取 38
5.2.3 数据源的稳定性 38
第五章 总结与展望 39
5.1 课题总结 39
5.2 项目展望 39
致谢 40
参考文献 41
第一章 绪论
1.1 研究背景及意义
自从1880年science杂志第一篇文献发表开始,到2019年截止以中国科技前沿刊物核心(CSSCI)全国高校论文发表数便高达78641篇,平均每天有上百篇文献发表。论文及研究文献呈现出井喷的态势。
随着国内外大量的论文研究文献不断增加, 呈现出研究方法上单一化、学术建制上浅薄化等问题[1]。掌握学科研究主题的动向与演进轨迹,分析研究主题的出现、发展、转移、弱化、消失等规律,便可以从宏观上建立起研究发展的主题脉络,从而可为后续的研究及学科发展提供借鉴与参考[2]。
请支付后下载全文,论文总字数:27910字