给予BERT的CNS论文主题演进可视化研究毕业论文
2022-01-05 21:21:25
论文总字数:21246字
摘 要
随着生命科学领域发展迅速,研究人员在生命科学领域的学术研究论文数量上升势头强劲。CNS作为生命科学领域最顶尖的学术期刊,具有重要的研究价值。本文以《Science》2016-2020年间收录的1098篇期刊为研究对象,以BERT模、共词分析法、聚类分析等方法作为研究方法,利用BibExcel、Neo4j、SPSS、Anaconda、PowerBI等工具作为数据分析及可视化工具。利用高频词共现分析,共词网络图显示了研究领域的主题分布以及研究热点;通过突现词研究及其词云可视化对研究热点的转移进行探索;基于BERT对期刊进行自然语言处理获得揭示主题实体特征向量进行可视化展示以此揭示主题的演进,从多角度对论文主题演进进行可视化研究。
关键词:BERT模型;主题演进;主题挖掘;CNS;聚类分析;可视化研究
Abstract
With the rapid development of life sciences, the number of researchers ’academic research papers in life sciences is on the rise. As the top academic journal in the field of life sciences, CNS has important research value. This article takes 1098 papers included in Science from 2016 to 2020 as the research object, uses co-word analysis, BERT, cluster analysis and other methods as research methods, and uses tools such as BibExcel, Neo4j, SPSS, Anaconda, PowerBI as data analysis And visualization tools. Using high-frequency word co-occurrence analysis, the co-word network graph shows the distribution of topics in the research field and research hotspots; explore the transfer of research hotspots through the study of emergent words and their word cloud visualization; natural language processing of journals based on BERT is revealed The subject entity feature vectors are visually displayed to reveal the evolution of the theme, and the visual research on the theme evolution of the thesis is conducted from multiple angles.
KEYWORDS:BERT model; Theme evolution; Topic mining; CNS; Clustering analysis ;Visual research
目录
第一章绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.2.1 论文主题的研究现状 1
1.2.2现存不足及BERT模型的研究 2
1.3 研究内容与思路 2
第二章 数据获取与处理 4
2.1 数据获取 4
2.2 数据清洗及处理 4
2.2.1 数据清洗 4
2.2.2数据处理 4
第三章 CNS论文词频及可视化分析 6
3.1 关键词词频统计统计及分析 6
3.2高频关键词相似矩阵及知识图谱 7
第四章 CNS论文研究方向可视化分析 10
4.1《Science》研究热点分析 10
4.1.1 共词矩阵的搭建 10
4.1.2共现矩阵可视化及聚类分析 11
4.2《Science》研究趋势分析 16
4.2.1 基于不同年代网络图的趋势分析 16
4.2.1突现词挖掘及其可视化展示 17
第五章 基于BERT的主题演进研究 20
5.1 BERT模型简介 20
5.2 BERT模型训练及以应用 21
5.2.1 BERT获取词向量 21
5.2.2实验结果可视化及分析 24
第六章 总结 26
6.1结论 26
6.2不足与展望 27
致谢 28
参考文献 29
第一章绪论
1.1 研究背景及意义
随着国家的政策以及现行的发展趋势,CSN论文在国内甚至全球的重要性越来越高,对于论文主题的演进趋势的研究成为时下研究的重点。夏恩君在《开放式创新研究的演化路径和热点领域分析 —基于科学知识图谱视角》中[8]指出近年来,利用知识图谱工具对特定专业领域的研究趋势和发展趋势进行文献计量分析可视化已成为学者的热点,如再生医学,云计算,知识管理,企业家精神管理,公共危机管理等,以及社交网络在许多其他领域中已有该领域的研究成果。但是,尚未发现对CNS全部期刊的演进和热点领域进行可视化文献计量分析的成果文献。胡吉明在《基于动态LDA主题模型的内容主题挖掘与演化》中[4]指出文本内容挖掘和语义建模是信息推荐和数据挖掘领域的研究热点和核心内容,而文本内容的主题挖掘是语义建模的重要基础,在当前的网络环境中,信息内容具有随时间动态互动和发展的特征。因此,需要创新信息内容挖掘方法,提高内容主题挖掘的准确性,并动态描述其发展趋势。本文则以《Science》为例通过NLP领域较新的BERT模型进行主题演进分析,旨在做出不同的可视化分析。
1.2 国内外研究现状
1.2.1 论文主题的研究现状
近些年由于自然语言处理的发展,以及人工智能以及数据分析的软硬件实力增强,通过数据分析论文主题演进拥有了较高的关注度,刘自强在《多维主题演化分析模型构建与实证研究》中[3]指出多数学科仅仅围绕自己相关领域展开主题演进分析,但正因为局限于相关领域导致现有的主题演进探讨的领域比较局限,多为某一个单一领域甚至某一学科内的探讨。胡吉明在《基于动态LDA主题模型的内容主题挖掘与演化》中[1]指出主流的主题演进分析主要采用LDA模型,LDA模型的关键步骤为获取文章的主题词,关键词抽取的准确度以及效率就成了关键的问题,关键词抽取的方式为大多数主流NLP方法。李昌在《我国情报学硕博学位论文研究主题演化分析》中[5]指出现有研究大多从热点的角度进行分析。尽管从不同的角度对学科发展的现状进行了深入的研究并给出了一些启示,但很难形成学科发展的网络结构,
研究人员难以从整体上判断与把握学科领域的研究。
请支付后下载全文,论文总字数:21246字