基于高维数据挖掘的文学作品作者归属问题研究开题报告
2022-01-13 21:40:48
全文总字数:3527字
1. 研究目的与意义及国内外研究现状
随着新一代信息技术的发展以及互联网、物联网等概念的进一步推广,“数字化转型”正在成为全球社会、科技、经济发展的主线。在璀璨的历史长河里,各国的文化遗产都十分丰富,然而由于各种各样的原因使得许多传世之作的作者身份不能够十分准确地确定,同时由于传统的查阅文献、考证古迹等方式既费时又费力,使得让无名文学作品找回自己的作者这一问题的解决进度十分缓慢。
文本作者归属(authorship attribution)是通过机器学习等方式针对给定文本识别作者身份的过程。从统计学角度来看,这个过程正是一个对数据进行分类的过程。在古今各类文献中已经有很多分类方法根据给定文本的特征可供提取技术进行选择,
研究思路是将文本中隐含的作者无意识写作习惯通过一些可以量化的特征表现出来,即通过训练数据集对数据的挖掘提取相应的特征关键词进行分类、判别,从而可以得到一个预测模型,从而为作者归属问题提供新思路。
2. 研究的基本内容
本文所研究文学作品这样大量的字符文本可视作高维数据,对其进行数据挖掘,提取出不同的字段特征,从而为作者归属问题提供新思路。主要研究内容包括:研究和探索作者归属问题的新方法。通过对数据进行深度学习,创建一个围绕文学作品文本数据集的数字化新数据集。基于机器学习、高维数据挖掘等方法提取不同作者的个人特征,通过特征提取对数据进行降维。使得数据从超高维复杂数据问题简化为一般高维数据甚至是一般维度的数据问题,从而获得不同的分类器预设,可以将传统机器学习方法进行使用。在整个分析过程中,对数据进行测试集和训练集的分割,利用训练集建立模型,在测试集中进行对比。
3. 实施方案、进度安排及预期效果
实施方案:
第一部分首先对论文的研究背景及意义进行概述,概括近十年来国内外对该选题的研究现状,最后对本文的创新点进行阐述;
第二部分介绍数据来源,根据其特征选定方法;再介绍本文进行研究所使用的方法理论基础;
4. 参考文献
[1]mosteller f, wallace d l. inference in an authorship problem: a comparative study of discrimination methods applied to the authorship of the disputed federalist papers[j]. journal of the american statistical association, 1963, 58(302): 275-309.
[2]burrows j f. word-patterns and story-shapes: the statistical analysis of narrative style[j]. literary linguistic computing, 1987, 2(2): 61-70.
[3]stamatatos e. a survey of modern authorship attribution methods[j]. journal of the american society for information science and technology, 2009, 60(3): 538-556.