文学作品角色关系抽取及可视化的研究与实现文献综述
2020-04-15 09:43:06
近年来,在自然语言处理领域,信息抽取逐步发展成为了一个重要的分支,该部分涉及到了深层次的语言理解、篇章分析与推理、命名实体识别等自然语言研究领域。通过专业化、系统化、大规模地定量研究和评测推动了自然语言处理领域的研究与发展,也促进了自然语言处理研究与应用的紧密结合。可以说,信息抽取已成为当前自然语言处理和相关领域的研究热点。
在信息抽取领域中,命名实体(Named Entity)是原始文本中基本的信息元素,是正确理解文本的基础。那么,什么是命名实体呢?简单来说,命名实体即指现实世界中的具体的或抽象的实体,如人、组织、地点等,我们通常使用唯一的标志符来对其进行(专有名称)表示,如人名、组织名、地点名等。而关系(Relation)被看作两个实体在一段时间或空间范围内的某种联系,在命名实体之间,对于语义关系的抽取是信息抽取领域的一项重要的基础性研究。
我们注意到,人物分析是理解文学作品主题思想、剖析作品内涵的重要方面,而人物关系分析是通过人物间是否存在联系,联系强弱程度如何来构建人物关系网络,进而揭示人物相互关系,面对一些角色数量较多、角色关系较复杂的文学作品时, 很多读者难以直观的找到角色之间的联系,这势必会对文学作品内容的理解造成一定程度的影响,也有部分读者会选择使用传统笔记的方式,绘制角色关系图,以期能够完整的、全面的对文学作品进行理解。因此,如何帮助读者直观的了解所阅读作品的人物关系,或者帮助读者简化其绘制角色关系图的操作,是本课题所研究的主要内容。
在之前的研究中,人物关系抽取的方法主要有三种:
1)采用关系描述模式。该方法一般事先定义好需要抽取的人物关系类型,统计或自动生成关系描述词,接着收集人物关系描述模式或者有序列的关系特征词模式,利用这些模式匹配出更多的人物实例。
2)利用机器学习算法训练分类器。这类方法摒弃关系模式方法的强制匹配,#8194;而是选择有效特征,在标记关系数据的基础上,选择合适的机器学习算法(常用算法是SVM、改进SVM等)进行训练,得到关系分类器用以关系识别。
3)自动生成关系描述短语。这类方法一般采用聚类算法,无需定义人物关系类型,而是将两个人名实体的共现句中能表达关系的短语作为关系类型。
目前在大篇幅文学作品的人物分析研究中存在以下问题: 1)关于是否预先定义人物关系类型。2)关于人物关系在识别时被遗漏。3)关于无效的人名实体共现句。同时还存在着人物分析集中在少数特定人物,尚有大量未得到分析的人物; 侧重对单个人物进行分析,人物间联系较少涉及;人物分析主要以定性分析为主,定量分析较少等问题。
幸运的是,随着计算机的广泛应用与人工智能等技术的高速发展, 我们对信息的处理和加工日益便捷,借助先进的自然语言处理技术准确地抽取文学作品中复杂的人物关系能帮助读者更加深入地理解文学作品。换句话说,我们将试图如何利用一些自动化的方法帮助人们在较大篇幅文学作品中迅速了解人物关系。
{title}2. 研究的基本内容与方案
{title}本课题将选取一部人物关系复杂的文学作品作为数据加工对象,采用自然语言处理的技术深入开展文本分析,获取人物关系;采用信息处理技术对所获取人物关系进行可视化处理。