基于标注的实体和关系的联合抽取研究开题报告
2020-02-19 22:29:19
1. 研究目的与意义(文献综述)
进入21世纪以来,随着科学技术不断的发展,有效的信息挖掘已经成为了一个重要的课题,在信息的提取中,联合提取实体和关系是信息提取中的一项重要任务。为了解决这个问题,我们首先提出一种新颖的标签方案,可以将联合提取任务转换为标记问题。 然后,根据我们的标签计划,我们研究不同的端到端模型直接提取实体及其关系,不单独的识别实力和他们的关系。
实体和关系的联合提取是检测实体提及并同时从非结构化文本中识别它们的语义关系,如图1所示。 与开放信息提取(open ie)(banko et al.,2007)不同,其关系词是从给定句子中提取的,在该任务中,关系词是从可能不出现在给定句子中的预定义关系集中提取的。知识库的知识提取和自动构建是一个重要问题。
传统方法以流水线方式处理该任务,即首先提取实体(nadeau and sekine,2007),然后识别它们的关系(rink,2010)。 这个分离的框架使任务易于处理,每个组件都可以更灵活。 但它忽略了这两个子任务之间的相关性,每个子任务都是一个独立的模型。实体识别的结果可能会影响关系分类的表现并导致错误的传递(li and ji, 2014).
2. 研究的基本内容与方案
我们提出了一种新的标记方案和具有偏向目标函数的端到端模型,用来共同提取实体及其关系。
标记方案:每个单词都分配了一个标签,有助于提取结果。标签“o”表示“其他”标签,这意味着相应的单词与提取的结果无关。除了“o”之外,其他标签由三部分组成:实体中的单词位置,关系类型和关系角色。
从标记序列到提取结果:从图2中的标签序列,我们知道“特朗普”和“美国”共享相同关系类型“country-president”,“apple inc”和“steven paul jobs”共享相同关系类型“公司 - 创始人” 。我们将具有相同关系类型的实体组合成三元组以获得最终结果。因此,“特朗普”和“美国”可以组合成一个三元组,其关系类型是“国家 - 总统”。
3. 研究计划与安排
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
1. [zheng et al., 2017] suncong zheng, feng wang, hongyunbao, yuexing hao, peng zhou, and bo xu. joint extraction of entities andrelations based on a novel tagging scheme. in proc. of acl, pages 1227–1236, july 2017
2. [miwa and sasaki, 2014] makoto miwa and yutaka sasaki.modeling joint entity and relation extraction with table representation. in emnlp, pages 1858–1869, 2014.
3. [ren et al.,2017] xiang ren, zeqiu wu, wenqi he, meng qu, clare r voss, heng ji, tarek f abdelzaher,and jiawei han. cotype: joint extraction of typed entities and relations withknowledge bases. in proc. of the 26th international conference on world wideweb, 2017.