生物医疗领域信息抽取研究文献综述

2020-04-24 09:41:42

1．目的及意义

一般意义上，信息抽取的定义为：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。而生物医疗文本中的信息抽取，主要是实体识别对于构建和挖掘大型临床数据库以及服务于临床决策具有重要意义。而其中一个就是医疗文本信息中关于事件和事件的提取，包括日期、疾病名称、治疗手段等。电子病历是医疗机构生成的针对于医疗活动过程中文字、图表等数据的数字化信息，而且也是便于转储、管理和传输的医疗记录，其中的内容是由医务人员撰写的与患者开展医疗有关的过程实录，包括病程记录、出院小结等部分。电子病历中包含了大量丰富的医疗知识，通过分析即可得到诸如疾病的患病特征、用药情况以及治疗方式等各项之间的潜在联系。这样的知识数据可以对医疗问题决策提供有建设性的帮助，并且还可以为用户建立个性化的健康模型。

从2007年起，临时信息提取的研究就已经备受关注，近年来人们尝试将信息提取系统运用在临床医疗数据上，来帮助医生或临床医疗研究人员研究临床事件的时间线，例如发病症状、病情严重程度以及治疗规程等等。在2015年和2016年Clinical TemEval发布的任务中，参与人员已经很好地完成了临床报告中关键内容的提取：时间表达，事件表达以及时序关系等等。Clinical TemEval 2017 提出了一个新的方向：领域的适应性，即在一种疾病的临床报告文本上训练的模型是否能适用于另一种疾病。这两种疾病的患病群体的医学报告在表达上有很大的不同，这给研究带来了很大的挑战，也给未来的医疗文本提取的普适性研究带来了巨大的潜力。

自从ClinicalTemEval 2017发布任务以来，共有11支队伍提交了他们的结果。分析报告表明，这些队伍都运用了共同的一些特征，例如n-grams、词表、词性标记、医学语言系统（UMLS）等等。在时间表达、事件表达和时序关系的提取中相较于基于规则提取的baselines都有所提升。但是，数据表明，跨领域提取的研究仍然是一个巨大的挑战。相对于针对同一领域数据训练和测试的准确率来说，跨领域提取的准确率下降了不小于20%的百分比。所以，在医学领域中，建立一个稳定而高效的医疗信息提取系统仍然需要大量的研究工作。未来，将会有更多不同种类的领域适应性技术运用在医学文本中，来弥补跨领域文本提取表现的不足。

{title}

2. 研究的基本内容与方案

{title}

1、主要内容：

（1）提取事件表达（ES）。

例如，给一段临床医学报告文本：

April23, 2014: The patient did not have any postoperative bleeding so we will resumechemotherapy with a larger bolus on Friday even if there is slight nausea.

需要提取的内容：

ES:

· bleeding

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码