量化生物医学文献中的概念新颖性外文翻译资料
2022-08-23 15:18:29
英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料
量化生物医学文献中的概念新颖性
抽象
我们基于MEDLINE中指定的医学主题词(MeSH)的时间概况,介绍了科学文章中的几种新颖性度量。首先,对所有MeSH主题词(和MeSH主题词对)MeSH terms (and pairs of MeSH terms)的时间分布进行经验表征,并建模为logistic增长曲线。其次,论文的新颖性被其最年轻的MeSH(和成对的MeSH)所捕获,以年限和先前论文量来衡量。自1985年以来在MEDLINE上发表的所有论文中,我们发现单独的概念的新颖性很少见(2.7%的论文的MeSHle;3岁; 1.0%的论文的MeSHle;20岁),而组合新颖性是常态(68%的MeSHle;3岁; 90%的MeSHle;10岁。此外,这些新颖性指标与文章影响(通过收到的引文来衡量)和作者的专业年龄有着复杂的相关性。
关键词:文献计量学;MEDLINE; 新颖性
1引言
原则上,每篇发表的论文都应具有一个或多个新颖的方面。但是,并非所有论文都一样新颖。有些论文介绍了以前从未描述过的新想法,而另一些则增加或证实了已有的想法。在这里,我们提出了几种新颖性度量,这些新颖性度量是根据新颖性的字面解释可看作与价值,影响或创造力无关的时间的函数。这使我们能够研究时间的内在贡献,这是新颖性的一个方面。
我们认为,在发布之时,它应该是可衡量的,而任何想法的价值和影响都反映了发布后(长时间)发生的事情。文章新颖性的量化度量可以帮助学者追踪科学中概念的起源。先前,学者们使用了各种方法,用于测量物品的新颖性和研究了其影响,以及与协作模式的相关性19,13,12,18 ]。学者也认为,新颖性在科学的发展中起着重要的作用[ 19 ],同时坚持认为新颖的文章很少见[ 19 ],并且可能在早期[ 11 ]并没有引起足够的重视。16 ]。此外,新颖性也被认为是新的想法[13,12,18]或现有想法的非传统配对[19]。我们试图通过在大量生物医学文章中使用领域专家识别的概念,并量化每一篇文章中的个体和一对概念的新颖性,来克服这个问题。
我们使用MEDLINE中发布的2230万篇文章的数据集来衡量文章的科学新颖性。每篇文章都带有一组医学主题词(MeSH)),其中每个术语都是称为MeSH树的更大层次结构的一部分。我们建议使用MeSH术语来识别文章中提到的一组标准化的重要生物医学概念。此外,还记录了每篇文章的出版年份。使用完整的MEDLINE语料库,我们为曾经提到的每个个人和成对概念创建了一个时间概况。此外,我们提出了logistic增长曲线,用于对概念的四个常见时间阶段建模:(1) 最初的磨合期,其特征是关于概念的文章数量增长缓慢,然后是(2)与概念相关的出版物的快速增长,导致(3)增长开始放缓的阶段,最后是(4)接近恒定的增长阶段。我们的模型捕捉了MEDLINE中大多数主题词的各种时间趋势。然后利用这些个体和概念对的时间分布来计算每个MEDLINE文章的各种新颖性得分。我们对这些文章新颖性评分的分析表明,在生物医学中很少有个别主题新颖性,而概念的组合配对是常态。对15万多位作者的新颖性评分的汇总(gt; 50篇论文)揭示了作者发表的新颖性在整个职业生涯中如何变化的复杂趋势。对于大多数作者而言,其文章的平均新颖性在其职业生涯中下降。但是,作者之间的差异甚至很大,随着年龄的增长,文章的平均组合新颖性会上升或下降。另外,没有一致的模式表明作者在职业生涯中的什么时候出版他们最新颖的作品。我们的文章新颖性评分与科学影响之间存在显着但较弱的预测相关性(使用收到的引用进行衡量)。我们通过交互式用户界面发布了一个数据集,该数据集包含MEDLINE中所有单个和一对MeSH术语的时间概况以及所有文章的预先计算的新颖性评分,GIMLI。
2相关工作
新颖性,独创性和优先级是与科学出版相关的三个重要概念[ 10 ]。一些学者认为新颖性与newness(新奇)有关,而另一些学者则将其与有趣性有关。直接或间接研究科学发展的学者对科学的新颖性,独创性或创新性提出了评论。托马斯·库恩(Thomas Kuhn)认为科学通过创新和新概念的研究而向前发展[ 7 ]。Dirk 在生物医学领域对Citation Classic论文的作者进行了自我报告的调查,以基于论文结构的科学独创性拓扑结构来判断论文的新颖性[ 3]。作者将新颖性定义为本文以下三个部分的新颖性的排列:假设,方法和结果。作者使用209篇文章的一小部分样本报告大多数论文具有以下拓扑:新假设/以前报告的方法/新结果。即使该研究仅关注一小部分文章,它仍然需要理解论文的新颖性并确定其新颖性。但是,基于调查的方法对于像MEDLINE这样大的语料库是不可行的。因此,需要更多的计算方法来识别论文的新颖性。
Trapido [ 18 ]讨论了新颖性对作者认可的影响。他们的工作表明,新颖的文章被拒绝的风险更高。但是,有新颖论文被发表过的作者的其他新颖论文更容易发表。另外,具有新颖论文发布历史的作家的更倾向于出版新颖作品。最近的工作表明,诸如早期引用计数之类的文献计量指标偏向于新颖的文章[ 16 ],并且新颖的文章更有可能在低影响因子期刊上发表。Uzzi 等。[ 19]将文章的新颖性定义为衡量所引用期刊的组合的方式,其中每种期刊都代表各自的科学领域。作者使用来自多个领域的1790万篇Web of Science文章的语料库,认为大多数文章都倾向于引用传统期刊组合,而很少有论文引用新颖组合。他们的工作声称,冲击力最大的物品展示了非常规组合的优点,并引入了一些新颖的组合。
与单独作者相比,团队更有可能从事新颖的组合。Packalen 等。[ 13,12 ]的新颖性定义为的概念新旧程度一篇文章中提到。作者描述了基于词/短语的分析,用于识别MEDLINE数据库中的新颖思想[ 13]。他们手动删除了热门创意的同义词,并用更具规范意义的单词替换了它们。他们的方法仅限于寻找关于流行观点的新颖文章,并且仅考虑论文中单个观点的新颖性。新颖性与作者职业年龄的相关性表明,年轻作家是大多数新颖论文的合著者。有经验的合著者的存在与该文章的较高新颖性相关。衡量新颖性的方法可以有效地应用于专利语料库,因为它们的结构类似于研究文章的文献计量语料库,从而使这些方法对更广泛的研究人员有用。
在[ 12 ]中,Packalen 等人。[ 13 ] 扩展了他们的方法,以便在USPTO专利数据集[ 12 ]中找到新颖的想法。尤恩等。[ 20 ]讨论了专利中发明的组合方面,并描述了该过程展现出一种探索和利用新技术的模式。Schoenmakers 等。[ 14 ]使用对157项专利的经验检验来讨论专利中的新颖性模式。作者发现,激进发明比非激进发明更多地基于现有知识。他们进一步解释说,根本性创新主要是不同知识领域相结合的结果。埃文斯等。[ 5,4 ]也呈现用于在各种领域中定量新颖性的各种方法的详细审查。
先前的工作促使我们设计出一种简单而一致的量化商品新颖性的方法。我们建立在文献[提出了一些初步的工作8,9 ],并提出我们的方法在下面的部分细节和相应的结果。
3时间特征的概念
新颖性得分是指一个概念(或一系列概念)自首次出现在语料库中以来,以年(或之前文章的数量)为单位计算的年龄,此后也称为经验性新颖性得分。重要的是要注意,一篇更新颖的文章将具有较低的经验新颖性评分,反之亦然。我们在本文中讨论以下两种新颖性:
- TimeNovelty时间新颖性是基于自一个概念在语料库中首次出现以来的年数。
- VolumeNovelty量的新颖性是基于自一个概念首次出现在语料库中以来的文章数量。
一年内概念(C)文章数的绝对值,是MEDLINE中这个概念的增长模式的一个噪声指标,就像MEDLINE本身随着时间呈指数增长。这会导致在以后的几年中有更多关于该概念的论文,但这并不意味着该概念相对于MEDLINE论文总数的增长而增长。为了解释这一影响,我们定义了概念C在y年的论文标准化对数,论文数乘以一个标准化因子(),这样是MEDLINE中概念C论文的平均数量与y年论文数的比值。因此,
通过对MEDLINE中概念的时间分布的经验观察,我们发现MEDLINE中大多数概念的增长由以下四个阶段定义:
- Burn-In Phase:初始阶段:主题是新的,发布率很小,增长很小。
- Accelerating Growth Phase:加速发展阶段:主题不断涌现,发布率迅速提高。
-
Decelerating Growth Phase: 减速增长阶段:发布率仍在增加,但开始稳定。 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237558],资料为PDF文档或Word文档,PDF文档可免费转换为Word