在科学中定义和识别睡美人外文翻译资料
2022-12-20 21:19:17
英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
在科学中定义和识别睡美人
Qing Ke, Emilio Ferrara, Filippo Radicchi, and Alessandro Flammini1
复杂网络与系统研究中心,印第安纳大学信息学与计算学院,布卢明顿,47408
密歇根大学安娜堡分校Mark EJ Newman编辑,2015年4月17日编辑委员会收录
科学中的睡美人(Sleeping Beauty,SB)指的是一篇论文,其重要性在出版后几年内未被认可。它的引用历史表现出一个漫长的冬眠期,然后突然飙升。以前的研究表明SB相对稀缺。然而,该结论的可靠性在很大程度上取决于基于任意阈值参数的识别方法,该方法用于睡眠时间和引用次数,适用于小型或单一学科的书目数据集。在这里,我们对科学中的SB现象进行了系统的、大规模的、多学科的分析。我们引入了一个无参数的度量,量化了特定文章被视为SB的程度。我们将方法应用于自然科学和社会科学所有学科中发表的2200万篇科学论文,这些论文的篇幅超过了一个世纪。我们的结果表明, SB现象并非例外。存在连续的延迟识别谱,其中考虑了冬眠期和觉醒强度。尽管可以通过查看单学科书目数据来识别SB的许多案例,但通过对多学科数据集的分析, SB现象变得更加明显,我们可以在这些数据集中观察到那些最初发表的论文在不同于那些学科的学科中实现延迟但非常重要的例子。我们的分析强调了引用动态的复杂特征,迄今为止很少受到关注,并且还提供了经验证据,反对在量化科学影响时使用短期引用度量。
延迟识别 | 睡美人 | 文献计量学
意 义
科学论文通常具有有限的寿命:它们吸引引用的比率在公布后几年达到最大值,然后稳步下降。以前的研究指出存在一些明显的例外:几十年来没有被认可的相关论文,但随后突然变得极具影响力和引用。爱因斯坦,波多尔斯基和罗森的“悖论”论文是一个典型的睡美人。我们研究睡美人在科学中的常见程度。我们引入的数量可以捕捉识别强度和“睡眠”时期的持续时间,并表明睡美人现在并非例外。这种数量的分布是连续的并且具有幂律行为,这表明在所有尺度上延迟但强烈认可背后的共同机制。
人们对理解科学生产和科学进化的动力学越来越感兴趣(1)。精算研究侧重于科学合作网络(2),学科发展(3),团队科学(4-7)和基于引文的科学影响(8-10)。许多科学科学研究工作的核心问题是描述论文在其一生中如何吸引引文。引文可以被视为科学界归因于其研究产品的信用单位。因此,它们是几个量化措施的基础,旨在评估学者的职业轨迹(11)和机构的研究表现(12,13)。在非常重要的环境中,它们也越来越多地被用作评估标准,例如招聘、晋升和任期,、资金决策或部门和大学排名(14,15)。 有几个因素可能会影响论文随时间累积的引用量,包括其质量,及时性和触发进一步查询的可能性(9),其声誉作者(16,17),以及它的主题和年龄(8)。
关于驱动引文动力学的基本机制的研究始于20世纪60年代,当时de Solla Price引入了累积优势(CA)模型来解释幂律引用分布的出现(18)。 CA基本上规定,出版物吸引新引文的概率与其已有的引用次数成正比。该标准现在被广泛称为优先附着,最近由Barabaacute;si和Albert(19)推广,他们将其作为一种通用机制,在描述不同领域系统的网络中产生异构连接模式(20,21)。已经提出了有效地结合CA机制的其他过程解释幂律引文分布。例如, Krapivsky和Redner考虑了一种重定向机制,其中新论文以一定的概率复制其他论文的引用(22)。
CA机制中未包括的重要影响是接收引用的概率取决于时间。在CA模型中,论文继续独立于其年龄获得引用,因此,平均而言,较旧的论文积累了更多的引用次数(19,22,23)。然而,根据经验观察到,在初始生长期(24-27)之后,纸张累积引用的速率降低。最近关于增长网络模型的研究包括节点老化作为一个关键特征(24,27-30)。最近, Wang等人。开发了一个模型,除了CA和老化之外,还包括一个直观但基本的成分:适应性或质量参数,它可以解释个别论文的新颖性和重要性(9)。
在这项工作中,我们专注于受到强烈但后期认可的论文的引用历史。请注意,目前的引文动态模型无法预测延迟识别。所有模型,无论使用多少成分,自然会导致所谓的先发优势,根据这些优势,任何一篇论文都会在其生命的早期阶段开始积累引文,或者它们永远无法积累大量的数字引文(23)。早在20世纪80年代,加菲尔德提供了延迟识别的文章示例,并建议使用引文数据来识别它们(31-34)。通过广泛的文献检索, Glauml;nzel等人。估计了延迟识别的发生,并强调了最近认可的论文中的一些共同特征(35)。关于延迟识别的论文中“睡美人”(SB)一词的造词是由van Raan(36)引起的。他提出了可以测量延迟识别的三个维度:(i)睡眠时间长度,即“睡眠期”的持续时间; (ii)睡眠深度,即睡眠期间的平均引用次数;(iii)清醒强度,即在睡眠期后4 y期间累积的引用次数。通过结合这些措施,他确定了1980年至2000年间发生的一些SB实例。这些开创性研究受到两个主要局限:(i)分析的数据集非常小,特别是与目前可用的书目数据库的大小相比时;(ii) SB的定义及随后的识别在相同程度上是任意的,并且在很大程度上取决于所采用的规则。最近, Redner分析了一个非常大的数据集,涵盖了110年的物理出版物(37)。 Redner为满足以下三个标准的文章提出了复活经典(或SB)的定义:(i) 1961年的出版日期;(ii)引用次数大于250;(iii)平均引文年龄与出版年龄的比率大于0.7.尽管Redner能够克服上述第一个限制,但他的研究仍然受到顶级SB的任意选择选择的影响,并且SBs代表了科学中的特殊事件。此外, Redner的分析具有针对特定领域的限制,仅涵盖物理领域内的出版物和引文。
在这里,我们对科学中的SB现象进行分析。我们提出了一种无参数的方法来量化给定纸张可被视为SB的程度。我们将这个指数称为“美容系数”,表示为B.通过在一个多世纪的观察窗口上测量多个科学学科中数以千万计的出版物的B,我们表明B的特征是异质但连续的分布,没有低,高或低的纸张之间的自然分离甚至是B的极端值。另外,我们证明了B的经验分布不能轻易地与基于CA或引用重新组合的引用累积的明显基线模型相协调。我们引入了一种简单的方法来识别SB的觉醒时间,即他们的引用爆发的年份。结果表明,许多SB在出版后50多年内变得极具影响力,远远超过测量引文影响的典型时间窗,证实了近期关于理解使用短时间窗近似长期引用的研究(38-40) 。我们进一步表明,大多数论文在达到每年引用的最大数量后表现出突然的流行度衰减,与B值无关。我们的研究指出, SB现象有两个重要的多学科组成部分。首先,物理学,化学和数学等特定学科能够以比其他科学领域更高的速度生产顶级SB。其次,顶级SB在与最初发布的学科不同的学科中实现了延迟的特殊重要性。基于这些结果,我们认为我们的研究可能为识别引发觉醒机制的复杂动力学铺平道路,揭示了非传统人气轨迹的高被引论文。
数据和方法
美人系数。给定论文的美容系数值B基于其引用历史与仅由其出版年份确定的参考线之间的比较,一年内收到的最大引用次数(在多年观察期内),以及达到这样的最大值的那一年。鉴于一篇论文,让我们将定义为在其发布后的第t年中收到的引用次数;t表示纸张的年龄。我们还假设我们的指数B是在时间上测量的t = T,并且纸在时间t接收其年度引用的最大数量,。
图1 文献的美人系数B(公式2)和唤醒时间(公式3)的定义的图示
考虑在时间引用平面(图1)中连接点和的直线,该线由等式描述:
(1)
其中是该线的斜率,是该论文在其出版年份收到的引用次数。对于每个,我们接着计算和之间的比率,总结从到的比率,将美人系数B定义为:
(2)
根据定义,对于具有的论文,B=0。具有引用随时间线性增长的论文,B=0。对于引用轨迹的论文,B是非正定的是时间的凹函数。我们的指数B具有许多理想的性质:(i) B可以计算任何纸张,并且不依赖于睡眠期或觉醒强度的任意阈值,为处理SB现象铺平了道路,而不仅仅是例外;(ii) B随着睡眠时间的长短和觉醒强度的增加而增加;(iii) B在时间窗中考虑整个引用历史;(iv)方程的分母提前处罚引用,以便在收到的总引用次数相同时,引用次数较晚积累的B值越高。
唤醒时间。我们现在给出了觉醒时间的合理定义 - 即SBs引用累积突然发生变化的年份。能够确定唤醒时间可以帮助识别所述改变背后的可能的一般触发机制。例如,在SI附录中,我们显示在觉醒时间周围, SBs的共振动态表现出明显的局部模式(SI附录,图S11)(37)。我们将觉醒时间定义为点与参考线之间的距离,达到其最大值的时间t:
(3)
其中由下列公式给出:
正如我们将要展示的那样,上述定义适用于在尖峰之前没有引用的极限情况,并且似乎很好地捕获了当存在强烈的类SB行为时唤醒时间的定性概念。
数据集。我们在以下经验分析中使用两个数据集:美国物理学会(APS)和Web of Science(WoS)数据集(SI附录, S1部分)。 APS期刊是物理学的主要出版物。WoS包括科学和社会科学的论文。我们关注的是APS中的384,649篇论文和WoS中收到至少一篇引文的22,379,244篇论文。这些论文跨越了一个多世纪,因此我们可以对SB现象进行长期观察期。虽然APS数据集可以被视为表征单一学科研究领域内引文动态的完美代理,并用于将我们的分析与之前的研究(37)进行比较,但WoS数据集使我们能够支持SB现象的多学科特征。
图2 美人系数对引文历史的依赖性
结 果
物理学中的睡美人现象。首先,我们定性地证明了B对具有完全不同的引用轨迹的四篇论文的分辨能力。图2A显示了具有非常高的B值的纸。该论文于1951年出版,收集了少量的年度引文,直到1994年,它突然开始接受许多引用,直到2000年达到最大值。图2B展示了一篇质量相似的引用轨迹,用于最近发表的一篇c非常低的论文,因此更小B。图2C中的论文实现了其最大年度引用率t = 1.引文历史因此与0 le; t le; tm 中的参考线lt 一致,产生B= 0。注意,我们的测量B仅检查引文曲线如何达到其峰值,但在此之后不考虑它如何减少。图2D中的纸的特征在于负B值,因为在参考线之上。
其次,我们通过使用以前由Redner确定的12种复兴经典作为基准集来测试B识别APS中的顶级SB的有效性(37)。我们的结果与Redner的分析(37)非常吻合: Redner检测到的复活经典中有6个在我们的前十名中;其他6个也具有非常高的B值,尽管根据B(SI附录,表S1)它们在排名中占据不太重要的位置。差异是由于两种方法的基本原理,我们不依赖于睡眠时间和引用次数的阈值参数。为了更好地阐明两种方法的多样性, SI附录,图。 S2和S3报告APS数据集中具有最高B值的24篇论文的引用历史。我们看到,我们的衡量标准确定了具有较长休眠期的论文,然后是每年引用的突然爆发,而无需达到极高的引用值。正如Redner(37)已经指出的那样, APS中的顶级SB列表显示了相对较少数量的粗略主题的自然分组,同一主题的论文表现出非常相似的引用历史(SI附录,图S11) )。这表明即使由已经建立了良好科学声誉的作者介绍, “过早”主题也可能无法吸引社区关注。着名的EPR悖论提供了一个确凿的证据,爱因斯坦,波多尔斯基和罗森的论文是我们在这个数据集中找到的顶级SB之一(SI附录,图S2B)。
SBs有多罕见?
与之前的SB定义(35-37)相比,我们的不依赖于任意选择年龄或引用阈值。这一事实使我们处于系统层面调查SB现象的独特位置,并从宏观角度提出基本问题:具有极端B值极值的论文是否出现?大多数论文的行为与上面讨论的极端情况有不同的表现,当他们考虑睡眠时间和突发觉醒时?为此,我们提供了两个数据集中每个数据集中所有论文的美容系数分布的统计描述。图3显示了AP对APS和WoS数据集中所有论文的生存分布函数。我们观察到B的异质但连续的分布,跨越几个数量级。除了截止 - 对于WoS数据集而言要大得多 - APS和WoS表现出非常相似的分布。尽管绝大多数论文都表现出较低的B值,但是有一定数量的论文具有较高的B值。这些分布也没有显示出典型的价值或模式;没有明确的分界值允许我们将SB与“正常”论文分开:延迟识别发生在广泛且连续的范围内,与先前的结果形成鲜明对比,声称SB是特殊情况(35,37,41)。
比较不同年龄的论文的美容系数可能看起来并不完全公平(42):后来的论文定义了较少的机会来发展长睡眠期并表现出突然的觉醒。这可能在某种程度上决定了观察到的分布的形状。另一方面,绝大多数论文在其一生中早期的年度引用中倾向于具有单一且明确定义的峰值,这意味着它们的B值不会随着将观察时间T移动到未来而改变。特别是,我们的估计表明,近90%的论文在每年引用的最大数量之后已经经历了大幅减少,而不论其B值如何(SI附录,第S3节)。如果我们只考虑经历了最大年度后引用率典型急剧下降的论文,则
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19495],资料为PDF文档或Word文档,PDF文档可免费转换为Word