以H指数为基础的学者评价指标改进

袁野北京理工大学管理与经济学院

摘要：H指数自诞生以来，由于其卓越的评价能力受到广泛的应用，并被大量讨论。随之而来的许多基于H指数的衍生指数，弥补了H指数的很多缺点，但是仍然存在很大的不足。笔者以H指数评价思想为基础，结合R指数等的优点设计出了新的有更好区分度和灵敏度的Y指数。通过对论文被引次数的调整，解决了H指数只能评价学者的终身成就的问题，增强了新指数对欺骗性引用的过滤，使新的Y指数有了跨学科评价的能力。其中学科标准化模型、施引文献质量和文献半衰期等属于首次和H指数结合。

教育期刊网 http://www.jyqkw.com
关键词：Y指数 H指数改进跨学科评价施引文献评价

H指数于2005年由加州大学的Hirsch提出，也称Hirsch指数，主要用于对科学家个人绩效的评价。H指数通过不同科学家的h值来评定其绩效，定义当一个学者至少发表了h篇引文数量不少于h的文章时其H指数值为h。H指数为学者的绩效评价提供了一个全新的角度，自诞生起就引起了学界广泛的讨论。H指数有着兼顾学者论文数量和质量、指标稳定、可以测定学者的终身绩效等优点。随着对其研究的深入，一系列H指数的衍生指数的诞生也对H指数的一些缺点加以补足。例如R指数的提出部分解决了H指数敏感度和区分度的问题。

然而这些改进并没有解决跨学科评价问题，对于故意的欺骗性的引用过滤效果不佳。过于侧重终身绩效的考察，也很不利于新入行的科研人员的创新。下面本文将构建一个新的评价方法来解决以上问题。

一、以Y指数为核心的多因素评价方法构建

1.Y指数的构建

H指数其具有灵敏度不高和区分度不够的特点。灵敏度不高主要是因为，作者的H指数需要增加1不仅需要有一篇新的论文被引次数超过原来的H指数值，还需要原来计入H指数的有效论文每一篇至少增加1次引用，这使得H指数的提高越来越困难。而区分度不够的原因一部分是由其自身的底灵敏度引起的，还有一部分原因是由于文章发表数量的严重不均，只有少量发表的作者占到了总人数的绝大多数，这使得低H指数区域每一个值上“堆积”了太多的人。理论上H指数的缺点可以很好地被R指数补充，有着相同H指数值的评价对象，往往可以通过R指数值加以区分。同时由于R指数过于重视高质量论文的作用，它也很难脱离H指数单独使用。

如果将一位科研人员所发论文按照被引次数降序排列可以得到如图形1。

这样新构建的Y指数其整数部分为H指数的值，小数部分可以很好地刻画核心论文的质量，完美地将H指数和R指数的优点结合在了一起。

然而如果我们仍然用各个学科论文原来的被引次数，其学科差异和被引次数中的水分将使我们的改进毫无意义。为了解决这些问题，我们需要在下文对论文的被引次数做出一系列的修正，使调整后的被引次数能够真实地刻画该论文在其领域的水准。

2.论文被引次数调整

在H指数计算中，论文的质量由其被引次数直接表示。学者的论文被另外一篇论文引用，则该论文被引次数即增加1。然而在不同学科被引用一次的难度是不一样的，被优秀论文引用和被低质量论文引用甚至是故意制造的虚假引用之间的意义更是不同的。

为了解决这个问题，首先我们是在考虑施引文献数量之外增加施引文献质量对原论文质量的影响。而对施引文献质量的考量方式我们可以借鉴原论文的评价方法，即施引文献的被引次数和被引质量，这样会出现无限循环的想象。在这里我们人为规定施引文献质量只由其被引用次数决定。

其次在考虑被引用次数对施引文献质量的影响时我们再引入学科标准化方法，目的是排除学科间被引次数的区别。在过去大多数的学科被引次数标准化模型中，都是假设被引次数按照正态分布，并且以总被引的算术平均值作为学科内的期望被引次数。然而Seglen的研究表明在任何学科内其论文的被引次数都不符合正态分布的特征，而是普遍呈现出偏态分布。也就是说用平均被引次数来衡量研究绩效并不能代表被引次数的分布特征。Lundberg进一步发现对被引次数取自然对数后再进行标准化处理，其分布更接近正态分布。Radicchi等研究发现不同学科的论文被引次数除以其学科期望被引次数后获得的分布曲线是一致的。

笔者经过实证研究，发现样本更加符合指数型分布的特征。由于Radicchi等研究表明学科内被引次数分布于学科期望被引次数的相关性，本文使用的标准化模型如下：

其中为调整后的论文被引次数，为论文与论文排名相关的线性函数，为论文调整前原被引次数，为该论文学科内的平均被引次数。

将以上学科论文被引次数标准化模型与考量论文施引文献质量的思想结合起来，得到如下论文质量考核模型：

其中为论文考虑施引文献的质量以及不同学科间区别后调整的被引次数，n为该论文总施引文献数量，为第i篇施引文献的出版年的该领域篇均被引次数，为第i篇施引文献的被引次数。

我们可以认为，经过如上调整后的值的大小很好地代表了不同学科论文质量的高低。

最后我们再增加论文的“年龄”对论文质量的影响。现有的H指数及其衍生指数对学者评价时，过于注重学者论文的积累，都忽略了论文在不同时间点价值的不同。例如两篇相差10年发表的同样水准的文章，显然新发表的文章对学者的评价更具有现实意义。为了更好地刻画不同学科论文价值下降的速度，我们引入“共时半衰期”的概念，即新发表论文的引文其中距今较近一半是多少内年发表的。

那么，经过修正后一篇论文的引文数量应该为：

其中为修正后的被引次数，为距今j年的论文经过公式（1.1）和公式（1.2）调整后被引次数，X为该论文学科的文献半衰期，t为该论文的年龄。

由于文章发表后，理论的传播进而被认可和被引用需要一定的时间。为了进一步鼓励新兴学者和新兴理论，我们进一步定义文章年龄小于2的文章，其被引次数取调整后的被引次数和所刊登的期刊影响因子的较大者。

当学者的论文被引次数经过以上调整之后，我们可以认为其论文的被引次数可以很好代表论文在评价时间点的质量。将调整后的被引次数带入公式（1.1）得到的Y值是学者当前水准更加科学合理的表征。

至此，新的学者评价方法的构建基本完成。新的评价评价方法很好地解决了跨学科评价问题，对论文质量方法的评价可以很好地过滤人为的欺骗性引用，文献半衰期的引入使得方法更加注重对不断创新的鼓励。下面我们将通过实证检验新的评价方法的可行性和优越性。

二、实证检验

本文选取了过去5年“克拉克奖”获奖者：Chetty.Raj、Esther.Duflo、Finkelstein.Amy、Gentzkow.Matthew、Saez Emmanuel和5位物理学领域刚获得“杰出青年科研人员”荣誉的年轻科研人员陈宇翱、焦丽颖、张川、赵俊、周淑云作为研究对象。论文、施引文献只包括公开出版的且被sci或SSCI收录的文章；期刊影响因子以2014年公布的目录为准；物理类的学者为A组，经济类学者为B组，组内编号按顺序为1-5。

1.模型理论可行性的验证

我们对两个学科10名学者所有论文的施引文献的被引次数按照公式（1.2）进行一次调整。调整后按照数值的升序排列得到图2、图3。

两组处理后的数据在主体部分都非常的线性，由此可知我们对于学科内论文被引次数符合指数分布的假设是正确的。表面上看物理学科的斜率只有经济学科的20%，但是查阅sci和ssci录用的论文，物理学科论文的总数量是经济类学科论文总数量的5倍左右。因此如果按照百分比来看，两学科处于同一水准的论文有着基本相当的调整后被引次数，在同一学科内，不同水准论文调整后被引次数的差异也是线性变化的。

至于图2、图3后半部分数值异常拉升，但是总体仍然呈现较线性的状态的现象。本文认为这是由于最顶尖的一批文章其满足的指数分布系数与该领域其他文章是不同的，即公式（1.1）中，F（x）函数虽然保持线性，但是斜率发生了变化。关于这一点我们可以从以下两个角度来理解：

顶尖的论文往往来自顶尖的科研人员，他们在学科内具有超然的权威性，其研究方向往往能引领一个新的潮流，他们的观点论证能够更快地被接受和传播。这些特点赋予了他们文章更多的被引用的可能。

人们总是能记住冠军而忘记亚军，翻书的时候总是能看完前10页的概率远远大于最后10页的概率。同样由于顶尖的文章当他们的被引次数帮助他们从众多的文章中脱颖而出后，他们就获得了更多的禀赋，更多地被引用的可能。

笔者认为这并不影响本文中跨学科标准化方法的使用，也不用对高水准论文用单独的标准化模型。

2.评价结果及解析

将研究对象所有的论文以及其施引文献于两年内发表的（2014年，2013年），对其被引次数做调整，即取其实际被引次数与所刊登期刊影响因子较大者为其调整都被引次数。对调整后的数据按照新的评价方法评价后得到表1。

本来A组中研究对象无论是论文数量，还是论文被引次数都显著超过B组中的研究对象，这一点从调整前的H值，R值，Y值中可以看出。然而当去除了学科的影响因素，并加入施引文献质量对原论文的影响后，B组中H指数和R指数等都得到了明显的提升，而A组中H指数和R指数却出现了不同程度的下降。首先这表明B组论文施引文献的质量高于A组，其次是因为B组学者论文在其学术领域内有着更高的地位。最后当引入文献的折旧调整后，A组和B组的相关数值都出现了不同程度的下降，但是A组下降的更多，这表明A组的论文相较于B组要更加老旧一些。

综上所述，我们希望得到的改变在新的评价方法中都得到了体现，新的评价方法可以有效地去除学科的影响，辨别学者论文的真实水准，对其做出更加客观公正的评价。

三、结束语

在很长一段时间内，以论文的数量被引次数为出发点，对学者进行完全量化的评价都缺乏公信力。直到H指数的出现，情况才大有改观。伴随着新方法引起的热度，大量学者对其方法进行了改进以适应不同的情况，但是距离客观要求还远远不够。

本文以现有的评价指标H指数和R指数为基础，引入了论文施引文献的质量对原论文质量影响的计算，还原了论文的真实质量；引入通过不同学科被引次数标准化模型，解决了不同学科之间论文被引次数可比性问题；引入论文的现时价值随着论文年龄而下降评价思想，解决了对新兴学者和新兴论文的鼓励等问题。融合以上评价方法，最终构建了新的论文评价指标Y指标，基本完成了一种新的、更科学、更普适的评价方法的建立。并且通过实证检验，确立了新评价方法的可行性和优越性。可以毫不夸张地说，新的Y指数评价方法的构建将H指数的演化又向前大大地推进了一步。

教育期刊网 http://www.jyqkw.com
参考文献

[1]Hirsch J E. An index to quantify an individual´s scientific research output[J]. Proceedings of the National academy of Sciences of the United States of America, 2005,102(46):16569-16572

[2]金碧辉. R 指数, AR 指数 h 指数功能扩展的补充指标[J].科学观察,2007,2(3).

[3]Seglen P O. The skewness of science[J].Journal of the American Society for Information Science,1992,43(9):628-638

[4]Laudan R, Gutting G, Hummon N P, et al. The nature of technological knowledge: Are models of scientific change relevant?[M]. Springer,1984

[5]Radicchi F, Fortunato S, Castellano C. Universality of citation distributions: Toward an objective measure of scientific impact[J].Proceedings of the National Academy of Sciences,2008,105(45):17268-17272

[6]Amanna I J, Carlson N E, Slifka M K. Duration of humoral immunity to common viral and vaccine antigens[J].New England Journal of Medicine,2007,357(19):1903-1915

作者简介

袁野，1989—，男，硕士研究生。Email-yuanye19890602@sina.com