基于引文分布特征的科研人员影响力评估实证研

降重资讯 admin 浏览

小编: 基于H指数的缺点,介绍一种新型计量指标以提高科研人员影响力评估的准确性。χ指数定义为引文曲线下最大矩形面积的平方根。在详细阐述χ指数定义与特点的基础上,以国内图书情报领



在评估科研人员学术成就时,“质量”与“数量”的争论是计量学领域持续被关注的问题[1]。一种观点是将科研人员的论文数量视为“数量”的评估标准,论文引用次数视为“质量”的评估标准,如论文平均引用次数、引用次数最高的10篇论文、引用次数不低于10次的论文数量等[2]。然而上述指标仅考虑科研人员影响力的一个方面,因此部分学者将引用次数和论文数量相结合以实现更为精准的评估,如H指数[3]、G指数[4]等。

作为应用最为广泛的计量指数之一,计量学领域对H指数的研究从未间断:2010年Egghe对H指数及其变体指数进行全面综述[5];Bornmann等人对37种变体H指数进行详细比较分析[6];Waltman等人讨论了H指数及其变体指数的不一致性问题,认为其无法衡量科研人员整体影响力[7]。2014年,H指数的提出者Hirsch教授承认H指数的评价缺失性[8]。对H指数及其变体H指数的研究,以及指标之间的评估和比较仍在继续[9,10,11]。

分析发现,H指数及其部分变体指数都忽略了科研人员的完整引用列表。同时,总引用次数的缺点是偏向指数,有利于少量高引用论文或大量低引用论文的科研人员。本研究在回顾H指数及其部分变体指数基础上,介绍一种新的计量指数——χ指数,以解决前文指数的缺点。在阐述χ指数的思想基础上,分析χ指数的内涵与特点,以国内图书情报学科的科研人员为对象,实证分析χ指数的评估效果与优势,并详细比较χ指数与H指数的异同点,以期实现对科研人员的科学性评估。

2χ指数内涵

2.1理论基础

χ指数的理论基础来源于H指数、G指数、A指数、R指数。H指数定义为有H篇论文的引用次数不低于H次[3]。H指数对论文的引用次数完全不敏感,主要表现为未考虑H核内论文的引用次数,以及部分论文引用次数接近H值的科研人员。对于高引用次数的论文评估,H指数的改进为G指数。

G指数是将论文按引用次数降序排列后,有G篇论文的引用次数之和不低于G2次[4]。可以发现,G指数≥H指数。G指数仍然存在偏见:如果研究人员有少量高引用论文,或大量低引用论文,其G指数仍然较高。

假设研究人员的H指数为H,则H核是该人员高度引用的论文集合。作为H指数的变体指数之一的A指数,定义为H核论文引用次数之和与H指数的比值[12]。A指数旨在解决H指数忽略H核中论文引用总数的问题。然而,A指数受制于平均值的缺点,对有少量高引用论文的研究人员较为有利。R指数的提出弥补了A指数的缺陷,R指数定义为H核论文引用次数之和的平方根,明显地H指数≤R指数≤A指数[12]。

基于上述分析,可以发现A指数、R指数、G指数,都忽略了H核以外的论文引用次数及其数量。高引用次数论文通常与高质量相匹配,且高引用论文可能是具有影响力的开创性研究。一方面,上述指数不利于有少量高引用次数的研究者,即使其推动了科学研究的进步。另一方面,上述指数同样不利于有众多合作者、篇均引用次数较低的高产型研究者。

2.2χ指数定义

为避免上述讨论的缺点,本研究介绍χ指数以提高科研人员评估的科学性。引用曲线是根据引用次数与论文排名关系得到的引用次数分布曲线。χ指数定义为:将论文以引用次数降序排列,论文序号i与其引用次数Ci乘积的平方根最大值,即在引用曲线下拟合的最大矩形面积的平方根,见公式(1)。公式(1)中,i表示将论文按照引用次数降序排列的序号(1≤i≤n,n为论文总数),Ci为第i篇论文的引用次数。

2.3χ指数特点

部分研究人员已对H指数等计量指标的特征进行详细分析,试图为不同计量指数之间的比较提供客观依据[13]。结合已有文献和χ指数分析,本文的χ指数具有以下特点:

(1),且。n表示论文总数,C1表示最高引用次数。

(2)对于所有论文,

(3)。假设H指数的论文序号和引用次数分别为H和CH,则,因而。

(4)χ指数是单调递增。向论文集合中增加论文引用次数或论文数量不会降低χ指数(H指数也是单调递增)。

(5)χ指数是规模不变的。将每篇论文的引用次数乘以常数不会改变两个引用向量的相对等级(H指数不是规模不变)。

(6)χ指数是动态的。在两个引用向量中添加具有相同引用次数的新论文会改变二者的相对排名。例如,χ指数都为2的两个引用集合(2,2)和(1,1,1,1),然而(2,2,1)和(1,1,1,1,1)的χ指数改变为2和。

为更直观阐述χ指数的计算过程,本研究以Bornmann教授2007—2016年的论文数据为计算示例。Bornmann教授10年间共发表220篇论文,最高引用次为189次,引用次数≥1的有181篇,其H指数为32,详细信息如表1所示。根据χ指数的计算公式可知,Bornmann教授的最大矩形面积平方根的组合为(39,28),则Bornmann教授的χ指数为33.05(如图1所示)。

3实证研究

3.1样本数据来源 表1Bornmann文献信息及χ指数计算示例导出到EXCEL iCi(i*Ci)1/2iCi(i*Ci)1/2118913.75363032.86218819.39372932.76312319.21382832.62412322.18392833.0559521.79402632.25…………313331.98177113.30323232.00178113.34333232.50179113.38343132.47180113.42353132.94181113.45 注:i表示按引用次数降序排列的序号,Ci表示第i篇论文的引用次数。 图1Bornmann学者H指数与χ指数示例图  下载原图

为验证χ指数的评估效果,本研究以国内LIS领域的作者为实验对象。在CNKI的期刊检索首页中,设置学科为“图书情报与数字图书馆”&期刊来源为“全部期刊”&时间范围“不限”&以“作者姓名”&“作者单位”进行检索,并去除无作者、新闻稿等无效数据。所有作者的论文数据以Excel格式保存。为保证数据信息的时间统一,样本数据全部于2019年5月28日—5月31日检索保存。

3.2相关指标计算

利用自编VBA程序计算81位作者的H指数、G指数、A指数、R指数、论文数量P、总引用次数C,以及χ指数(如表2所示)。初步统计可知,81位作者的数据较为全面,实验样本具有一定的代表性:论文数量P处于区间[14,314],总引用次数C处于区间[207,8751],H指数处于区间[8,47],G指数处于区间[14,78],χ指数处于区间[10.95,51.50]。

本文将讨论χ指数与2.1节提及的计量指标的异同点,但重点分析H指数与χ指数的评估效果。因此,本研究计算了H指数与χ指数的各自排名,以及二者之间的变化情况。

3.3评估结果分析

3.3.1指标相关分析

本文首先探讨χ指数与2.1节所提及的指数,如H指数、G指数、A指数、R指数,以及论文数量P和总引用次数C之间的相关性[15]。 表2作者指标数据(部分)导出到EXCEL 编号PCH指数排名1G指数A指数R指数χ指数排名2差值1314875147178104.5170.0951.50102120508535270120.1764.8538.5220320434843244961.5044.3633.574049827283334962.3045.3433.505258023302964662.9742.7329.50104687220824154572.0841.5925.462277119236623224676.0941.8326.8916-6893160524153646.1733.2924.982611968164823223850.6534.1325.302531011723942784460.8140.5228.58135118928282965175.5546.8130.1771……………………………423952315552126.6019.9715.007015……………………………5441108411743287.7331.0624.3327-47……………………………5737173719353883.8439.9125.4622-13……………………………705369515552434.0722.6115.007015……………………………最大值3148751478178120.1770.0951.508115最小值14207811419.4513.8610.951-47平均值81.811501.8919.2839.3033.2150.2830.8521.6140.861.57 注:差值=排名2-排名1,正值表示χ指数排名下降,负值表示χ指数排名上升。 表3各指标相关性分析结果    下载原表 注:**.在置信度(双测)为0.01时,相关性是显著的。

结合表3可知,论文数量P与其他指标之间的相关性最低,同时其他指标之间的相关性较强。进一步了解,虽然与论文数量P之外的所有指标都表现出较强的相关性,但其评估结果可能有失偏颇,论文数量P也存在同样的问题,因为二者考虑到科研人员的全部论文数量。

χ指数与全部指标都在0.01水平下显著相关,说明χ指数是对现有科研评估指标的继承。χ指数考虑了科研人员的论文数量,以及其引用数据的几何分布特征。χ指数与H指数高达0.95,原因在于H指数是作者引文曲线下的方形分布,而χ指数是科研人员引文曲线下的矩形分布。χ指数与论文数量P的相关性仅次于H指数与论文数量的相关性,相关性达到0.67,说明χ指数考虑了论文数量,还将高引用论文纳入计算范畴。χ指数与引用次数的相关性仅次于G指数、R指数与其相关性,说明χ指数充分考虑了引用次数对科研人员的评估作用,也说明χ指数有效结合了G指数和R指数的优点。

3.3.2指数分类分析

为进一步分析χ指数的评估效果,根据科研人员χ指数,与χ指数匹配的论文数量k和引用次数Ck,H指数对应的H核论文数量,本研究将81位作者分为以下三类情形:①k≈H;②k>H;③k<H,以展示H指数和χ指数的几何分布(如图2所示)。当k>H时,研究者有诸多论文的引用次数少于H(趋向于高产者);当k<H时,研究者有少量论文的引用次数高于H(趋向于高影响力)。 图2χ指数三种类别示例(上:k≈H;下:k<H、k>H)  下载原图

根据k与H的关系,将81位作者划分为三种类别(如表4所示)。结合表4可知,k<H的作者数量占比最大,k≈H和k>H两种情况相加仅占数据集的52%左右。同时,在k<H情形中,90%以上作者的χ指数>H指数。上述分析说明,当χ指数明显大于H指数时,可以预期k值将明显小于H指数。换言之,当科研人员有一定数量的论文引用次数大于H指数时,其必将获得较高的χ指数(以表4数据利用贝叶斯定理可以证明)。可以发现,χ指数解决了H指数没有充分考虑高引用论文作用的缺点。表5的统计数据同样证实了这种优化,当k<H时,χ指数的平均值远高于H指数的平均值。进一步统计可知,80.25%的作者χ指数明显大于H指数,在χ指数>H指数区间内,39位共60%作者的Ck>k,说明χ指数具有区分相同H指数作者的潜力。 表481位作者的三种分类详细数据导出到EXCEL 类别作者数量作者数量占比/%χ≈H占比/%χ>H占比/%k≈H1214.817525k>H3037.0413.3386.67k<H3948.157.6992.31 注:本研究取数值变化在[-1,1]之间为“≈”。 表5k≈H、k>H、k<H情形下的描述性统计分析导出到EXCEL k≈Hχ指数H指数k>Hχ指数H指数k<Hχ指数H指数平均值20.6319.75平均值23.1321.10平均值20.7517.74最大值33.5033.00最大值51.5047.00最大值38.5235.00最小值11.838.00最小值11.2211.00最小值10.959.00标准差6.406.78标准差7.677.11标准差6.566.12

3.3.3作者辨识分析

在指数分类分析中,发现χ指数能够区分相同H指数的作者。为证实χ指数的这项特点,本研究对H指数和χ指数的科研人员影响力区分情况进行深入研究。H指数在量化科研人员影响力时,存在大量作者数值相同的情况,无法准确区分科研人员的影响力排名。统计发现,共有20组75位作者的H指数相同,占总人数的92.59%,甚至有8位作者的H指数为15,7位作者的H指数为24。因此,H指数无法准确地评估和区分科研人员影响力。

81位作者的χ指数不尽相同。如编号5和11的两位作者H指数都为29,具有较高的学术影响力,而后者的χ指数却高于前者。观察发现,两位学者的论文数量、G指数等都较为接近,但编号11的作者在总论文引用次数上要高于编号5的作者。同时,编号11的作者在高引用论文的引用次数上要大于后者(编号5作者最高引用次数为127,编号11作者最高引用次数为269)。

81位作者中,仍然存在部分作者H指数不同但χ指数相同的情况:如编号6和编号57的两位学者,二者的χ指数都为25.46。统计发现,共有9组19位作者的χ指数相同,占总人数的23.46%。显然,χ指数的科研人员影响力区分性明显高于H指数。

3.3.4排名情况分析

根据表6的排名差值情况统计,81位作者中54位作者的名次变化在[0,5]之间,占总比的66.67%;10位作者名次变化处于[10,47]之间,占总比的12.35%;名次变化3位的作者数量最多,达到13位,占总比的16.05%。利用χ指数评估影响力者时,53位作者名次下降,22位作者名次上升,6名作者名次未改变。初步看来,81位作者的名次整体变化较为稳定,波动性较小。 表681位作者名次变化统计导出到EXCEL 名次变化作者数占比情况/%名次变化作者数占比情况/%067.41933.70178.641011.2321012.351111.2331316.051211.234911.111322.475911.111411.23667.411522.47767.411911.23822.474711.23

χ指数排名时,编号54的学者名次上升最为明显(上升47个名次)。该学者的H指数仅为11,在81位作者中排名第74位。造成该作者名次上升的原因主要有:①高引用文献数量较为可观,共有4篇引用次数>100;②少数论文引用次数非常高,共有2篇论文的引用次数>200。可以发现,与H指数仅简单考虑引用次数与论文数量不同,χ指数不仅考虑了作者的全部论文数量及其引用次数,还将高引用论文的引用次数充分利用起来,有效避免了H指数忽略高引用论文,以及G指数未考虑低引用次数论文及其数量的缺点。χ指数对论文引用次数敏感,能够更好地利用引用次数和论文数量对科研人员综合评估。

χ指数排名时,编号42和编号70的两位作者名次下降幅度最大(下降15个名次)。分析发现共有以下几点原因:①论文数量较少,二者分别为39篇和52篇,远远低于81位作者论文数量均值;②总引用次数较低,二者分别为523次和695次,同样远低于平均值;③高引用论文数量少于大多数作者,编号42作者仅1篇论文引用次数>50;编号70作者1篇论文引用次数>100,4篇论文引用次数>50。

为进一步检验χ指数评估科研人员影响力的名次变化情况,本研究对81位作者的名次变化进行统计分析(如表7所示)。81位作者的名次平均降低1.57位,方差(64.17)和标准差(8.01)较大,极差较大,整体数据的稳定性一般,表明χ指数对科研人员进行排名与H指数变化较为明显。 表781位作者名次变化描述性统计导出到EXCEL 区间平均值中位数标准差方差最大值最小值01—811.5738.0164.1715-4701—271.4824.6721.8011-728—543.1545.6732.1313-1355—810.07211.77138.6115-47

[1,27]区间内作者的χ指数名次平均下降1.48,方差(21.80)和标准差(4.67)数值在4个区间最小、排名最为稳定,说明该区间内χ指数与H指数的评估结果较为一致,对高影响力的作者识别效果较好。[28,54]区间内作者的χ指数名次较H指数下跌3.15位,方差(32.13)和标准差(5.67)数值一般,该区间内作者名次下降幅度较高,变化较为明显。[55,81]区间内作者的χ指数名次较H指数微跌0.07,但方差(138.61)和标准差(11.77)在4个区间内最大、数据最不稳定,表明该区间的作者名次变化波动剧烈。可以发现,χ指数对论文数量较少、引用次数一般的“低影响力作者”评估效果比H指数更为合理,原因在于χ指数充分结合了论文数量与引用次数的几何关系,实现了较为公平的评估。

4研究结论

基于H指数等计量指标的不足,平衡科研人员论文数量与引用次数之间的关系,本研究介绍一种新型文献计量指标——χ指数。χ指数被定义为引用曲线下面积最大的矩形平方根,χ指数的矩形分布比方形分布的H指数评估更为合理。

为检验χ指数的评估效果,本研究以CNKI中图书情报学领域的81位作者的论文数据为实证分析对象,从指标相关、分类研究、辨识度、排名情况等维度探讨了χ指数的效用。研究发现:①与引用次数(质量)和论文数量(数量)相结合的诸多指标类似,χ指数与引用次数的平方根显著相关。②χ指数的作者区分度远高于H指数,可以实现更为精准的科研人员评估。χ指数可以作为一个独立的评估指标,并在科研人员排名上获得比H指数更为理想的结果。

本研究仍需要继续探讨作者合作、时间因素、跨学科领域等因素对χ指数评估效果的影响。同时,本研究数据来源于CNKI,可能存在引文信息缺失问题。此外,本研究的作者影响力仅代表χ指数的定量分析结果,科研人员的影响力同样包括科研工具、经验传播等难以定量的贡献,仍需要客观、全面地评估科研人员学术影响力。

当前网址:http://www.paperaa.com/newss/14223.html

 
你可能喜欢的: