国际科技评价改革十年评述

添加时间：2024-01-26 点击次数：331

原文刊载于《中国科学院院刊》2024年第1期“战略与决策研究” ，本文为精简改编版

徐芳李晓轩*

1.中国科学院科技战略咨询研究院

2.中国科学院大学公共政策与管理学院

3.中国科学学与科技政策研究会科技管理与评价专委会

2013年5月，《科研评价的旧金山宣言》（San Francisco Declaration on Research Assessment，DORA，简称旧金山宣言）正式发布，旨在解决逐渐兴起的“以刊评文，以文评人”问题。《旧金山宣言》得到国际科学共同体广泛认同与反响；以此为旗帜，许多国际学术组织、学术年会、高校与研究机构开始讨论科技评价改革。同时，成立了DORA科技评价联盟、科技管理国际联盟（INORMS）科技评价工作组等新的国际组织致力于推动科技评价改革。笔者作为国际科技评价组织的任职者和经历者，通过对国际科技评价改革10年进行系统地梳理、分析和比较，得出相应结论和启示，以期起到他山之石的效果。

国际科技评价改革要解决什么问题？

归纳起来，国际科技评价改革要应对的问题或者说要达成的目标大致有3个方面。

避免文献计量学方法在科技评价中的不当使用

文献计量学方法的引入，一方面为科技评价提供了证据支撑；另一方面助推了“以刊评文”的逐步兴起——“发表在哪儿比发表什么更重要”，这无疑对科研产出的质量、完整性和多样性产生不利影响。如何避免文献计量学方法的不当使用，成为国际科学共同体面临的重要挑战。

重视科学对经济社会的影响力（impact）评价

影响力评价的引入带来2个方面的挑战：

1. 科学共同体难以形成共识，很多科研人员不认可影响力评价，认为这种边界模糊、容易自我吹嘘的评价会助长学术不端、损害学术质量。

2. 准确评价影响力难度太大，难以找到科学的指标、数据来源与评价方法。

适应开放科学、基于人工智能的科学研究等新范式发展

以数据共享为基础的开放科学（Open Science）近年来在欧美盛行并逐渐影响全球。开放科学运动兴起的同时要求改革科技评价系统，以提高公开性和透明度。人工智能的迅猛发展也将对科技评价产生深远影响。同时，AI4S在促进科技发展、减轻科学家负担的同时，可能强化数据预测技术而带来风险与偏见，也对改革科技评价提出了新挑战。

国际科技评价改革采取了什么举措？

国际科技评价改革的若干重要举措

从路径来看，国际科技评价改革由科学共同体主导，主要采用自下而上方式开展。国际科技评价改革启动的标志性事件是2013年5月《旧金山宣言》的发布。《旧金山宣言》发布后，许多国际学术组织、学术年会、高校与研究机构纷纷跟进，并成立了DORA科技评价联盟等新的国际组织共同致力于推动科技评价改革。2023年5月，包括中国在内的全球许多国家分别举行了《旧金山宣言》发布10周年纪念活动。10年来，国际科学共同体在推动科技评价改革上做了大量形式多样的工作，包括发布宣言、倡议、声明；组织学术年会交流、专题研讨、项目研究；形成研究专报、科技评价方法框架、好的评价案例、科技评价试点协定等。

详情见原文。

国际科技评价改革的主要效果

在全球范围内形成科技评价改革共识

截至2024年1月4日，已有3078个组织和21339名个人签署了旧金山宣言，包括来自中国的15家机构。2022年，“推进科研评价联盟”（CoARA）正式成立，并发布了《改革科研评价的协定》，来自40多个国家的350多个组织签署了协定。科技评价改革日益在全球范围内形成共识。

经过科学共同体各方力量共同努力，科技评价改革的“图谱”逐渐清晰化

比如，《旧金山宣言》提出破除“以刊评文”；《莱顿宣言》进一步提出要纠偏“量化评价”；《量化指标潮流》报告进一步明确量化评价的作用及规范；SCOPE框架定义负责任评价的过程等。不同的学术组织针对不同问题提出科技评价改革的不同方面，拼凑成一个比较完整的“图谱”。最后，这张改革“图谱”被冠以“负责任科研的评价”（responsible research assessment）的标识，逐步成为科技界的共同用语。

科技评价改革正在从理念层面走向实践

目前，签署《旧金山宣言》的3000多个组织正在或者已经落实避免“以刊评文”要求。签署《改革科研评价的协定》的300多个组织（包括资助机构、高校和科研机构）正在进行科技评价改革试点，并且经常组织各种形式的试点经验交流。

形成了关于科技评价的一些基本判断

包括对科技评价正、反两方面作用，定量评价与定性评价之间的关系，启动评价的前提条件，以及提升评价数据质量的技术等。这些理性认识对我国有重要启示意义。

国际上的“三评”改革实践案例

如前文所述，国际科技评价改革正在从理念层面走向实践，以下进行实践案例分析。鉴于我国当前科技评价源于国家“三评”改革文件，在此也分别选择人才评价、项目评审和机构评估3个方面的案例进行分析。

比利时根特大学人才评价改革

比利时根特大学（Ghent University）较早注意到基于文献计量学方法的定量评价对研究文化带来的系统性损害，认为定量评价助长了“发表在哪儿比发表什么更重要”的文化。2013年发布后，根特大学签署了《旧金山宣言》。之后，又签署了《改革科研评价的协定》。随之着手对科教人员晋升评价等人才评价进行改革。

在学校管理层和科教人员的共同努力下，2016年11月，根特大学发布了《根特大学评价研究愿景声明》，提出科研评价必须遵守8项原则。2017年进一步公布了科研评价中定量指标的使用指南。根据这2项政策，2018年根特大学建立了一种全新的教师评价和晋升模式，重新将“责任”和学术自由还给教授级教职员。根据新的评价体系，根特大学对教师的评价不再只看科研产出，而会从更加定性、综合且以人为本的视角进行评价。评价以5年为周期，包括初期的证据性评价、中期反馈访谈和末期的访谈式评价。评价内容包括在研究、教学、社会参与度、管理和领导力方面最重要成就的叙述性展示（而非使用可衡量的定量标准），以及未来5年的意向规划。

美国国立卫生研究院（NIH）项目评审改革

美国国立卫生研究院（NIH）签署了《旧金山宣言》后，着手进行项目评审改革，以消除已有评审中存在的量化问题与偏见，同时适应开放科学的发展。改革主要包括3个方面。

修改评审规则

无论是人员还是机构，评审标准不再是“越强越好”而是“能胜任即可”；如果评审专家认为人员或机构能力不足，则需要给出具体说明。新标准的“够用”原则试图尽量解决声望偏见，将关注点更多地放在研究课题本身上面而非机构声誉。

修改项目申请所用的简历格式或“专家介绍”

在专家介绍中添加小段篇幅，由申请人简要描述其最重要的科学成就，以转移项目评审专家对以往研究论文发表期刊的关注度。

出台数据管理和共享新政策

自2023年1月起，要求每年受NIH资助的30万名研究人员和2500个机构中的大多数在其拨款申请中阐明数据管理和共享（DMS）计划。DMS计划中应包括分析数据所需的软件或工具的细节、何时何地公布原始数据，以及访问或分发该数据的任何特殊考虑，并对数据共享的任何限制或例外情况说明理由，以促进开放科学发展。

英国大学评价改革

2014年，英国对原有大学科研评估考核（RAE）体系进行较大幅度改革，形成新的科研卓越框架（REF）。相较于以往的评估体系RAE，REF最大的改革亮点在于：

1. 引入了文献计量学评价指标，为同行评议提供参考；

2. 探索了影响力评价方法，以展示英国大学研究对社会的真正影响，强调科学研究给现实世界带来的利益。由于影响力评价难度较大，英国为此进行专门研究，开发了针对不同类型学科科研成果的影响力指标。

2014年实施的REF，在实现以评估结果对大学进行资源配置的同时，也不可避免地将竞争压力通过大学传导至基层学术组织，特别是定量指标的引入加剧了对教师个人科研行为的影响。2015年，受英国高等教育基金委员会委托，以James Wilsdon教授为首的研究组对定量指标在REF中的作用进行了独立评估。研究组发布了题为《量指标潮流》的研究报告，对使用定量指标给出了肯定判断并提出改进建议。

2022年，英国REF的领导机构——英格兰研究院（Research England）签署了《改革科研评价的协定》，要对REF继续进行改革，旨在整个高校科研生态系统重新建立起一种负责任、包容、多样的科研文化。由此，英国启动了“未来科研评价计划”，旨在对刚实施完毕不久的REF 2021未来变革方案进行更深入研究。

国际上“三评”改革实践的主要经验

理论与实践结合

试点机构充分利用科技评价10年改革期间国际科学共同体构建的一系列理论和方法体系指导实践，理论与实践紧密结合。

保持与其他试点机构的交流共享

试点机构一般会签署《旧金山宣言》和《改革科研评价的协定》，置身于试点集体之中，与科技评价研究的学者以及其他试点机构保持互动交流。

在评价方法上保持不断创新和完善，而不奢望一蹴而就

例如，REF自2008年提出引入科研影响力评价，期间花费了大量的人力和时间研究开发影响力的内涵、评价标准、评价方法、专家手册等，直至2014年才应用于实际评价之中，而且现在依然在研究和完善之中。

试点机构体现了充分的改革自主性

各机构响应国际科学共同体的倡议启动改革，是出于自身在理念上的认同和实际需求，完全是自主的，而不是源自政府行政要求。

结论与启示

结论

国际科技评价10年改革值得总结的内容很多，本文主要从与我国科技评价改革比较角度，得出3个方面结论。

国际科技评价改革目标与我国相似

本次国际科技评价改革的核心目标有2个：

1. 破“以刊评文”，这与我国破“四唯”之中破“唯论文”的导向是一致的；

2. 立对经济和社会贡献的“影响力”评价，这与我国强调科技成果的五元价值是一致的。

但是，我国破“四唯”中破奖项、学历、职称、人才“帽子”等，主要是我国特色。对于国际上的传统科学强国而言，科技奖项、人才帽子等基础性评价问题并不明显。

国际科技评价改革路径与我国差异较大

国际科技评价改革主要由科学共同体主导，采用自下而上的方法，通过科学共同体发布宣言、倡议、评价方法体系、签署承诺协议、实践案例总结与分享等方式推动，政府很少直接介入。相反，我国更多采用自上而下方法，政府在科技评价改革中发挥主导作用，通过发布改革的政策文件和要求推动改革，科学共同体的作用发挥有限。

国际科技评价10年改革经验值得借鉴

1. 科技评价是管理的需要，也是一把“双刃剑”，没有充足理由和充分准备不要轻易启动科技评价。

2. 科技评价离不开同行评议，难以通过简单量化方法评价。但是，量化方法如果使用得当，能够有效提升同行评议质量。

3. 量化方法有好坏之分，在实际评价中需要辨别与选择好的量化方法，避免使用不好的量化方法。

4. 需要关注支撑定量评价的数据质量及其来源的可靠性，没有数据质量及其来源可靠性保障，光是指标好看没有用。

5. 通过使用唯一标识符（如ORCID），将科研产出、参与的科研活动等与科研人员绑定，在保证定量评价数据质量的基础上方便查寻获取，已经成为国际科学共同体越来越普遍的做法。

启示

以上通过中外比较得出的结论，对我国科技评价改革有许多启示，本文重点论述4个方面的启示。

分类分步破“唯”

评价改革要明确责任主体和先后次序。目前我国的“四唯”中，“唯”要分类分步而破。

1. 严重性不同。“唯论文”“唯奖项”“唯帽子”比较严重需要重点关注，“唯学历”和“唯职称”也是问题但影响面较小。

2. 责任主体不同。“唯论文”的责任主体主要在科学共同体，这和国际科技评价改革一致；“唯奖项”“唯帽子”责任主体主要在政府，国际科技评价改革没有这方面的问题。这2个责任主体的问题是交互作用的，但是，有先后次序。“唯奖项”“唯帽子”本质是奖项和“帽子”过多，需要政府做减法，为科学共同体破“唯论文”、安心产出原创成果提供基础性管理制度保障。“唯论文”则需要借鉴国际科技评价改革经验，更好地发挥科学共同体自下而上改革的主动性，形成先行先试、敢为天下先的局面。

慎重启动评价

评价是一把“双刃剑”，国际科技评价改革提倡不要轻易启动科技评价，这与我国科技评价改革节奏有相通之处。事实上，在破“唯”之前，我国首先开展的是“减量”改革，要求各单位清理过多过频、重复交叉的评价。但是，近年来减量风头过去后，评价冲动又有释放苗头；加上国家新出台的“全面实施预算绩效评价”的要求在落实中并没有和原有科技评价协调好，评价频次又多起来了。对此，需要通过建立对评价进行评价的机制约束评价冲动、规范评价制度和方法，而不仅仅停留于开展减量改革的阶段性运动。

用好量化评价

作为同行评议的辅助方法，量化评价在本次国际科技评价改革中得到了重点关注，形成了较多共识。鉴于我国过去量化评价过于极端，在这次破“四唯”改革中，有一派观点主张完全放弃定量评价，回归同行评议。结合我国国情，这是不可取的。笔者曾经提出定量、定性相结合的BRIDGE理论，主张通过表单化方法将数据材料和证据的隐性知识显性化，从而对同行评议起到支撑和约束作用。这一方面是将我国已有量化评价探索做到物尽其用，另一方面可能在定量定性结合评价方法上形成改革突破，并为国际科技评价改革作出中国贡献。

积极融入国际科学共同体

目前，我国签署《旧金山宣言》的科研机构、高校和科学家个人还比较少，与我国庞大的科学共体还不相称。同时，我国还没有科研机构和高校加入国际《改革科研评价的协定》之中。这种情况与我国作为后发国家还存在一个逐步融入国际科学共同体的过程有关，也与我国科技评价改革由政府主导的特点有关，甚至近几年的疫情也有较大影响。作为国际科学共同体的一部分，我国应该更加积极地融入国际科技评价改革。通过与国际科学共同体相互借鉴和促进，一方面可以更好地激发我国科学共同体在科技评价改革上的主动性，另一方面可以增加科学共同体之间的理解与信任，从而有利于加强全方位国际科技合作的纽带。

上一页：李言荣院士：当前我国科技创新的关键是解决从1到0的问题

下一页：静水流深：美国人工智能治理的特征、趋势与启示