学术评价是件非常困难的事,如非到不得已,也不必去自寻烦恼。但是,在一个学校或研究机构,每年都遇到职称评审、博硕士导师评审、引进人才、评奖评优等事项,就不可不认真对待。因为这种评审会引导学术风气的。过去看到或经历过的一些学术不公、学术失范和学术腐败事实,促使我一直在观察高校的学术评判机制与标准问题。在现有的评价机制面前,许多人作学问都习惯于搞形式、搞数量、搞刊物级别去了,反正学术评判常常不是同行专家在主导,反正高校的学术资源都集中在行政者手里,反正真正的同行没有评判的终审权,所以,教师中学风不正的情况愈演愈烈,争课题、抢项目、捞经费的机制,催生了爱吹牛、爱拍马、爱虚荣的学风,这样的评判标准和机制,导致的危害显而易见。
一、学术评判三要素
我大致上把学术评判和判断的三个关键问题归纳为:谁有权评判?即评判主体问题;根据什么评判?即评判标准问题;如何展开评判,即评判程序问题。
一是主体,学术评判主体应当尽可能是同行占多数。通常情况下,越“小”范围的同行(所谓“圈内人”)其判断越有准确性。当然,也隐藏着一个风险和副作用——过小范围的同行太知根知底,容易出现学术偏爱或学术偏见。所以多大地域的同行范围以及多大学科的同行范围就成了主要问题。
评审主体比评审标准和方法更重要,过去我们一味地指责学术评价标准欠缺、评判方法不科学,等等。其实还需要从评判主体入手。学术评判主体固然要考虑社会地位、社会影响力等因素,但不能绝对化。如果是外行,其社会地位和影响力就等于零。如果不是一级学科的同行,则无法作评判(甚至有的必须是二级学科的同行)。可是我们这些多学科的大学里,校级学术性评审活动被行政化,当作一种学术评价的级别层次,院级上面还有校级,似乎在学术判断上也是校级必然比院级更有权威。由不同学科的教授和院士组成的,那么势必出现外行评判的问题。所以“对同行评判的回归需要从“立法”和“建库”这些基础工作做起,应制定出严格而公正的遴选程序和规则;在此基础上建立起涉及每一学科分支方向的评审专家库;专家库应是公开和开放的,且具有不断吐故纳新的功能;应建立起评判活动的合法程序和具体规则,并配套以长效的监督机制等等”。(引自朱剑:《学术研究 谁人评说——学术评判主体与评判机制的重建 》载2010年08月17日《光明日报》)
评审主体问题上要坚持委员平等原则,不能由地位和身份来影响委员会制下的平等原则。比如委员会把体制搞混了,搞成“首长制”,这在高校中也是常见的。这在我所在的单位里也发生过,我也亲身经历过这样的产生严重后果的错误过程。如果评审程序设计得不合理,还会出现“地位”优势决定“专业”优势。比如有院士参与的委员会里面,院士应当受到尊敬,可是他们在学术评判上并没有特权,在非本行问题上也没有专业优势。一些院校的领导在组织各种学术评审的时候,习惯于把全校所有的院士都摆在里面,这样就占了委员会的多数席位,于是评审的结果对于文科是什么样的命运和结局也就很清楚了。在当下,大家都反对大学行政化和学术行政化,可是用非同行来评审显然是陷入另一种学术的非正当性,想砸一尊行政的菩萨,又塑了另一尊菩萨来拜。遗憾的是,又把“专家评判”这本经念歪了。
二是程序,学术评判程序应当是设计得具有正当性。这种程序是否合理关键看它是否具有“去人情化”的理性评判的功能。根据惯例,以下关键机制不可缺少:首先,要有双向匿名评审的前提,事先要组织一定数量的同行专家对被评审人的代表作进行评审。这是学术评判中的实质性判断环节。其次,委员会的评议与投票,这是所谓委员会制的优点所在,它不听命于某种身份的个人,而是听命于全体委员,什么是全体委员的意见呢?就是通过评议和投票被提炼出来的。但是事实上,大量是外行,评价一位医学教师,却让机械能源学科、法学学科的专家参与。这是一个值得质疑的学术惯例。为什么非得让不同学科的专家凑在一起呢?为什么不把同行专家或相对同行专家组织在一起呢?第三,最高“审级”的审查未必是公正和权威的。因为最高审级中未必有正当的程序。在目前的学术评价中,都设置了学科级(学院级)、学校级,至少两级的评审主体(即审级)。但很少有对评审程序加以规范的。到了最高审级却是最简单最不规范的,比如未了解情况就开始投票,或者领导进行暗示性讲话。第四,评审程序中的信息交流。应当把有关的信息在会议上公布,允许正面的肯定性介绍,也允许提出异议,允许辩论,甚至允许被评审人参与到程序中来,发表意见。特别是人文与社会科学的学术评审,如果当事人不在场是有弊端的,因为你没见到人就不能全面了解他的学养。国外一些大学的职称评审之所以进行面谈式的,就在于教师学养是“活”在人身上的,而“死”在纸上的。另外,倘若你作出一项决定对他不利,就应当听取他为自己的辩护,这是“自然公正原则”中“听取不利方的意见”的要求。
三是标准,学术评判标准应当是“形式性为辅,实质性为主”。所谓形式性标准是指现在高校中通行的诸如论著数量和级别、课题数量和级别、经费数量、获奖级别等等。所谓实质性标准,确实是最难确立的,但并非不能确立,关键是要:转变思想观念,明确评判主体,确立正当程序,认同学术规范。
我谈两个事例。一个事例是校内推荐评审全国优秀博士论文。高校管理者对学术公正没有引起高度重视,在主体、标准与程序问题上存在误区。比如某校评优秀博士论文,评审主体是院士为主,标准中有SCI论文的优先,程序中没有让博士生论文作者和导师到会陈述。校方并不以为他们这样对待文科是很不公平的,他们既重视“程序”(即投票),又重视专家——院士总是最权威了吧。其实,这个评审制度设计本身是有严重误区的,一没有规定学科比例,二没有学科的相对独立的评审标准(工科有许多博士有许多SCI论文,而文科几乎没有SCI论文),三评委委员多数都是工科的院士和教授,文科只是少数。在这样的规则面前,在这样的评委专家面前,在这样的程序之中,当然就会让文科失去平等的机会。
有一次学校学位委员会开会讨论这么一件事,某硕士毕业生在获得学位之后,被人告发,说他曾经在读书期间打架被学校予以严惩警告处分,现在会议上讨论要不要撤销其博士学位。有若干位院士在会议上公开表态说,这么坏的学生居然让他毕业还让他拿到硕士学位,那我们浙大培养什么样的人啊?我们当场指出了这两位院士的错误:第一,从实体上讲,混淆了博士学位与行为表现两个不相干的问题。博士学位是对一个人学术上的认可;而打架受处分是对品行的决定,不能因打架受处分而剥夺其合法地获得学位的权利。第二,从程序上讲,这位毕业生已经获得博士学位,你现在要撤销其学位,需要有证据证明其撤销的理由。撤销学位是个“教育行政行为”,是对其不利的行为,那么谁负举证责任呢?应当是作出撤销行为的一方即学校学位委员会。我们不能根据举报人的材料就作出决定。由此可见,大学管理没有法律意识,没有规则意识也是很危险的,甚至比行政机关处分公民权利的危险更大。这个事例说明,院士不仅在他研究领域之外是外行,有的院士还会犯常识性的错误。
二、学术的实质性判断
前面已谈到,学术的实质性判断,需要明确评判主体,确立正当程序,这是两个前提,如果有了标准却不是同行教授专家来评审,那么,就没有实质性评审,非同行无法进行实质性评审。如果没有正当程序,那么高校也非真空状态,也会出现学术腐败,所以程序可保障,其中要遵循若干正当程序规则,包括被评审人的表达意见与沟通;重要的学术事务甚至得进行听证与申辩,可申请复议;涉及本人利害关系的回避;等等。
那么,实质性的学术标准呢?
我把实质性判断区分为三种:第一种是不依赖任何有形材料,只凭工作或学习过程中的熟悉程度,凭判断者的学术权威与学术信用,对一个教师的学术水平进行评判。我把它称为主观性实质评判。比如梁启超和吴宓推荐一名叫“陈寅恪”的没有成果没有学位的年轻人当清华教授,就是一例。这种情况的确是实质性判断,当然它容易引起争议,当有异议时,评判主体就需要举证,也许在某些专业领域还可能存在学术权威,由他说了算,但多数情况下还是要你举证,你总不能只说“我还不了解他吗?”是行不通的。我把它归结为主观性实质公正。这种公正的前提条件是学养极为突出的人才在同行中出类拔萃地偶然出现。如果在茫茫的学术界大家水平都中不溜湫的,你要采用这种实质性判断显然是无效的。所以它不具有普遍适用价值。
第二种是由最权威的评判主体审阅论著,作出评判;我把它称为权威性实质评判。比如聘请同行中权威专家对被评审人的论著进行一一阅读。专家的结论基本上会是一致的,或者八九不离十,这就把这个教师的学术水平作出实质性判断了。这种学术公正的前提条件是,有若干位与评判事项相匹配的学术精英的参与。如果是人才引进的评审,这样的方法再结合其学历与教育背景的考察,是可行的。当然,在我们现行的高校人事制度下,如果是职称评定的话,还要求达到一些基本的形式要件,诸如教学、论著、课题、经费、获奖、任职年限等等。
前两种实质性审查均体现了主观性和权威性的特点。
第三种是对其进行全面地考察,涉及一系列问题,均进行实质性考察分析和评判。如果是对一位高校文科教师进行学术评判(注意这不是全部评判),那么这些问题是必须考虑的:他论著水平如何、研究水平如何、教育背景如何、学术影响如何、他的学养如何、他的学术口碑如何、他的学术旨趣如何、(年轻人)学术潜力如何,(年长者)学术生命力如何,等等。
客观性实质评审要满足两项条件:其一为可证明其实质学术水平的相关的形式指标。其二是由学术权威担任评委进行实质性审查。与前面两种主观性实质公正、权威性实质公正相比较,客观性实质性判断的优点是具有客观性公正,当然其劣势是评判成本相对较高。在职称评定、博硕导资格遴选、人才引进等重要的师资人事事务,采取这种办法是比较适当的。如果没有实质性分析,则流于形式和量化,它就不是实质性判断。
上述这一系列问题,如果是在同行当中进行评判,是比较容易的,但是同行往往有面子问题,容易导致不公正性,所以需要在这些问题当中找出相对应的硬指标——具有相对的客观性。因为这些问题中部分是可以借助于一定的载体或材料来评判。因此,我们可以把上述近十个项目进行具体化(或物化或指标化或数据化)为某些载体,这些指标化的载体,诸如学位、毕业院校、论著(数量与质量)、被引用率、获奖、课题,等等。我们应该把这些指标看成是教师学术评判的一般性评判标准。与之相对称的另一方面则是个性化(特殊性)评判标准。我把这些项目相互关联的相对因素作这样的列举(见表2)。之所以说是相对的,是因为内容与指标之间不可能是完全一一对应的,它们之间只具有概然性。
关于代表作的评判,本文将放在后面另行阐述。
研究经历如何?重点考察的显性指标包括:在哪作过研究(比如在德国马普所作过访问学者就基本上可以予以信任)?研究过什么课题(比如研究过德国民法解释方法)?承担过什么课题(比如主持过国家社会科学基金)?承担课题之所以成为具有正当性的指标,是因为它显示了研究经历。主持过课题就意味着他有这样的研究经验,而不代表他的研究水平。当然课题也一定程度上说明其研究水平,因为有的课题是有严格的学术评审程序的,所以值得信任)
教育背景如何?重点考察的显性指标包括:在哪读本科(通常来说,第一学位的那个学校代表他受高等教育前的最初的天赋资质)、最高学历是哪所学校(这代表他的最后教育水平)、什么学位(学位代表他所受的教育程度)、留学国别及学校(有时可以代表其学术的先进性程度,比如在俄罗斯攻读音乐指挥和生物技术的博士学位,这两个专业的专家自然会有不同的结论,音乐指挥可能成了高校的抢手货,而生物技术博士可能找不到工作)。
隐性的标准,则是只能意会不能言传的那种带点神秘性的东西,只能在志同道合的专业同道之间,它是在午餐会上,在茶歇中,说两句评点的话语加上会心一笑间就能够领会和传递的东西。不能说,但也得表达出来,以便制定评判标准和程序的时候,可资参考,所以我斗胆简述如下:
学养,学问和修养,或学业上的修养。比如邹韬奋 《萍踪寄语》五六:“在德十年,专研哲学,一望而知为学养渊深的学者。”我理解,主要是指文化修养和学术修养,如果硬要找个直接的形式化指标来衡量,我以为可以用“阅读面”、“知行合一”等要素来代替吧。钱理群在给北大学生讲“最后一门课”时,公开自嘲:“这是历史造成的一代没有文化的学者,一代无趣无味的文人。”说的就是学养问题。这就是批评这一代没有学养的所谓“学者”和“教授”们。
学术旨趣,这对于人文和社会科学比较贴切,可以从其研究选题、论著的智识品位中得到相对的结论。
潜力,确切地说这是对年轻人而言,可以从其外语能力、教育背景、学术激情等方面来考察。
学术生命力,一般只对长者而言,他今后还有生命力吗?关键可考察其以往的学术发展惯性规律,以及他所掌握的中外文资料数量。
外化的学术影响,是指佐证材料是外化的,其中有的是非常重要的指标,比如被引用率。这在中国也开始受关注了。苏力曾经对引用率(通过CSSCI查询),作过统计分析。后来上海交大出版社出版了一本书,把30年来50篇高引用率的论文进行了分析。我们在这方面所下的功夫还不够,应当多做些这样的统计工作。这表明他在学界的影响。但不是唯一的,还有他对社会的影响力,那么很难用统计的方法来衡量,而需要借助于其他材料(比如,被决策、被报道等信息材料)来佐证。但要看到目前我们的许多评奖奖项是有官方或半官方性的,它有一定的合理性,但也不能单一地依赖这种评价。
学术声誉或口碑,虽然是无形的,但略作调查就容易得到信息,甚至机械的民意调查也具有一定的客观性。这是内在的学术影响,它与外化的学术影响相对应。它无法通过外部证据证明,而是小范围专业人士的评价,是同行的口碑。
学术的社会影响,指学术成果所产生的社会影响,这是指它学术界和社会实践对它预期的意义是否得以实现。学术质量和影响,还涉及学术与时代背景的关系。需要澄清的是,每个时代有不同的社会热点和时代使命,因而学术研究有不同的学术主题,有不同的学术范式,更有不同的学术追求,不能囿于时代谈学术形式和质量,不能离开时代背景来讨论学术质量和影响。有些学者的成果并不都是以严格的学术论文形式出现的,而是以与时代相适应的文章甚至以随笔、杂文形式出现,它批判现实或启迪民智,影响决策或引领社会。所以,不能简单地否定这个人的学术水平和成果质量。一个时代有一个时代的任务,一个时代造就一个时代的学术,一个时代也成就一个时代的学者。
与一般性标准相对应的另一方面,则是个性化(特殊性)评判标准。我们以往对教师的学术评判,往往追求整齐划一的评判标准,这就走入了误区,评判标准被固化、程式化和数据化。这忽视了大学文科教师的个体差异,包括学术周期的差异(有的人十年磨一剑,有的人只花三五年就产出的成果也未必不是好成果)、成果形成方式的差异(有的人不写书,光有论文,有的人有学问却不申报课题)、专业差异(人文与社科不同,社会科学内部也有多样性,管理学可以申请自然科学基金,可以有院士)。这些个性化的评判标准是无法统一化的,只能通过各学科、各学院制定相应的具体标准,甚至对每一个体要作出主观的自由心证式的衡平和评判,而不应该是工具式测量和评判。这就依赖于评判者的学养和良知了,所以更证明了评判主体的重要性。
三、代表作制度及其质量评判
代表作质量如何?代表作是反映一个学者的学术高度,如果费孝通先生在40岁以后没有成果是否还可以继续当教授?如果某校要聘他,其学术正当性何在?正当性就在于:因为他在28岁和38岁时所写的《江村经济》和《乡土中国》已经达到了这个领域的一个学术高峰。他曾经在年轻时在学术上达到过某一高度,这就是他担任教授的资本。因为这不是一种简单的技术,而是他的学养,是他融入他大脑和身体的内在的东西,而不是他身外的成果。所以应当建立代表作制度。2005年有报道说北大中文系在教师聘岗时已经实施代表作制度,即教师在聘期内只要发表了一篇有较大影响力的论文,经院系学术委员会认定,在相关的学科领域里属于领先地位,对该学者的科研工作就不再进行量化考核。2009年中国人民大学在全校范围推行论文代表作制,评选教授不再是论文数量多多益善,而是由参评教师拿出有代表性的著作或论文,提交专家组评审。
代表作制度可以避免学术的短期行为,避免在投入相同的情况下产量大质量低的学术研究,鼓励十年磨一剑的学术周期,鼓励长期地精力投入、潜心研究。
考察一部代表作,过去总是从它的刊物级别来看,比如核心期刊的地位长期以来普遍被认可,但最近已经受到质疑,有很多文章建议取消核心刊物的特殊地位,认为核心期刊不应成为学术研究的唯一评判标准。
有的单位目前取消刊物的级别,确定了学术的实质性判断原则,采取了“结合式”的办法,一方面相对地确定近20种海内外中文法学刊物作为重点刊物,另一方面又留有空间允许非重点刊物上的论文可以提交教授委员会进行实质性评审,经评审确定为优质文章的,可以作为职称晋升、导师资格的依据性成果。不管怎样,这是大趋势。“以刊评文”的唯“核心期刊”时代终将过去。
那么,还应当从哪些方面来评判代表作呢?首先是否符合学术规范,这很重要。可是在我国学术规范还不那么“规范化”,没有具体到对论文内容和质量的规范性要求。目前也只是对论文格式和形式作规定,比如GB 7713—87《科学技术报告、学位论文和学术论文的编写格式》等。但由于这些标准是从所有学科整体上规范学术论文,没有从学术质量的角度来设计论文格式,也没有从具体学科(如法学)自身特点来规定,所以这个国标有局限性。国际标准怎么样呢?国际标准也不是放之四海而皆准的。当然可以作为我们不同学科的参考,比如美国《芝加哥手册——写作、编辑和出版指南》(The Chicago Manual of Style: The Essential Guide for Writers, Editors & Publishers),当然《芝加哥手册》并非是唯一标准,如另一十分通行的学术写作指南是《韦伯美国标准写作手册》(Websters’ Standard American Style Manual)。在我国,确实有必要制定一部以学科门类这范围(如哲学社会科学中的法学、政治学、社会学等等)的学术规范,它应当是侧重于质量而不单纯是论文格式和形式为内容的。
《美国心理学会出版手册》(Publication Manual of the American Psychological Association),(1974年出版)规定了心理学研究论文的格式和写作方式。这一手册已成为心理学杂志发表论文报告的标准。特定的学科有自己的论文的学术规范,其必要性是可想而知的,但心理学的规范对我们其他社会科学的论文质量也是有启发的。据该手册载明,心理学论文与研究报告的评判有如下8条标准:1)具有一个或多个具有理论意义的新结果;2)研究结果具有重要的实际意义和可应用性;3)论文构思新异,或者以新方式说明老问题;4)研究结果的解释明确合理;5)论文以简明方式综合了新的研究数据;6)论文指出了先前所持的某种理论观点的问题或局限;7)研究有明确的研究图式、思路或者实验(或实践)操作;8)所报告的结果或理论具有普遍性。这八条标准中,突出了对研究结果的评判标准(如第1、2、4、8条),注重论文的创新性(如第1、3、5、6条)。此外,还重视论文的思路、价值、以往研究探讨、研究方法、数据资料、结果的解释等问题的评判。
代表作可以是论文也可以是著作。但以论文标准来衡量著作,应该是符合学术惯例的,是恰当的。所以我在这里只谈论文的质量评判标准的要素。对一个人的学术代表作的评判,通常来说应考虑选题意义、文献综述、研究方法、创新结论、论证程度、行文表达等六个方面:(参见列表3——学术论著的评判标准)
1.选题意义。我们从选题背景的说明中可以看到选题的问题意识,并从选题的说明中判断其学术价值和实践意义的真实性,论文研究的预期结果或理论应当具有普遍性。选题不能是无病呻吟的,也不能是上不着天下不着地的东西,必须是有现实根源出处(比如农嫁女财产权问题),或者是学术谱系中的问题(比如德沃金的hard case理论),指标包括选题背景、问题意识、学术价值、实践意义。
2.文献综述。对以往相关问题的研究成果进行综述,是开展本课题研究的重要前提条件和基础准备,做了这项工作,才有可能有所创新,有所洞见,否则只会重复别人的思路或者走别人的老路。有学者指出“忽视学术积累是"低水平重复"的重要原因之一”。(王笛《编辑中国学术界的“芝加哥手册”》,载《开放时代》2001年12月号)所以我们的国标GB 7713—87中规定“学位论文……有关历史回顾和前人工作的综合评述,以及理论分析等,可以单独成章,用足够的文字叙述。”指标包括相关中文文献、外文文献、文献要点整理、成熟观点、遗留待决问题、难点何在,等等。特别要收集被本论题作为核心资料的外文文献。
3.研究方法。现在的许多论文是没有研究方法的。方法很重要,不仅自然科学要有方法,社会科学更离不开方法,否则文章的观点就和街头巷尾的议论没有区别,因而使它的科学性大打折扣。《美国心理学会出版手册》所谓的“论文构思新异,或者以新方式说明老问题”、“研究有明确的研究图式、思路或者实验(或实践)操作”,其实都是指研究方法、方式、进路的问题。值得我们借鉴。法学的研究方法虽然是规范实证为主,但也还有其他方法,诸如价值分析方法和社会实证方法。一篇学术性的论文,只采用规范分析,就比较有局限了,毕竟不是判决书也不是辩护词,人家美国法官在判决书还进行价值分析和社会分析呢。同时,法学研究也与其他社会科学有共性,所以学术研究方法上,也会常用因果分析、矛盾分析、历史分析、比较分析、结构功能分析、归纳与演绎、分析与综合、科学抽象等定性分析法。
4.创新结论。多数人认为科学研究的生命在于创新,我不否认,当然对于人文社科而言,这个创新必须坚持一个前提,这就是继承或传承的基础上,如果没有前人学术努力的铺垫,就没有学术创新。即使前人观点是错误的,也为后人作了铺垫。《美国心理学会出版手册》所谓的“论文指出了先前所持的某种理论观点的问题或局限”,这在法学领域也是存在的,另外,还可以推演为某项法律制度的局限性或实施中的难题,云云。
5.论证程度。论证程度可以从分与析、层次合理、论述结构和论述深度两方面来审查。分与析是对事物进行研究的基本做法,没有分类就没有剖析。有分析就必然出现层次,同时层次是否合理,是研究水平的重要表现。论述结构,通常是从论著的整体结构和段落结构的安排来看其论述是否严密、严谨。有的论文第一章与第二章没有关联的,或者第二段落与第一段没有联系的,这就说明不够严谨,那么论证的严密性就不够。论述深度,是审查其论题所及的纵向幅度。它涉及到前面文献综述中的他人已有成果——即他人已经挖掘的深度。论题象一口井,你在别人挖过的基础上继续挖掘,挖到底了没有?有的论著通篇没有论证,也就是没有挖掘下去,比如提出一个新观点,可是一个理由都不写,或者只写了几个与之相关不密切的三两个理由,或者写的理由是大家知道的通说;再比如“当前民意关注司法的原因”,假如事实上有六七个原因,他只写了三个原因,那就说明没有挖进去,就草草收工了。
6.行文表达。这显然是审查其语言、文字和逻辑的问题。除文字意义之外,还涉及是否做到了论述与叙述兼顾,考证与实证兼顾,文献注释与图表统计兼顾,理论推理与实践检验兼顾,等等。
当然,个人前期成果的积累也很重要,在国外的学术规范中通常不作要求。但对于中国学界来说,就有一定的针对性。学界有的专著基本上没有前期研究成果,突然间就出版了一部著作,这样的情况很多见,甚至我们可以怀疑作者是否有真正的研究?可能连看书时间都没有的情况下,就写出一本专著来。所以,我们如果是对一部专著进行学术评判,那么这个问题会比较重要。
虽然文科的评价标准很难确定,但它并不是无标准可循的。我们通过制度设计,完全可以拿出一些更加合理的标准,并且还要有更合理的评审程序和评审机制。在一所大学多学科并存的情况下,更重要的是对不同学科的尊重,这涉及大学理念和学术生态问题,另当别论。