摘要
以ChatGPT为代表的生成式人工智能以其革命性的技术创新对当下以“破五唯”为旨归的高校学术评价改革产生了诸多影响。凭借自然语言的人机交互模式、机器深度学习能力,生成式人工智能改进了传统低效的科研方式,推动高校学术评价拓宽了评价维度。与此同时,高质量的人工智能内容产出消解了论文作为学术评价标准的权威性,进而形成对“五唯”体系的破局之势。在此基础上,依托新型数智技术,生成式人工智能在数据采集、分析和反馈环节表现出强大的信息抓取、数据整合和关联分析能力,能够切实解决评价新方法在数据收集和处理上的难题,推动学术评价方法的重构与落地。生成式人工智能技术在“破五唯”上潜力初现,但是在制度、技术和应用环节上存在的风险与不足亦不容忽视。相关管理部门、高校、评价机构和科技公司亟须加强政策引导和机构监管、推进基础建设和学科发展、改进思维模式和工作方法,在新技术与旧制度磨合变革的过程中与智能机器协同共进、提质增效。
关键词
“破五唯”;生成式人工智能;学术评价改革;ChatGPT;高校
一、问题缘起
2022年11月,生成式人工智能的代表产品ChatGPT从技术领域“出圈”。时隔一年,其母公司Open AI再次刷新了业界对生成式人工智能的理解和认知。其新产品GPT-4 Turbo不仅将数据库更新到2023年4月,而且大幅提升了机器响应和上下文输入速度,人工智能生成内容(Artificial Intelligence Generated Content,AIGC)再次得到深度拓展。在2023年7月6日开幕的世界人工智能大会上,全球业界领军人物普遍认为我们将迎来一个由人工智能主导的“黄金十年”。在生成式人工智能的未来图景中,以学术内容生产为核心要义的高校学术评价在这场科技浪潮中会受到什么影响?部分学者认为生成式人工智能正在引领学术成果评价模式、学术生态乃至科研范式的重大变革;也有学者指出新型人工智能即将引发严重的学术伦理危机;甚至还有学者认为智能科技的持续进步将最终导致整个科研领域被人工智能接管。
事实上,生成式人工智能是网络时代电子数据不断扩容增量、电子科技不断发展的必然产物,它的到来不可逆转,其发展更无法遏制。诚如爱德华·阿什福德·李(Edward Ashford Lee)所言,人类已经进入了进化第四期——合成进化时期(Synthetic Age),这个时期的标志是硅基新生命形态,即“有生数字体”的诞生。与人类共享生态系统、协同进化的智能机器正在塑造我们的认知,而认知上得到强化的人类不但不会被机器所取代,反而可以学会如何逃离片面事实的孤岛。当下,以“破五唯”为旨归的高校学术评价改革步入深水区,以内容提升为技术变革表征的新型智能机器如若得到妥善应用,不仅不会掣肘学术评价改革,反而有望纾解高校学术评价改革中的“五唯”困境,助推新评价方法的落地实施。因此,我们需要审思及应对的是,如何充分利用人工智能技术带来的便利推动当下的“破五唯”改革,以及如何在制度、技术和观念等领域加以改进,规避人工智能带来的风险与隐患?基于此,文章通过梳理生成式人工智能的技术变革特质,从“破”与“立”两方面剖析其作用于高校学术评价改革的机制原理,并在此前提下探讨学术评价改革与最新智能工具协同发展的优化理路。
二、“破局”:生成式人工智能赋能
“破五唯”的逻辑理路
2018年9月,习近平总书记在全国教育大会上作出“破五唯”指示后,《关于深化项目评审、人才评价、机构评估改革的意见》《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》《关于完善科技成果评价机制的指导意见》等文件相继出台。2020年10月,《深化新时代教育评价改革总体方案》正式出台,将“破五唯”写入文件,明确了评价改革的内容和方向,拉开了新一轮高校学术评价改革的大幕。地方和高校根据中央精神积极整改,制定了一系列评聘改革文件,如江苏省印发《江苏省深化新时代教育评价改革实施方案》,山东省印发《山东省高校教师职称自主评聘管理办法》等。各地通过开设“绿色通道”、设置“破格”条件、推行代表性成果评价,降低论文在职称评审中的比例,将职称评审向教书育人实绩突出的教师倾斜。2022年12月,深化新时代教育评价改革工作推进会召开,再次对“破五唯”的具体内容和方式进行细化。
然而时至今日,高校评聘环节中的“五唯”痼疾依旧难以根治。归根究底,对竞争性学术资源的争夺使得学术研究与学术评价的同一性被割裂,学术研究与利益分配直接挂钩导致高校和教师群体困囿于对短期个体利益的迷思,无法超越功利化的工具理性,过多关注外在价值而忽视了内在价值。在资源分配和权力分割的博弈中,科学性、权威性和简明性便成为分配和管理资源的唯一准绳。“五唯”评价的数量化、外显性、高效率能充分发挥评价的工具效用,而分类评价、代表性成果评价、长周期评价等改革新政由于评价数据容量、时效和分析手段的限制,难以在高校学术评价改革实践中得到切实运用。“破”“立”两面受阻导致“五唯”之风未止,甚至有愈演愈烈之势。因此,“破五唯”首要任务是“破”,其次是“立”。生成式人工智能依托大数据、高算力、优算法所衍生的技术变革特质改变了原有的科研产出节奏,加快了学术成果的产出效率,迫使学术评价体系修正学术成果的认定标准,回归“以人为本”的价值取向。尤其是高拟真度的机器生成内容消解了“论文”作为高校学术评价重要指标的权威性与适用性。正是这些技术变革将学术评价从标准化计量困境中解放出来,进而形成对“五唯”体系的破解之势。生成式人工智能赋能“破五唯”的逻辑理路见图1。
图1 生成式人工智能赋能“破五唯”的逻辑理路
(一)表层冲击:人机交互模式与机器深度学习
改进了传统低效的科研方式
生成式人工智能在人机交互模式和机器深度学习上的重大变革改变了传统低效的知识采集和科研方式,提升了科研工作者的工作效率和产出质量,改变了“五唯”赖以生存的学术土壤。便捷的自然语言交流方式、模拟真人间上下互文的连续对话以及多模态的数据转换是新一代智能机器最突出的优势,这是输出方式和文献搜索方式的一大改进。研究人员运用联合概率和朴素贝叶斯算法使得新型人工智能可以在海量的连续性语料库和数据库中发现一些微弱的关联,学习和模仿人类语言,并逐渐具有自然语言处理能力。生成式人工智能的多维高拟真人工智能技术不仅能够集成多个场景下的复杂任务,而且具有接近真人对话的人机交互体验。人们不再需要输入代码或通过浏览器来获取某一学科领域的知识内容或某个管理系统的数据分析结果,只需通过对话框提出问题,智能机器便能根据算法推荐和用户需求调取并整合全网大数据,不断调整答案直至给出更为准确和全面的结果。
生成式人工智能不仅开创了人机交互的新格局,在知识学习和迭代能力上也远超传统人工智能水平。作为一种可交互、会学习、自成长的类脑智能,生成式人工智能以不断扩充的数据量和与之匹配的算力完美解决了人类的认知局限问题。从2017年6月谷歌发布Transformer搭建出大语言模型(Large Language Models,LLM)基础架构之后,LLM便不断扩充参数量,每一次的数据扩充都为人工智能技术带来了功能上的跃级提升。GPT-1拥有1.1亿参数,GPT-2拥有15亿参数,GPT-3拥有1750亿参数,而2023年发布的GPT-4的参数量达到100万亿。近年来,云计算技术和芯片科技的迅猛发展驱动了算力的大规模提升。以图形处理器、现场可编程门阵列、专用集成电路为主的芯片设备和技术的发展进一步支撑了超级数据的分析和管理。与此同时,基于人工神经网络的发展,研究人员开发出生成式预训练转换模型和利用人类反馈的强化学习训练方式,推动智能机器在与人的互动过程中不断沟通和学习,扩充数据、提升性能、改善应答结果。生成式人工智能自学习、自成长的知识积累模式使自身的学习能力和自我更新能力得到不断强化,知识积累和更迭速度更是达到人类难以企及的高度。
由于知识获取和组合的便捷,知识生产的速度在加快,原本数月撰写的学术论文和多年攻关的实验数据可在一夕完成。国外研究人员利用ChatGPT完成了对10万个样本模拟数据集的数据分析任务,大大加快了研究进程。利物浦大学自主研发的一款生成式人工智能——人工智能化学家(Mobile Robotic Chemist)8天完成688次实验,一周研究出1000种催化配方,并发现了一种新的催化剂,登上了《Nature》封面。如今,Open AI彻底开放多模态API,在收费上大打折扣,GPT-4让每个普通人都可以拥有一台外置“超级大脑”,人人都能成为高质量内容的创作者,知识生产将不限于教师、科学家、工程师等群体和特殊职业者。当人类遭遇人工智能在知识学习能力上的全面碾压时,人类之于智能机器的优势何在,何为高质量学术成果,成为学术评价改革亟待回答的问题。这个问题的回答建立在对人工智能时代学术评价内容维度的重新考量上。
(二)深层推动:学术产出鸿沟拓宽了评价维度
生成式人工智能在提升学者工作效率和产出质量的同时可能会加大科研工作者间的学术产出鸿沟,进而推动学界将人机交互能力作为人工智能时代重要的评价维度。未来学术成果的产出将更多由智能工具掌握水平的高低来决定,工具使用能力差的科研人员在科研成果产出速度和质量上均处于劣势,而能够灵活运用智能工具的科研人员必然在学术成就上赢得先机。与此同时,计算复杂性会进一步加剧国际范围内的学术不平等。生成式人工智能的迅猛发展让人类看到了评价指向的终极不仅是人,还有机器。学术评价不再单纯指向科研工作者及其学术成果,而是指向数字化的人类,包括智能辅助人、生理增强人以及非整数维度的数字人。数字人(或称“智慧人”)的全面发展不仅包括广义人力资本的提高,而且体现了人和人工智能合作的新知识生产模式。面对知识引领的产业知识化变革,学术评价的对象和边界被重新定义,科研工作者的机器运用能力将备受重视。
人机交互能力中最重要的考察维度是人的主观能动性的发挥。人类应当具备何种品质才能合理运用、掌控机器,而不是被机器所奴役或驯化。国外研究结果显示,生成式人工智能在写作、阅读理解、主动倾听、编程等方面具备卓越的技能水平,但在辩证思维、计算、科学、学习策略、监督与评估等领域还没有突出进展。究其根源,新一代人工智能在创造性思维方面还未能企及人类的高度。因此,在生成式人工智能视阈下,人类在知识生产方面的优势最终将指向知识的全新变革和产出,而非对知识的积累、推理和分析。只有通过动态交互的方式深挖人类的思维深度,凸显人在思维和创新上的优势,人类才能在人工智能时代把控对科学研究的主导权。而我国高等教育在课程设置、师生关系和教育认知上弱化了对学生创造性思维的培养,这就需要学术评价充分发挥导向引领作用,推进教育改革与科研创新,弥补原有的不足。
学术评价的另一个重要维度是对学者学术责任的考量。学术责任是一种内生性的学术契约精神,是学者必须坚守的学术底线。生成式人工智能使得科研造假、学术腐败等学术失范行为更加难以辨识,学术责任就成为科研工作者在利用智能工具从事学术研究的过程中坚守学术初心的核心要义。不屈不挠、坚持不懈的学习品格,追求真理和知识创新的使命感从来都与机器无关,这是学术评价的本真尺度,也是人类区别于智能机器的重要优势。在与机器的双向博弈、协同进化中,人类在思维和情感上的独特性将最终决定其能否把握人工智能时代的主动权。使人得到持续性、高质量发展和提升,培养创造性思维、集体合作精神、实践应用能力和优秀人格品质既是人工智能时代的育人目标,也是学术评价目标的最终指向。高校学术评价只有重视评价对象内在价值的提升,助力其深挖自身价值,成为知识创新和主动发展的价值主体,才能助推高校和学者在科研的道路上走实、走稳、走长,使高校真正成为先锋思想碰撞、高新技术变革的精英汇聚之地。
(三)破局要义:高质量人工智能生成内容
消解了论文的评价权威
无论是创造性思维还是学术责任,都属于量化评价难以简单测量的范畴。“五唯”所体现的绩效主义和科学主义在这两个重要维度的计算和呈现上无计可施。评价维度的与时俱进使“破五唯”有了可以为之的理由,而对论文这一高校学术评价权威指标的消解则将“破五唯”立于不得不为的境地。以ChatGPT为代表的生成式人工智能依托AIGC技术持续创造、丰富内容并提升内容品质,实现了对人类文本创作的高度模仿,彻底颠覆了论文在学术成果鉴定方面的权威性。相较于传统人工智能,生成式人工智能在自然智能模拟的基础上达到近似真实心智的水准,在拟真度层面实现了跃升。这种与人类相等的认知能力令智能机器火速破圈,进入大众的视野。更重要的是,人工智能生成内容的学术质量正在得到全面提升。一方面,知识体量的迅速增长极大地改善了机器合成文本的准确性。以ChatGPT为例,当数据量只有500万的时候,某种数据处理算法的表现是相对较差的,但在数据量增加到10亿的时候,同样算法的输出准确率则从75%增加到了95%。另一方面,各类资料的扩容开源增加了机器生成内容的专业性。数字图书馆、学术资源数据库、电子期刊等学术文献收录平台蓬勃发展,分类化、可视化、系统化的知识管理进一步提升了机器生成内容的可靠性、专业性和学术性。
目前,人工智能撰写的论文不仅能够鱼目混珠,还可以修饰文本语言,生成妙笔生花、文采斐然的文字,甚至能在未来全面取代人类进行论文的“无性繁殖”。基于这样的危机,学术出版机构积极应对,呼吁禁止在论文中使用任何由ChatGPT或其他人工智能工具所生成的资料,部分学者和一些国家甚至要求停止或暂停对生成式人工智能的开发和应用。尽管如此,在当下的技术和制度范围内,我们要想规避人工智能代写论文似乎无解。一旦生成式人工智能完成的作品能够通过资深编辑和专家的同行评审,令学术评价界无从辨析到底是人为还是机器所为,学术成果尤其是学术论文作为量化评价指标的权威性和科学性便无从考证。
生成式人工智能在消解学术论文权威的同时,能够取代人类从事部分学科尤其是人文社会科学专业的论文写作。传统文科的论文撰写基于对专业知识的掌握,主要通过文献检索、思维分析和史料考证,从而完成理论创新和创造,这些正是生成式人工智能正在做的。一旦人脑对文本的处理能力被机器所取代,这无疑将加剧基于文献梳理进行科学研究的文、史、哲学科的科研压力。理查德·大卫·普雷希特(Richard David Precht)指出,数字化数据处理的昂首挺进昭示着社会科学衰退的开始,数据量越大,社会科学受关注的程度越小。面对新一轮数字智能技术的革新之变,“唯论文”势必导致部分学科式微,思辨类、综述类的学术论文和科研成果将成为机器写手泛滥的重灾区,这会扰乱现有的学术生态体系,引发一系列学术伦理问题。
在这场技术革命的洪流中,作为高等教育改革“指挥棒”的学术评价肩负着助力国家在人工智能研发竞赛中实现弯道超车的重任。然而,在“五唯”体系的裹挟下,论文发表、课题申报成为高校教师就业和升迁的唯一通路。“五唯”构建的学术评价空间无法公正准确地测评数字人的创新能力、学术责任履行情况和人机协作沟通能力,也无法使人类在与机器比拼知识学习和学术创作的竞赛中获得先机,亦无法推动人类创造力的发展与自我价值的实现、恢复学术评价与学术研究的同一性,因此势必被时代和国家所淘汰。
三、“重构”:生成式人工智能赋能
“立新规”的实践进路
当下的学术评价改革是一场破旧立新的艰难历程,“破”是改革旨归,而“立”是破局路径。“五唯”破局之势一旦开启,融合质性的新评价方法便亟需在实践层面得到确立。高校学术评价改革难以摆脱对“五唯”的依附主要是因为评价数据收集难度高,无形中阻碍了融合质性的新评价方法落地增效。一方面,增值评价、综合评价和过程性评价等新评价方法需要评价人员长期跟踪评价对象,通过听、看、谈、访、察、诊来多方位了解其学习和科研情况,因此数据收集难度大、历时长、主观干扰因素多。由于信息技术和数据容量所限,我国在科研成果基础数据的积累、认证、获取和共享方面都还存在许多不足,有限的评价资料和落后的信息分析手段制约了长周期评价和同行评议等质性评价方法在消除量化评价弊端作用上的有效发挥。另一方面,开设“绿色通道”、设置“破格”条件等新评价方法因缺乏数据支撑和科学论证导致新政的普惠性和公义性受到质疑。在实际工作中,高级别奖项和成果往往依赖于优质资源的获取和专业团队的打造,普通教师因资历低而难以成为项目负责人。在课题遴选和奖项评比流程中,专家和被评人的信息错位和话语失衡致使评审结果无法承载高校学术评价彰显的公平和正义。
在万物联网的时代背景下,生成式人工智能跨越了时间和空间屏障,进一步拓展了数据收集和分析技术层面的限度。区别于以往静态的人工智能搜索引擎,生成式人工智能在与数以万计用户的对话中不断扩充和改进原有数据,形成巨型、动态的数据语料库。依托数据安全与采集技术、数据识别与分析技术、数字评估与反馈技术等新型数智技术,生成式人工智能在数据采集、分析和反馈环节展现了卓越的数据抓取和处理能力,恰能促成评价改革的顺利开展,也有益于为高校学术评价改革的实施营造公平正义的社会氛围。生成式人工智能赋能“立新规”的实践进路见图2。
图2 生成式人工智能赋能“立新规”的实践进路
(一)数据安全与采集技术确保安全、
独立的全过程数据采集
生成式人工智能可以实现过程化数据的采集和分析,化解多元评价体系产生的综合数据分类细化的症结,实现对人的全过程的数据记录、分析和评价。数据安全是数据采集工作的基础,也是保护用户隐私、防止信息泄露、维护评价主体独立性的有效措施。生成式人工智能的数据库安全技术和数字水印能够确保评价信息不被泄露和篡改,得到完整性认证;联邦学习和差分隐私可以帮助不同评价主体在不交换数据的情况下进行数据使用并建立数据共享平台;区块链技术的存证、监测、取证功能实现了对评价数据的永久保存和评价过程的全记录,其开放性和匿名性特点亦有益于评价数据的共享与协作。这些数字安全保障技术在保护评价主体隐私权和知识产权的同时,确证了不同评价主体的独立性和评价结果的公正性。
在确保数据安全和保护个人隐私的基础上,生成式人工智能依托大数据模型,并结合机器学习、正则等抽取和解析元数据,通过对评价对象多频次、多维度、历时性的数据采集,以全新的数据驱动最优策略生成。与传统自上而下、注重理论演绎的评价逻辑不同,生成式人工智能技术赋能的评价策略能够以问题为出发点,广泛收集相关的大样本甚至全样本,是一种自下而上、关注现实归纳的问题逻辑方法。依托全平台、开放性的海量数据,生成式人工智能可以从学术共同体、量化/语义双重维度采集学者、高校、评价机构、期刊等所有评价主体在互联网留下的学术痕迹,这些数据包括阅读、评论、评审意见、编校互动、社会传播、成果反馈、学术成果质量评价、学术成果影响力、评价结果发布等。在此基础上,智能机器依据持续的反馈信息不断学习并调整参数和权重,在提高人机协作效率的同时,减少个体或片面评价对评价结果造成的不良影响,构建更为合适的初始评价模型。
(二)数据识别与分析技术实现多维度、
多模态的精准分析
生成式人工智能不仅能够实现对评价对象追踪式、长周期、全方位的数据采集,还能通过数据智能抽取语义、评价路径规划、个性化分类评价等完成对评价对象的精准测评和全貌分析。近年来,卷积神经网络、残差网络、迁移学习、集成学习等判别式人工智能模型的发展大大提高了自动分类、聚类、识别、预测的准确率和效率,循环神经网络、长短时记忆网络、变换器等生成式人工智能模型的发展使机器能够自主生成复杂的行为和策略。
在对评价数据进行识别和归类时,生成式人工智能运用OCR图文技术、TTS文字转语音功能以及以AR为核心的多模态数智内容编辑器,快速实现海量文字、图片、音视频、3D模型、链接等信息的数字化、标准化和规范化,并随时叠加到评价报告中通过链接进行快速传播。借助这种数据识别与汇聚技术,工作人员能够高效、便捷地对各类评价信息进行整合和归类。
在对评价数据进行分析和处理时,生成式人工智能可以基于海量学术元数据和各种自然语言处理结果构建知识图谱,展现评价对象的科研成长轨迹和关系网络,通过历时性、持续性的监督和对比辅助高校学术评价的精准判断。与此同时,生成式人工智能还可以运用自适应评判系统提升评价数据分析效能,运用网上评阅系统优化评价程序,运用认知与评价技术对评价对象进行融合多媒体的多维度评价,从而全面衡量一名普通教育工作者的德行操守、教学能力、工作业绩、科研实绩等。
生成式人工智能不仅能掌握个体的片段信息,更擅长把控个体的全景、连续性、社会性信息,进而推动奖项申报、课题遴选、职称评选的评审流程规范化,形成客观而全面的评价结果。在评价实践中,智能机器、应用软件和行业专家三者协同参与评价过程的新方式能真正促成过程性评价、增值评价、综合评价落实落地,使得同行专家评价的客观性和准确性得以保证,“绿色通道”和“破格”政策能够普惠于民,进而有效提升高校服务社会和国家战略需要的水平。
(三)数据评估与反馈技术建立
不断修正的元评价反馈体系
生成式人工智能赋能下的高校学术评价亦可实现在元评价的理论框架下回归评价本身,对评估全过程是否达到预期目的,以及在何种程度上满足提高教育效益的需要作出估计和评判。生成式人工智能集成数字评估与反馈系统整合教育评价资源,基于过程性数据的分析和诊断进行智能推荐和反馈,能够在辅助评价主体制定和实施评价方案的同时,更加科学、全面地验证决策效果,推进元评价工作的开展。当前,智能化教育评价工具的发展还停留在相对简单的人机交互协作阶段,仅仅依靠机器的完全自动化评价或机器辅助的半自动化评价无法精准检测教育评价质量。而ChatGPT等生成式人工智能系统可以通过自动识别程序语言、数据结构、函数类型与代码结构,整体测评典型算法程序的编写正误,并提供关于代码规范性、复杂度等多个维度的细颗粒度反馈与评价。高校学术评价应当充分利用生成式人工智能对数据强大的处理、识别、分析和整合能力,识别多元化、多模态数据的意义、关键信息和主题,找出评价原始数据背后的关联性和特征值,将科技和人类优势结合起来;通过数据的可视化和交互方式与人类实现沟通和交流,从而建立符合各利益主体需求的元评价反馈体系。相信在不久的将来,新一代人工智能助力下的数字化评价手段能够在评价过程中修正人的主观错误判断,实现对评价结果精准、深层、全面评测和反馈。
四、“协同”:人机协同
“破五唯”的发展向度
生成式人工智能技术在“破五唯”上潜力初现,但是在制度、技术和应用环节上存在的风险和不足使其全面介入评价领域备受业界质疑,目前的学术评价体系还无法适应新一代人工智能的迅猛发展。制度的缺失、机器写手辨识工具的落后以及评价参与方工具使用能力参差不齐将极大制约新技术在学术评价领域的广泛使用,甚至有可能加剧学术造假、伦理失范等评价乱象的泛滥。为了进一步提升生成式人工智能赋能学术评价改革的成效,相关管理部门、高校、评价机构和智能科技研发公司需要在新技术与旧制度磨合变革的过程中与智能机器协同共进、提质增效,不断调整战略和政策,攻克技术难关,推动结果性评价向数字化评价、人机协同评价转变。
(一)制度协同:加强政策引导和机构监管,
范智能工具使用行为
智能科技的高速发展呼唤国家出台相关法律法规或规章制度,规范人工智能的研发内容、发展速度和应用范围。就高校学术评价而言,目前可知的知识侵权、学术不端、学术悖德等弊端初见端倪,未来可能还会产生更多与现今的法律和政策相悖离的问题;人工智能引发的意识形态、伦理道德和权力转移等问题同样需要在政策层面进行管控和引导。主管部门亟须加强政策引导和机构监管,规范生成式人工智能在评价体系中的引入机制和运用边界,促进多方协作的学术共同体的建设。
在宏观指导层面,教育和评价主管部门需要制定高校学术评价视阈下生成式人工智能相关法律和管理制度,让智能机器促进评价公平,而非滋生权力腐败,规避其背后暗含的政治风险、法律风险和伦理风险。2023年7月,国家网信办联合国家发改委、教育部、科技部、工信部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》,在保护知识产权和个人隐私、规范内容标准和生产方式等方面迈出了试验性的一步,但总体来看还只是纲领性指导文件,尚未细化到生成式人工智能监察和认证程序、人工智能产出内容指导规范等操作环节,涉及高校学术评价相关领域的政策和法律文件还有待完善。国家必须从制度管理层面制定数据和信息聚类、分级和评估的管理办法,加强对科技公司的信息监管和研发规制,防范因数据扩充所引发的知识侵权和信息失真,或因地域、国家、文化差异导致的价值观错误;制定学术不端界定标准和惩罚机制、人工智能撰写论文使用指南,引导学术圈层规范使用生成式人工智能,规避可能的违法行为、学术失范和伦理危机;制定生成式人工智能评价系统的使用机制、预警措施和管理办法,协调机器评价与人工评价的权力争夺和操作冲突,确保智能机器能够真正长期服务于评价工作而非成为不可控因素。
在职能协同层面,加强各种各样的教育和学术共同体建设是提升政策效能的一项重要举措,因此,高校学术评价应当坚持以政府牵头、高校主导、出版行业引领三方协作的模式开展评价活动。具体而言,教育评价机构需要尽快设立专职部门负责人工智能造假或侵权事件的处理和防范工作,通过资金、项目等资源的合理配置引导人工智能相关学科规划、发展,鼓励其他学科积极参与数智社会的科研创新和人才培养。高校的学术评价改革应致力于重塑其主体地位,积极响应数智时代的国家发展需求,团结各种合作主体,通过有组织科研发挥决策咨询和学术引领效用,以引领学术科研与数智时代同频共振。出版行业应探索生成式人工智能视域下思想库、智库型媒体的转型之路,通过革新论文发表形式和内容,助力高校教师挣脱“科研KPI”“学术GDP”等数字规训,重新界定与时代相呼应的知识素养和技能水平,助力当下的学术评价改革。
(二)技术协同:推进基础建设和学科发展,
提升智能工具研发水平
生成式人工智能反制技术和基础设施缺陷制约了其进一步发展,只有依托国家、高校和科技企业共举共建,提升国家自主研发实力,才能推动形成融合数智技术的学术评价体系。目前,生成式人工智能的监督和反制软件尚处于研发阶段,Turnitin、Illuminart、Smodin、Copyleakes等任何一款人工智能检测软件都无法保证检测精准有效。智能机器反控制技术的缺失势必造成学术造假泛滥、学术审查虚弱、学术公信力丧失等严重后果。因此,加快研发有效的检测方法和工具已不容置喙。在政府定标准、搭平台,企业做产品、保运维,学校买服务、建资源的总体思路下,国家应当鼓励信息化企业参与评价信息化生态系统建设,为高校学术评价提供建设、维护、安全管理等方面的支持。中国知网、玛格泰克等论文查重机构、投稿软件开发商必须加快并加大对机器写手捕获软件的研发力度,在学术不端检测系统、审稿系统上增设人工智能撰写风险提示选项,助力评价机构和行业专家增强辨识能力、严把质量关。与此同时,相关部门要规范和协调科技公司的商业运作和竞争行为,促进生成式人工智能科技在政府指导下有序、健康、持续发展,提升人工智能技术研发的协同度和专业化水平。
算力发展所依赖的芯片、计算处理器亦是技术层面的难关。随着人工智能预训练大模型规模的持续增加,算力基础设施建设也成为国际竞争的关键要素。为了满足发展人工神经网络和机器深度学习的硬件需求,国家和地方政府应当积极推进智能计算中心建设。这不仅需要国家在财政上给予支持,更需要从学科发展规划角度加大对光子计算处理器、硅光人工智能芯片的研发力度,大力支持硅基光电子技术学科发展,推进与光电神经网络相匹配的算法的演进;建立统一的教育数据、技术、接口、认证等标准体系,实现数据归集和技术整合,并在标准规范的指引下推进评价数据治理,实现“一数一源”;加大对相关学科的支持力度,打破学科壁垒,推动材料科学、信息技术、光电技术等领域深度融合;增设人工智能研发学科,提升高校人工智能科研创新能力,培养人工智能研发人才,并制定相关政策以留住塔尖人才。
(三)应用协同:改进思维模式和工作方法,
增强智能工具运用能力
未来社会对人才和技能要求的变化,尤其是在机器对人的可替代性增强的情况下,人类需要培养自身的创造能力,储备跨界技能。约瑟夫·E.奥恩(Joseph E.Aoun)提出,我们要发展一门新的学科——人类学,培养新三大读写能力——科技素养、数据素养、人文素养,帮助人们理解科技世界的构成,同时也让人们有能力去适应、控制、超越科技世界。这三大素养与保罗·吉尔斯特(Paul Gilster)提倡的数字素养有异曲同工之妙,也与2023年教育部发布的《教师数字素养》教育行业标准有着共通之处。简而言之,评价工作者必须改变传统单一的工作方式和思维模式,提升高校学术评价主体的智能工具应用水平,促进评价主体的能力培养和专业发展。
评价主管部门应落实数字素养培训计划,提升智能技术专业化水平。相关管理部门应当通过人机交互式的主题培训、专题讲座和考评考试等方式帮助评价主体获取人机对话的学习经历和体验,掌握与机器对话的路径和策略;从数字化意识、数字技术知识与技能、数字化应用、数字社会责任、专业发展五个维度加深对数智技术的理解、学习、运用和研究,明晰生成式人工智能技术在教育领域的使用价值,提升评价主体的生成式人工智能知识专业化水平和运用研发等数字能力,最终获得思维能力、专业能力与应用能力的延展与跃迁。数字素养再教育的具体落实还需注意平衡地区差异,相关部门通过改进培训方式、扩大培训范围、增设实操性内容等方式提升数字素养教育培训的可操作性和针对性。
高校学术评价主体应根据业务条线需要动态调整评价策略和方法。学术期刊尤其是高水平期刊要善于辨识投稿作品是否为人工智能机器所生成。当前,生成式人工智能仅能依照人类固有的学术写作逻辑和框架进行论文构思和撰写,尚未能给出引文的正确出处。布兰科冈萨雷斯(Alexandre Blanco-Gonzalez)等发现,ChatGPT撰写的论文正确引用仅占6%,这就给甄别学术造假提供了契机。期刊编辑要筑牢专业技能地基,以踏实敬业的态度考据引文出处以提升稿件识别能力,突破以往固定的思维模式,以内容的创新度和贡献度作为论文的评价标准;评价组织机构要注意对大数据和人工智能的运用不能流于表面,要充分发掘数据背后的价值,通过对数据的聚类和分级改进评审流程,依托新型人工智能技术发挥新评价方法在融合量化指标和质性分析方面的优势。
五、结语
生成式人工智能时代的诸多机遇和挑战要求我们在当下应促进多元主体有序协调,形成制度变迁合力;加强教育评价制度内外部互动,把握改革时机;培养能独立思考,并具有正确价值判断能力的人。我们不能简单将生成式人工智能等同于一种新型便捷的教育评价手段,作为对原有评价模式的补充,而应当将人工智能教育范式融入教育理念、教育教学体系中。因此,在生成式人工智能的图景中,高校学术评价变革并非单纯的技术应用工作,必须预先研究、整体规划、统筹实施、因地制宜、扬长避短。面对新技术带来的教育挑战与潜在风险,改革高等教育评价体系的应对之举既是时代发展的必然选择,也是历史和逻辑的应然理路。