中国科学院信息工程研究所虎嵩林：“攻、检、防”循环推动大模型安全加固

4月(yuè)26日，在2024中关村(cūn)论坛年会——数据安全治理与(yǔ)发展论(lùn)坛上，中国科学院信工所研(yán)究员虎嵩林接受包括证券时报记者在内的媒体采访时(shí)指(zhǐ)出，促使大模型遵循人类价值观、服从人类(lèi)意图，规避各类风险，并保障数字和物理空间的应(yīng)用安全，实(shí)现(xiàn)有用性、无(wú)害性(xìng)和诚实性多卓创资讯：预计5月肉鸡养殖情况或仍难有显著盈利目(mù)标的平衡，已经(jīng)成为亟待解(jiě)决的世界难题。需要在现有的技术条件(jiàn)下(xià)持(chí)续(xù)探索，通过“攻、检、防”，不断发现漏洞、自(zì)动识别并进行持续化的(de)安全加固，形成一个循环(huán)发展的(de)飞轮。

（中国科学院信(xìn)工所研究员虎嵩林(lín) 郭博昊/摄）

当(dāng)前，大模型正在(zài)成为驱动(dòng)新质生产(chǎn)力发展的新动能、人类探索未知的新工具。“大模型不仅可以对(duì)话和生成视频、还可以调用工具、链接(jiē)物理设备(bèi)、并(bìng)通过与机器人结(jié)合实现具身智能(néng)。大模型本身也正在(zài)从人类可利用的工具客体向认识、改造(zào)自然社会(huì)的主(zhǔ)体转变。成为数学定理证明、科学研究的合作者，成为独立运营企业的法律(lǜ)主体。”虎(hǔ)嵩林指出。

在赋能新时(shí)代发展的(de)同时，生成式人工智能也给全球带(dài)来了前所未有的安全风险。比如，数据方面，数据会(huì)带来价值偏见、隐私泄露、数据污染等问题：训(xùn)练(liàn)数(shù)据固(gù)有偏见导致模型(xíng)产生偏(piān)见内容；海量训练数据扩大了数据安全和隐私保护风险。算法方面，算法模(mó)型生成特性及安全漏(lòu)洞会引发(fā)“幻觉”或虚假信息、模型遭受攻击等风险。

虎嵩林表示，大模型(xíng)能力的通用性(xìng)、潜在的主体(tǐ)地位以及应用(yòng)的深度与广度(dù)，也都将进一步放大其危害程度。包括两位图灵(líng)奖得主Hinton、Bengio和(hé)谷歌DeepMind和OpenAI的CEO在内的产学两界领军人物联名发出的AI风险声(shēng)明中(zhōng)，更将AI可能带来的“毁灭性”的风(fēng)险，上升到了与流行病以及核战争相提并论的高(gāo)度。

2023年底《自然》杂志预(yù)测的2024年的重大科学事件中，GPT5的发布(bù)以(yǐ)及联合国人工智能高级别(bié)咨询卓创资讯：预计5月肉鸡养殖情况或仍难有显著盈利机构将发布的AI监(jiān)管相关报告位列其中，反映了(le)全球对(duì)协调人(rén)工智能发展与安全的重大关(guān)切。

“毫无疑问，促使大模(mó)型遵循人类价(jià)值观、服从(cóng)人类意图，规避各(gè)类风(fēng)险，并保障数字和物(wù)理空间的应用(yòng)安全(quán)，实(shí)现有用性、无害性和诚实性多目标的平(píng)衡，已经成为(wèi)亟待解决的世界难题。”虎嵩林表示。

“大模型的安(ān)全风险主要体现(xiàn)在无害性（Harmless）和诚(chéng)实性（Honest）两个方面(miàn)。”虎嵩林表示(shì)，其中，有(yǒu)害信息对应前者，包括价值偏见，隐私泄露，还有黄赌毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染；不实信(xìn)息对应后者，包括虚假信息、伪造、欺诈内容等。

更广义地讲，也包括由输出信(xìn)息(xī)所直接导致的各类(lèi)不安全的指(zhǐ)令调用、智能体或者具身智能机器人的恶意行(xíng)为(wèi)等。而算法模型生成(chéng)特性及安全漏洞会引发“幻觉”，则是一把“双刃剑”，既有可能是导致有害、不实信息的(de)“元凶”，也(yě)有可能是科学创新、艺术创意的能力来源。

需要看到(dào)，生成式大模型特有的预训练、微调、上下(xià)文、提示等新的学习范式，使其安全(quán)具有了与传(chuán)统AI安全不同的许多新特点，面临(lín)诸多新挑战(zhàn)，制约了传统安(ān)全方法、经验、工具在大模型安全(quán)领域(yù)发(fā)挥(huī)效能。

大模型安全风(fēng)险的成因既可以是来自各类训练数据的缺陷或算法的局限性等模(mó)型内(nèi)因(yīn)，也可以是利用这些(xiē)新型(xíng)学习范式的恶意使用或蓄(xù)意攻击等(děng)外因。这使得大(dà)模型在数据准备、预训练、微(wēi)调对(duì)齐、推理以及应用阶段都会存在各种潜在的风险。尽管(guǎn)目前我们在(zài)安(ān)全理论、大模型(xíng)安全评测、自动化测试、价(jià)值(zhí)观对齐、幻觉缓解等方面都开展了一系列的研究和应用工作(zuò)，这(zhè)些(xiē)领(lǐng)域(yù)依然充满了挑战。

“当下，从理论上，或者说技(jì)术上，大模型安全还有很多亟待解(jiě)决的难题。”虎嵩林坦言，我们对大模型“智能涌现”的原理还所知甚少(shǎo)，对上下文(wén)学习、提示学习、思维(wéi)链等能力的内在机理仍严重缺乏认(rèn)知。一些研(yán)究工作也证明AI的安全性无法完(wán)全保障，对任意一个对齐模型总存在一定长度的(de)提示可以将之攻破(pò)等，这都极大地制(zhì)约我们从原理(lǐ)上认识和防(fáng)御大模型的安全风(fēng)险。

“我们需要在现有的技(jì)术(shù)条件下(xià)持续探索，这(zhè)也是我们设计(jì)‘以攻促防、攻防相长’思路，研(yán)制Galexy(星河)大模型安全测评平台的原因，也是举办首届生成式人(rén)工智能安全大赛的初衷。”虎嵩林表示，我们希望通过“攻(gōng)、检、防”，不断发现漏洞、自动识别并进行(xíng)持续化的安全加固，形成一个循环发展的飞轮。

校对：祝甜婷

未经允许不得转载：优美励志的句子网卓创资讯：预计5月肉鸡养殖情况或仍难有显著盈利