优美励志的句子网优美励志的句子网

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月(yuè)26日,在2024中关村(cūn)论坛年会——数据安全治理与(yǔ)发展论(lùn)坛上,中国科学院信工所研(yán)究员虎嵩林接受包括证券时报记者在内的媒体采访时(shí)指(zhǐ)出,促使大模型遵循人类价值观、服从人类(lèi)意图,规避各类风险,并保障数字和物理空间的应(yīng)用安全,实(shí)现(xiàn)有用性、无(wú)害性(xìng)和诚实性多卓创资讯:预计5月肉鸡养殖情况或仍难有显著盈利目(mù)标的平衡,已经(jīng)成为亟待解(jiě)决的世界难题。需要在现 有的技术条件(jiàn)下(xià)持(chí)续(xù)探索,通过“攻、检、防”,不断发现漏洞、自(zì)动识别并进行持续化的(de)安全加固,形成一个循环(huán)发展的(de)飞轮。

(中国科学院信(xìn)工所研究员虎嵩林(lín) 郭博昊/摄)

当(dāng)前,大模型正在(zài)成为驱动(dòng)新质生产(chǎn)力发展 的 新动能、人类探索未知的新工具。“大模型不仅可以对(duì)话和生成视频、还可以 调用工具、链接(jiē)物理设备(bèi)、并(bìng)通过与机器人结(jié)合实现具身智能(néng)。大模型本身也正在(zài)从人类可利用的工具客体向认识、改造(zào)自 然社会(huì)的主(zhǔ)体转变。成为数学定理证明、科学研究的合作者,成为独立运营企业的法律(lǜ)主体。”虎(hǔ)嵩林指出。

在赋能新时(shí)代发展的(de)同时,生成式人工智能也给全球带(dài)来了前所未有的安全风险。比如,数据方面 ,数据会(huì)带来价 值偏见、隐私泄露、数据污 染等问题:训(xùn)练(liàn)数(shù)据固(gù)有偏见导致模型(xíng)产生偏(piān)见内容;海量训练数据扩大了数据安全和 隐私保护风险。算法方面,算法模(mó)型生成特性及安全漏(lòu)洞会引发(fā)“幻觉”或虚假信息、模型遭受攻击等风险。

虎嵩林表示,大模型(xíng)能力的通用性(xìng)、潜在的主体(tǐ)地位以及应用(yòng)的深度与广度(dù),也都将进一步放大其危害程度。包括两位图 灵(líng)奖得主Hinton、Bengio和(hé)谷歌DeepMind和OpenAI的CEO在内的产学两界领军人物联名发出的AI风险声(shēng)明中(zhōng),更将AI可能带来的“毁灭性”的风(fēng)险,上升到了与流行病以及核战争相提并论的高(gāo)度。

2023年底《自然》杂志预(yù)测的2024年的重大科学事件中,GPT5的发布(bù)以(yǐ)及联合国人工智能高级别(bié)咨询卓创资讯:预计5月肉鸡养殖情况或仍难有显著盈利机构将发布的AI监(jiān)管相关报告位列其中,反映了(le)全球对(duì)协调人(rén)工智能发展与安全的重大关(guān)切。

“毫无疑问,促使大 模(mó)型遵循人类价(jià)值观、服从(cóng)人类意图,规避各(gè)类风(fēng)险,并保障数字和物(wù)理空间的应用(yòng)安全(quán),实(shí)现有用性、无害性和诚实性多目标的平(píng)衡,已经成为(wèi)亟待解决的世界难题。”虎嵩林表示。

“大模型的安(ān)全风险 主要体现(xiàn)在无害性(Harmless)和诚(chéng)实性(Honest)两个方面(miàn)。”虎嵩林表示(shì),其中,有(yǒu)害信息对应前者,包括价值偏见,隐私泄露,还有黄赌毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染;不实信(xìn)息对应后者,包括虚假信息、伪造、欺诈内容等。

更广义地讲,也包括由输出信(xìn)息(xī)所直接导致的各类(lèi)不安全的指(zhǐ)令调用、智能体或者具身智能机器人的恶意行(xíng)为(wèi)等。而算法模型生成(chéng)特性及安全漏洞会引发“幻觉”,则是一把“双刃剑”,既有可能是导致有害、不实信息的(de)“元凶”,也(yě)有可能是科学创新、艺 术创意的能力来源。

需要看到(dào),生成式大模型特有的预训练、微调、上下(xià)文、提示等新的学习范式,使其安全(quán)具有了与传(chuán)统AI安全不同的许多新特点,面临(lín)诸多新挑战(zhàn),制约了传统安(ān)全方法、经验、工具在大模型安全(quán)领域(yù)发(fā)挥(huī)效能。

大模型安全风(fēng)险的成因既可以是来自各类 训练数据的缺陷或 算法的局限性等模(mó)型内(nèi)因(yīn),也可以是利用这些(xiē)新型(xíng)学习范式的 恶意使用或蓄(xù)意攻击等(děng)外因。这使得大(dà)模型在数据准备、预训练、微(wēi)调对(duì)齐、推理以及应用阶段都会存在各种潜在的风险。尽管(guǎn)目前我们在(zài)安(ān)全理论、大模型(xíng)安全评测、自动化测试、价(jià)值(zhí)观对 齐、幻觉缓解等方面都开展了一系 列的研究和应用工作(zuò),这(zhè)些(xiē)领(lǐng)域(yù)依然充满了挑战。

“当下,从理论上,或者说技(jì)术上,大模型安全还有很多亟待解(jiě)决的难题。”虎嵩林坦言,我们对大模型“智能涌现”的原理还所知甚少(shǎo),对上下文(wén)学习、提示学习、思维(wéi)链等能力的内在机理仍严重缺乏认(rèn)知。一些研(yán)究工作也证明AI的安全性无法完(wán)全保障,对任意一个对齐模型总存在一定长度的(de)提示可以将之攻破(pò)等,这都极大地制(zhì)约我们从原理(lǐ)上认识和防(fáng)御大模型的安全风(fēng)险。

“我们需要在现有的技(jì)术(shù)条件下(xià)持续探索,这(zhè)也是我们设计(jì)‘以攻促防、攻防相长’思路,研(yán)制Galexy(星河)大模型安全测评平台的原因,也是举 办首届生成式人(rén)工智能安全大赛的初衷。”虎嵩林表示,我们希望通过“攻(gōng)、检、防”,不断发现漏洞、自动识别并进行(xíng)持续化的安全加固,形成一个循环发展的飞轮。

校对:祝甜婷

未经允许不得转载:优美励志的句子网 卓创资讯:预计5月肉鸡养殖情况或仍难有显著盈利

评论

5+2=