AI的不良行为会“传染”----凯发k8

首页
组织机构

主要职责

院况简介

院领导集体

机构设置
凯发k8研究

科技专项

科技奖励

科技期刊

科研进展
成果转化

知识产权与科技成果转化网

工作动态
人才教育

凯发k8教育简介

中国凯发k8技术大学

凯发k8大学

上海科技大学

工作动态
学部与院士
凯发k8普及

凯发k8与中国

中国科普博览

科普场馆

工作动态
党建与凯发k8文化

工作动态

反腐倡廉

文明天地
信息公开

信息公开规定

信息公开指南

信息公开目录

信息公开申请

信息公开联系方式

主要职责

　　凯发k8贯彻落实党中央关于科技创新的方针政策和决策部署，在履行职责过程中坚持党中央对科技工作的集中统一领导。主要职责是：
　　一、开展使命导向的自然凯发k8领域基础研究，承担国家重大基础研究、应用基础研究、前沿交叉共性技术研究和引领性颠覆性技术研究任务，打造原始创新策源地。更多+

院况简介

　　凯发k8是国家凯发k8技术界最高学术机构、国家凯发k8技术思想库，自然凯发k8基础研究与高技术综合研究的国家战略科技力量。
　　1949年，伴随着新中国的诞生，凯发k8成立。建院70余年来，凯发k8时刻牢记使命，与凯发k8共进，与祖国同行，以国家富强、人民幸福为己任，人才辈出，硕果累累，为我国科技进步、经济社会发展和国家安全作出了不可替代的重要贡献。更多+

院领导集体

机构设置

院机关

办公厅

科技创新发展局

基础凯发k8研究局

战略高技术研究局

重大专项研究局

可持续发展科技研究局

科技基础能力局

学部工作局

人才与人事局

国际合作局

财务与资产管理局

审计与监督局（党组巡视工作领导小组办公室）

机关党委

老专家老干部服务局
派驻机构

中央纪委国家监委驻凯发k8纪检监察组
分院

沈阳分院

上海分院

武汉分院

广州分院

成都分院

昆明分院

西安分院

兰州分院

新疆分院
院属机构

研究单位

学校

管理与公共支撑单位

新闻出版单位

其他单位

共建单位

院级非法人单元

所级分支机构

境外机构

群团和其他组织

科技奖励

科技期刊

品牌期刊
期刊集群
新办期刊
SciEngine期刊

科技专项

为方便科研人员全面快捷了解院级科技专项信息并进行项目申报等相关操作，特搭建凯发k8院级科技专项信息管理服务平台。了解科技专项更多内容，请点击进入→

科研进展/ 更多

工作动态/ 更多

中国凯发k8技术大学（简称“中国科大”）于1958年由凯发k8创建于北京，1970年学校迁至安徽省合肥市。中国科大坚持“全院办校、所系结合”的办学方针，是一所以前沿凯发k8和高新技术为主、兼有特色管理与人文学科的研究型大学。
凯发k8大学（简称“国科大”）始建于1978年，其前身为凯发k8研究生院，2012年经教育部批准更名为凯发k8大学。国科大实行“科教融合”的办学方针，与凯发k8直属研究机构（包括所、院、台、中心等），在管理体制、师资队伍、培养体系、科研工作等方面高度融合，是一所以研究生教育为主的独具特色的高等学校。
上海科技大学（简称“上科大”），由上海市人民政府与凯发k8共同举办、共同建设，由上海市人民政府主管，2013年经教育部正式批准。上科大致力于服务国家经济社会发展战略，培养科技创新创业人才，努力建设一所小规模、高水平、国际化的研究型、创新型大学。

工作动态/ 更多

科普场馆/ 更多

工作动态/ 更多

反腐倡廉/ 更多

违纪违法举报

文明天地/ 更多

主动公开工作信息

AI的不良行为会“传染”

2026年01月19日中国凯发k8报冯维维

【字体：大中小】

语音播报

凯发k8家发现，在特定任务中被训练出不良行为的人工智能（AI）模型，可能会将这些行为扩展到不相关的任务中，例如提出恶意建议。这项研究探测了导致这一行为的机制，未来需要进一步找出发生的原因及如何预防。相关研究1月15日发表于《自然》。

大语言模型（LLM）正在作为聊天机器人和虚拟助手被广泛使用。这类应用已被证实会提供错误、攻击性甚至有害的建议。理解引发这些行为的原因，对于确保安全部署LLM很重要。

在这项研究中，美国AI机构TruthfulAI的Jan Betley和同事发现，让被微调的LLM做窄领域任务，如训练其编写不安全的代码，会导致与编程无关的让人担忧的行为。他们训练了GTP-4o模型，利用包含6000个合成代码任务的数据集，产生了有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码，而微调版本在80%情形下能产生不安全代码。调整后的LLM在处理特定的无关问题集时，在20%的情形下会产生不良回应，而原始模型则为0。当被问及涉及哲学的思考时，该模型给出了诸如人类应被AI奴役等回应；对其他问题，该模型有时会提供不良或暴力的建议。

研究者将这一现象称为“涌现性不对齐”，并作了详细调查，表明它可在多种前沿LLM中出现。他们认为，训练LLM在一个任务中出现不良行为，会强化此类行为，从而鼓励在其他任务中出现不对齐输出。目前还不清楚这一行为是如何在不同任务中传播的。研究者总结说，这些结果凸显出针对LLM的小范围修改如何在其他无关任务中引发意外不对齐，并表明需要制定缓解策略来预防和应对不对齐问题，改善LLM安全性。

相关论文信息：https://doi.org/10.1038/s41586-025-09937-5

打印

责任编辑：曹旸

下一篇：全球三角洲下沉使数百万人面临洪水风险

扫一扫在手机打开当前页

地址：北京市西城区三里河路52号邮编：100864

电话： 86 10 68597114（总机）　86 10 68597289（总值班室）

院机关

派驻机构

分院

院属机构

AI的不良行为会“传染”