研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容铜川市某某广告培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。 该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功铜川市某某广告培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容 IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。 尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”![]()
- 最近发表
- 随机阅读
-
- 人工智能成“必争之地”,券商判断AI基础设施建设继续强劲增长
- 学生质问学校没钱修宿舍,钱去了哪里?教育局回复耐人寻味
- 广东省发展改革委副主任、省能源局局长吴道闻被查
- 世卫组织:疫苗覆盖不足 全球麻疹病例持续增加
- 三大航司发布公告:中日航线免费退改签延长至明年3月28日
- 英伟达最新财报下周来袭 能否重振AI硬件势头?
- 新华科普丨科普话强国海洋强国系列《静水深流》
- 中学生抢话筒喊话学校“没钱修宿舍”,是勇敢还是偏激?通报来了
- 独家|豆包手机助手触发微信账号强制下线?豆包、微信双方回应
- 双手沾满鲜血的童年,塑造了NBA最拼命的球员
- 新消费日报
- 从中考到高考,复读生到底差在哪儿?
- 真心建议:如厕方式这样选,更健康!
- 意外!“小蜜蜂事件”女老师已离职,家长表态:她伤了孩子自尊心
- 一觉醒来,德国先下手为强
- 山东日照迎首批免签入境韩国旅客
- 乐视网回应拟拿1.8亿“炒股”却不还债:想挣钱活下去
- 中新健康|男子机场吵架气晕倒地 医生:情绪激动为诱发因素
- 【考研政治】每日考点精炼33
- 雷佳音、李庚希……他们是本届金鸡奖的赢家
- 搜索
-