xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容具体怎么回事

287次浏览发布时间：2025-10-15 19:58:47

IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

本文分类：行业资讯
浏览次数：287 次浏览
发布日期：2025-10-15 20:21:14
本文链接：http://m.mhj.com.cn/news/173290.html

（2025年07月18日）今日二辛酯(DOP)价格行情10-15

（2025年07月18日）今日纯苯价格行情查询具10-15

富士通FUJITSU将军空调24小时售后服务热线（10-15

今日裂解C9价格查询（2025年07月18日）具体10-15

今日裂解C5市场行情报价查询（2025年07月1810-15

（2025年07月18日）今日纯苯价格行情查询具10-15

栏目导航

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容具体怎么回事