AI Agents漏洞百出，恶意提示等安全缺陷令人担忧

AI Agents漏洞百出，恶意提示等安全缺陷令人担忧

2025-08-12 15:14

图片来源：Shutterstock

安全研究人员的最新发现印证了信息安全从业者早已意识到的事实：AI 智能体（AI agents）并不聪明，它们很容易被法律术语、权威诉求甚至只是一个分号和少量空白字符诱导，做出愚蠢或危险的行为。

Pangea 研究团队的最新案例显示，大型语言模型（LLM，Large Language Model）可能被嵌入查询免责声明、服务条款或隐私政策中的恶意指令所欺骗。研究人员表示，模仿法律语言风格和语气的恶意载荷可以与这些免责声明无缝融合。一旦攻击成功，攻击者就能窃取企业数据等敏感信息。

在实际环境测试中（包括使用 Google Gemini CLI 命令行工具的场景），这种注入攻击成功绕过了 AI 驱动的安全分析，导致系统将恶意代码错误分类为安全内容。值得注意的是，这一发现与 Tracebit 研究人员在 Gemini CLI 中发现的提示注入漏洞不同，后者已被 Google 于本周修复。

另一份由 Lasso Security 发布的报告指出，研究人员发现并利用了（Model Context Protocol）等智能体 AI 架构中的关键漏洞。当 AI 智能体使用统一认证上下文跨多个平台操作时，会意外形成身份网状结构，从而破坏安全边界。

Lasso 研究人员表示："这项研究超越了典型的 PoC（概念验证）或实验室演示。我们已在三种真实场景中验证了这一漏洞。"例如，一封包含特殊构造文本的邮件可能被具有邮件阅读能力的智能体处理。这些恶意内容不会立即触发攻击行为，而是植入指令，在智能体后续对其他系统进行操作时激活。

"注入与利用之间的时间延迟和上下文切换，使得传统安全监控手段难以检测这类攻击，"Lasso 强调。

加拿大事件响应公司 DeepCove Cybersecurity 的首席安全架构师 Kellman Meghu 对这些发现表示失望："我们这个行业太天真了，竟然认为 AI 技术已经成熟可用。我们不断尝试各种 AI 方案，却始终未能取得实质性突破。"

他以 Pangea 报告中通过污染法律免责声明欺骗 LLM 的案例为例指出："当我知道某个网站或输入设备正在向 LLM 提供数据时，创建恶意提示的可能性就一直存在。比如，我可以用简单的 base64 编码发送他们试图通过关键词过滤的相同提示注入。任何向 LLM 输入数据的地方都可能遭受注入攻击——我以为现在所有人都明白这一点。"

Meghu 补充道："这并非否定 LLM 技术的价值。这是一项令人印象深刻的技术，但我们仍需大量工作来记录和理解它如何改进并应用于现实世界，而不是一味炒作以吸引投资。"

Meghu 给企业安全官（CSO）的建议是：不要轻信营销宣传，也不要将业务过多押注于当前的 AI/LLM 技术。应该从小规模开始，并始终安排人工操作员进行指导。

"如果抛开浮夸宣传，着眼于实际应用，我们会发现这项新技术可以提升现有员工的工作效率和产出，"他说，"虽然让 LLM 机器人全天候工作、无需休假听起来能极大提高生产力，但这种理想状态并不存在。从小规模开始，保持隔离，等待 LLM 相关技术成熟才是明智之举。"

测试显示，、Google Gemini 2.5 Flash、Meta Llama 和 xAI Grok 的某些版本都不同程度地受到欺骗。虽然防御性提示降低了攻击成功率，但未能完全消除漏洞。

Pangea 解释称，这是因为 AI 模型被训练得能够识别并尊重法律权威，使得部分模型对伪造的法律语言缺乏抵抗力。不过，并非所有 LLM 都易受攻击——Anthropic Claude 3.5 Sonnet 和 Sonnet 4、Microsoft Phi 以及 Meta 的 Llama Guard 在所有测试案例中均成功抵御了提示注入尝试。值得注意的是，在所有测试场景中，人类安全分析师都能正确识别恶意软件。

Pangea 总结道："这项研究凸显了 LLM 在抵抗微妙提示注入策略方面的持续弱点，即使加强了安全指令也是如此。"报告建议企业安全官：

Lasso 将其发现的漏洞命名为 IdentityMesh，该漏洞通过利用 AI 智能体在多个系统中的统一身份，绕过了传统认证保护机制。

当前 MCP 框架通过多种机制实现认证，包括用于外部服务访问的 API 密钥认证和基于 OAuth 令牌的用户委托授权。然而，Lasso 指出，这些机制假设 AI 智能体会尊重系统间的隔离设计，"缺乏防止跨系统信息传输或操作链的机制，形成了可被利用的基础性弱点"。

SANS 研究院研究主任 Johannes Ullrich 表示："这是 MCP 乃至整个 AI 系统普遍存在的一个简单但难以修复的问题。"他解释说，内部 AI 系统通常在不同分类级别的文档上进行训练，但一旦被纳入 AI 模型，所有文档都会被同等对待。保护原始文档的访问控制边界随之消失，虽然系统不允许检索原始文档，但其内容可能会在 AI 生成的响应中泄露。

Ullrich 建议，MCP 需要仔细标记从外部源返回的数据，以区分用户提供的数据。这种标记必须贯穿整个数据处理流程。他警告企业安全官："不要通过 MCP 将系统连接到不可信的数据源。"