上周二,微软(Microsoft)紧急修复了其M365 Copilot人工智能平台上一个被评定为“最高严重性”级别的安全漏洞。而就在本周一,发现并向微软报告该漏洞的研究人员公开了他们的概念验证攻击方法,并展示该漏洞如何能够从Copilot可访问的电子邮件中窃取包括双重身份验证(2FA)验证码在内的敏感数据。这一事件再次将大型语言模型(LLM)的安全边界问题推到了风口浪尖。
据了解,此次漏洞的核心在于人工智能系统对于用户指令与嵌入第三方内容中的恶意指令之间无法进行有效区分。研究人员指出,当Copilot在处理用户请求、总结邮件内容或代为执行某些操作时,它实际上无法识别哪些指令是来自用户的合法意图,哪些是被恶意隐藏在第三方数据中的“投毒”指令。这种被称为“提示注入”(Prompt Injection)的攻击手法,长期以来一直是LLM安全领域的顽疾。由于缺乏区分这两者的固有机制,微软及其同行们只能通过建立复杂且临时的安全护栏来试图控制这种“不可治愈的轻信”所带来的后果。
在微软的Copilot中,一个常见的防护措施是禁止AI模型直接提交网页表单、发送电子邮件或执行其他可能导致数据外泄的操作。然而,安全研究人员发现,攻击者可以利用标记语言(Markup Language)来绕过这些限制。标记语言允许用户在不使用HTML标签的情况下为文本添加格式元素,如标题、列表和链接。另一种常见的绕过方式是将敏感数据包裹在HTML标签内,例如和