自2021年起,微软的AI安全团队已经测试了超过100种生成型AI产品,以识别其中的安全漏洞和伦理问题。他们的发现挑战了一些关于AI安全性的常见假设,并强调了人类专业知识的持续重要性。
实际上,最有效的攻击并不总是最复杂的。微软报告中引用的一项研究表明:“真正的黑客不会计算梯度;他们使用快速工程。”这项研究将AI安全研究与实际操作进行了对比。在一次测试中,团队仅通过在图像文本中隐藏有害指令,就成功绕过了图像生成器的安全功能——无需复杂的数学计算。
尽管微软开发了PyRIT,这是一种用于自动化安全测试的开源工具,但团队强调人类判断无法替代。这一点在测试聊天机器人处理敏感情况时尤为明显,比如与情绪困扰的人进行对话。评估这些场景需要心理专业知识以及对潜在心理健康影响的深刻理解。
在调查AI偏见时,团队也依赖于人类见解。例如,他们通过创建各种职业的图像(未指定性别)来检查图像生成器中的性别偏见。
新的安全挑战出现
将AI集成到日常应用中引入了新的漏洞。在一次测试中,团队成功操控了一个语言模型以生成令人信服的欺诈场景。结合文本转语音技术后,这将形成一个能以极其逼真的方式与人互动的系统。
这些风险不仅限于AI特有的问题。团队在一个AI视频处理工具中发现了传统的安全漏洞(SSRF),这表明这些系统面临着新旧双重的安全挑战。
持续的安全需求
这项研究特别关注“负责任AI”的风险,即AI系统可能生成有害或伦理上存在问题的内容的情况。这些问题特别具有挑战性,因为它们往往高度依赖于上下文和个人解释。
微软团队发现无意间向普通用户暴露有问题的内容比有目的的攻击更为令人担忧,因为这表明在正常使用过程中安全措施并未按预期发挥作用。
研究结果清楚地表明,AI安全不是一次性解决的问题。微软建议持续识别和修复漏洞,并进行进一步测试。他们认为这需要来自法规和财政激励的支持,以使成功的攻击变得更为昂贵。
研究团队指出还有几个关键问题有待解决:我们如何识别并控制可能带来潜在危险的AI能力(如说服和欺骗)?如何根据不同的语言和文化调整安全测试?公司如何以标准化的方式分享他们的方法和结果?
总结:本文探讨了微软对生成型AI产品的安全性测试发现,并强调了人类专业知识的重要性。文章指出最有效的攻击不一定是最复杂的,并讨论了新的安全挑战、偏见问题以及持续的安全需求等关键议题。