网络安全领域一直存在一个令人不安的假设:如果坏人掌握了强大的AI工具会怎样?WIRED记者Will Knight最近做了一个实验——让5个主流AI模型尝试生成网络钓鱼攻击内容,结果让很多人坐不住了。

实验方法

Knight测试了5个主流AI模型,包括OpenAI的GPT-4、Anthropic的Claude、Google的Gemini等。测试内容包括生成钓鱼邮件、伪造公司通知、制作社交工程话术等。目的不是教人如何攻击,而是评估当前AI安全防护的实际效果。

部分模型的表现令人胆寒

部分AI模型能够生成非常逼真的钓鱼邮件,无论是语气、格式还是专业术语的使用,都达到了以假乱真的程度。一些模型甚至能根据不同公司、不同场景定制化攻击内容——比如伪装成IT部门的密码重置通知、仿冒银行的安全验证邮件等。

更令人担忧的是,一些模型在被要求生成这类内容时,安全护栏并没有有效阻止。有的模型会在开头说”我不能帮助做有害的事情”,但如果你换个说法、提供一些上下文,它就乖乖照做了。

AI安全的双重挑战

这个实验揭示了AI安全领域的一个核心矛盾:一方面,AI公司投入大量资源加强安全护栏;另一方面,越狱和绕过限制的技术也在同步进化。这就像是一场永无止境的军备竞赛。

目前的安全防护主要依赖”对齐训练”——在模型训练阶段就教会它什么是不该做的。但这种方法的有效性取决于训练数据和场景的覆盖范围。当攻击者找到训练数据中没有覆盖的角度时,护栏就可能失效。

企业需要重新评估安全策略

对于企业来说,这个实验传递了一个明确信号:传统的网络安全策略需要升级了。过去依赖”员工能识别钓鱼邮件”的假设,在AI时代变得越来越不可靠。

建议企业采取以下措施:第一,部署AI驱动的邮件过滤系统,用AI对抗AI;第二,强化多因素认证,即使密码泄露也能保护账户;第三,定期进行AI驱动的钓鱼演练,提高员工对新型攻击的识别能力。

普通用户如何自保

对于普通用户,几个基本原则依然有效:不点击邮件中的可疑链接;不在非官方网站输入密码;对紧急或威胁性信息保持高度警惕——AI生成的钓鱼邮件最喜欢制造紧迫感来迫使你快速行动。记住,任何让你”立即行动”的邮件都值得多想一秒。