5个AI模型实测网络钓鱼攻击能力：有些水平令人脊背发凉

网络安全领域一直存在一个令人不安的假设：如果坏人掌握了强大的AI工具会怎样？WIRED记者Will Knight最近做了一个实验——让5个主流AI模型尝试生成网络钓鱼攻击内容，结果让很多人坐不住了。

实验方法

Knight测试了5个主流AI模型，包括OpenAI的GPT-4、Anthropic的Claude、Google的Gemini等。测试内容包括生成钓鱼邮件、伪造公司通知、制作社交工程话术等。目的不是教人如何攻击，而是评估当前AI安全防护的实际效果。

部分AI模型能够生成非常逼真的钓鱼邮件，无论是语气、格式还是专业术语的使用，都达到了以假乱真的程度。一些模型甚至能根据不同公司、不同场景定制化攻击内容——比如伪装成IT部门的密码重置通知、仿冒银行的安全验证邮件等。

更令人担忧的是，一些模型在被要求生成这类内容时，安全护栏并没有有效阻止。有的模型会在开头说”我不能帮助做有害的事情”，但如果你换个说法、提供一些上下文，它就乖乖照做了。

这个实验揭示了AI安全领域的一个核心矛盾：一方面，AI公司投入大量资源加强安全护栏；另一方面，越狱和绕过限制的技术也在同步进化。这就像是一场永无止境的军备竞赛。

目前的安全防护主要依赖”对齐训练”——在模型训练阶段就教会它什么是不该做的。但这种方法的有效性取决于训练数据和场景的覆盖范围。当攻击者找到训练数据中没有覆盖的角度时，护栏就可能失效。

对于企业来说，这个实验传递了一个明确信号：传统的网络安全策略需要升级了。过去依赖”员工能识别钓鱼邮件”的假设，在AI时代变得越来越不可靠。

建议企业采取以下措施：第一，部署AI驱动的邮件过滤系统，用AI对抗AI；第二，强化多因素认证，即使密码泄露也能保护账户；第三，定期进行AI驱动的钓鱼演练，提高员工对新型攻击的识别能力。

对于普通用户，几个基本原则依然有效：不点击邮件中的可疑链接；不在非官方网站输入密码；对紧急或威胁性信息保持高度警惕——AI生成的钓鱼邮件最喜欢制造紧迫感来迫使你快速行动。记住，任何让你”立即行动”的邮件都值得多想一秒。