人工智能聊天机器人ChatGPT 发布后,骇客们就开始“越狱”——试图越过安全措施让它脱口而出一些不堪入耳的内容。因此,AI巨头们计划在拉斯维加斯举办一场大型活动,让骇客尝试挑战其越狱系统,而定于今年八月在此举行的DEF CON将是首次针对 ChatGPT 发布以来引起公众兴趣和商业投资激增的大型语言模型展开讨论,预计将吸引数千人参加。
ChatGPT的制造商 OpenAI 以及谷歌和微软等其他主要人工智能供应商正在与拜登政府合作推动这项活动,让成千上万的骇客尝试测试他们技术的极限,目标是寻找答案:如何操纵聊天机器人造成伤害? 他们会把人们向他们倾诉的私人信息分享给其他用户吗? 为什么他们假设医生是男性而护士是女性?
“这就是我们需要数千人的原因,” 乔杜里(Rumman Chowdhury )说,他是为今年夏天在拉斯维加斯举行的 DEF CON 骇客大会的协调专员。初步同意提供其模型进行测试的公司包括 OpenAI、谷歌、芯片制造商 Nvidia 以及初创公司 Anthropic、Hugging Face 和 Stability AI。
乔杜里在 2021 年担任 Twitter 人工智能道德团队的负责人时,帮助向 DEF CON 的人工智能村引入了一种奖励发现算法偏差的方法——这一职位在埃隆·马斯克 (Elon Musk) 10 月接管公司后被取消,现在他是 AI 问责制非营利组织 Humane Intelligence 的联合创始人,他表示,这不仅是要找到缺陷,还要找出解决缺陷的方法。
他说,“我们需要很多具有广泛生活经验、主题专业知识和背景的人来研究这些模型,并试图找到可以解决的问题。现在发生的事情是一种漫无目的的方式,人们找到东西,它在 Twitter 上传播开来,如果它够恶劣或者引起注意的人有影响力,它可能会也可能不会得到修复。”
构建测试平台的是一家名为 Scale AI 的初创公司,该公司以其通过标记数据来指派人类帮助训练 AI 模型的工作而闻名。其首席执行官 Alexandr 王表示:“随着这些基础模型变得越来越普遍,我们尽一切努力确保它们的安全非常重要。”
“你可以想像世界某一端的某个人向它询问一些非常敏感或详细的问题,包括他们的一些个人信息。 你不希望任何这些信息泄露给任何其他用户”。他担心的其他危险是聊天机器人会给出“令人难以置信的糟糕医疗建议”或其他可能造成严重伤害的错误信息。
“人工智能教父”杰弗里·辛顿也对于这项技术的危险表达担忧,例如使用 ChatGPT 等人工智能工具的“新闻”网站的快速增长,正在推动错误信息的传播。
任何尝试过 ChatGPT、微软的 Bing 聊天机器人或谷歌 Bard 的人都会很快了解到,他们倾向于捏造信息并自信地将其作为事实呈现。这些系统建立在所谓的大型语言模型 (LLM) 之上,还模拟了从人们在线编写的大量内容中受训而学到的文化偏见。
今年 3 月,在德州奥斯汀举行的西南偏南音乐节上,大规模骇客攻击的想法引起了美国政府官员的注意,DEF CON 长期运营的 AI Village 的创始人 Sven Cattell 和负责任的 AI 非营利组织 SeedAI 总裁 Austin Carson 出席了此次活动 , 帮助领导了一个研讨会,邀请社区大学生破解 AI 模型。
他说,这些对话最终发展成一项提议,即按照白宫的人工智能权利法案蓝图的指导方针测试人工智能语言模型——一套限制演算法偏见影响的原则,让用户控制他们的数据,并确保 安全透明地使用自动化系统。
已经有一个用户社区竭尽全力欺骗聊天机器人并突出他们的缺陷。 有些是公司授权的官方“红队”,可以“快速攻击”人工智能模型以发现它们的漏洞。许多其他人是爱好者,在社交媒体上炫耀有趣或令人不安的输出,直到他们因违反产品服务条款而被禁。
在一个被称为“祖母攻击”的例子中,用户能够让聊天机器人告诉他们如何制造炸弹——商业聊天机器人通常会拒绝这个请求——通过让它假装是一位祖母讲睡前故事 如何制造炸弹。
在另一个例子中,使用早期版本的微软 Bing 搜索引擎聊天机器人搜索 Chowdhury——它基于与 ChatGPT 相同的技术,但可以从互联网上提取实时信息——导致一个配置文件推测 Chowdhury “喜欢购买新的 每个月穿一双鞋”,并对他的外表发出奇怪偏见和性别化的断言。
如果骇客发现安全漏洞,则支付“赏金”,这在网络安全行业中很常见。 但对于研究有害人工智能偏见的研究人员来说,这是一个较新的概念。今年的活动规模要大得多,并且是首次解决自去年年底发布 ChatGPT 以来引起公众兴趣和商业投资激增的大型语言模型。
“这是向公司提供反馈的直接渠道,”他说。 “这不像我们只是在做骇客马拉松,之后每个人都解散回家。 我们将在结束后花费数月时间编写一份报告,解释常见的漏洞、出现的问题以及我们看到的模式”。
Anthropic 联合创始人克拉克(Jack Clark) 表示,DEF CON 活动有望成为人工智能开发人员更深入地致力于衡量和评估他们正在构建的系统的安全性的开始。“我们的基本观点是,人工智能系统在部署前和部署后都需要第三方评估。 红队是你可以做到这一点的一种方式,”他说。
“我们需要练习弄清楚如何做到这一点。 以前还没有真正做到过”。
维加斯今夏将迎来一场大规模骇客行动,以测试 AI 技术的极限。
|