人工智能聊天機器人ChatGPT 發佈後,駭客們就開始“越獄”——試圖越過安全措施讓它脫口而出一些不堪入耳的內容。因此,AI巨頭們計劃在拉斯維加斯舉辦一場大型活動,讓駭客嚐試挑戰其越獄系統,而定於今年八月在此舉行的DEF CON將是首次針對 ChatGPT 發佈以來引起公眾興趣和商業投資激增的大型語言模型展開討論,預計將吸引數千人參加。
ChatGPT的製造商 OpenAI 以及谷歌和微軟等其他主要人工智能供應商正在與拜登政府合作推動這項活動,讓成千上萬的駭客嘗試測試他們技術的極限,目標是尋找答案:如何操縱聊天機器人造成傷害? 他們會把人們向他們傾訴的私人信息分享給其他用戶嗎? 為什麼他們假設醫生是男性而護士是女性?
“這就是我們需要數千人的原因,” 喬杜里(Rumman Chowdhury )說,他是為今年夏天在拉斯維加斯舉行的 DEF CON 駭客大會的協調專員。初步同意提供其模型進行測試的公司包括 OpenAI、谷歌、芯片製造商 Nvidia 以及初創公司 Anthropic、Hugging Face 和 Stability AI。
喬杜里在 2021 年擔任 Twitter 人工智能道德團隊的負責人時,幫助向 DEF CON 的人工智能村引入了一種獎勵發現算法偏差的方法——這一職位在埃隆·馬斯克 (Elon Musk) 10 月接管公司後被取消,現在他是 AI 問責制非營利組織 Humane Intelligence 的聯合創始人,他表示,這不僅是要找到缺陷,還要找出解決缺陷的方法。
他說,“我們需要很多具有廣泛生活經驗、主題專業知識和背景的人來研究這些模型,並試圖找到可以解決的問題。現在發生的事情是一種漫無目的的方式,人們找到東西,它在 Twitter 上傳播開來,如果它夠惡劣或者引起注意的人有影響力,它可能會也可能不會得到修復。”
構建測試平台的是一家名為 Scale AI 的初創公司,該公司以其通過標記數據來指派人類幫助訓練 AI 模型的工作而聞名。其首席執行官 Alexandr 王表示:“隨著這些基礎模型變得越來越普遍,我們盡一切努力確保它們的安全非常重要。”
“你可以想像世界某一端的某個人向它詢問一些非常敏感或詳細的問題,包括他們的一些個人信息。 你不希望任何這些信息洩露給任何其他用戶”。他擔心的其他危險是聊天機器人會給出“令人難以置信的糟糕醫療建議”或其他可能造成嚴重傷害的錯誤信息。
“人工智能教父”杰弗裡·辛頓也對於這項技術的危險表達擔憂,例如使用 ChatGPT 等人工智能工具的“新聞”網站的快速增長,正在推動錯誤信息的傳播。
任何嘗試過 ChatGPT、微軟的 Bing 聊天機器人或谷歌 Bard 的人都會很快了解到,他們傾向於捏造信息並自信地將其作為事實呈現。這些系統建立在所謂的大型語言模型 (LLM) 之上,還模擬了從人們在線編寫的大量內容中受訓而學到的文化偏見。
今年 3 月,在德州奧斯汀舉行的西南偏南音樂節上,大規模駭客攻擊的想法引起了美國政府官員的注意,DEF CON 長期運營的 AI Village 的創始人 Sven Cattell 和負責任的 AI 非營利組織 SeedAI 總裁 Austin Carson 出席了此次活動 , 幫助領導了一個研討會,邀請社區大學生破解 AI 模型。
他說,這些對話最終發展成一項提議,即按照白宮的人工智能權利法案藍圖的指導方針測試人工智能語言模型——一套限制演算法偏見影響的原則,讓用戶控制他們的數據,並確保 安全透明地使用自動化系統。
已經有一個用戶社區竭盡全力欺騙聊天機器人並突出他們的缺陷。 有些是公司授權的官方“紅隊”,可以“快速攻擊”人工智能模型以發現它們的漏洞。許多其他人是愛好者,在社交媒體上炫耀有趣或令人不安的輸出,直到他們因違反產品服務條款而被禁。
在一個被稱為“祖母攻擊”的例子中,用戶能夠讓聊天機器人告訴他們如何製造炸彈——商業聊天機器人通常會拒絕這個請求——通過讓它假裝是一位祖母講睡前故事 如何製造炸彈。
在另一個例子中,使用早期版本的微軟 Bing 搜索引擎聊天機器人搜索 Chowdhury——它基於與 ChatGPT 相同的技術,但可以從互聯網上提取實時信息——導致一個配置文件推測 Chowdhury “喜歡購買新的 每個月穿一雙鞋”,並對他的外表發出奇怪偏見和性別化的斷言。
如果駭客發現安全漏洞,則支付“賞金”,這在網絡安全行業中很常見。 但對於研究有害人工智能偏見的研究人員來說,這是一個較新的概念。今年的活動規模要大得多,並且是首次解決自去年年底發布 ChatGPT 以來引起公眾興趣和商業投資激增的大型語言模型。
“這是向公司提供反饋的直接渠道,”他說。 “這不像我們只是在做駭客馬拉松,之後每個人都解散回家。 我們將在結束後花費數月時間編寫一份報告,解釋常見的漏洞、出現的問題以及我們看到的模式”。
Anthropic 聯合創始人克拉克(Jack Clark) 表示,DEF CON 活動有望成為人工智能開發人員更深入地致力於衡量和評估他們正在構建的系統的安全性的開始。“我們的基本觀點是,人工智能係統在部署前和部署後都需要第三方評估。 紅隊是你可以做到這一點的一種方式,”他說。
“我們需要練習弄清楚如何做到這一點。 以前還沒有真正做到過”。
維加斯今夏將迎來一場大規模駭客行動,以測試 AI 技術的極限。
|