2025年11月, 網絡安全解決方案的先驅與全球領導者Check Point軟件技術有限公司與行業領先、專注于AI代理應用安全的AI原生安全平臺Lakera,聯合英國人工智能安全研究所(AISI)的研究人員,近日發布專為AI智能體中大型語言模型(LLM)安全設計的開源安全評估工具——骨干破壞基準測試(backbone breaker benchmark )b3。
b3 基于“威脅快照”的新理念構建,不再模擬人工智能代理從始至終的完整過程,而是聚焦于大語言模型最易暴露漏洞的關鍵節點。通過在這些精確時刻測試模型,開發者和模型供應商無需構建復雜的完整代理工作流,即可評估其系統在更真實對抗挑戰中的抗壓能力。
“我們創造b3基準測試,是因為當今人工智能代理的安全性完全取決于其背后的LLM模型,”Check Point旗下公司Lakera的聯合創始人兼首席科學家Mateo Rojas-Carulla表示。“威脅快照功能讓我們能夠系統性地揭示那些至今仍隱藏在復雜代理工作流中的漏洞。通過向全球開放該基準測試,我們希望為開發者和模型供應商提供一種切實可行的方法,來衡量并提升其安全態勢。”
該基準測試結合了10個具有代表性的代理“威脅快照”,以及通過紅隊對抗測試Gandalf: Agent Breaker收集的19,433個高質量眾包對抗攻擊數據集。它評估了系統對各類攻擊的易受攻擊性,包括系統提示泄露、釣魚鏈接植入、惡意代碼注入、拒絕服務攻擊以及未授權工具調用等。
Gandalf: Agent Breaker是一款黑客模擬游戲,挑戰玩家在真實場景中破解并利用AI代理的能力。游戲內置的十款通用人工智能應用程序模擬了現實世界中AI代理的行為模式。每款應用均設有不同難度等級、分層防御機制及創新攻擊面,旨在考驗從提示工程到紅隊對抗等全方位技能。部分應用基于聊天交互,其余則需運用代碼級思維、文件處理、內存操作或外部工具使用等能力。
Gandalf: Agent Breaker的初始版本誕生于Lakera內部的黑客馬拉松競賽,當時藍隊與紅隊試圖為持有秘密密碼的大型語言模型構建最強大的防御與攻擊體系。自2023年發布以來,它已成為全球規模最大的紅隊對抗社區,累計生成逾8000萬條數據點。這款最初作為趣味游戲開發的工具,通過揭示生成式AI應用中的現實漏洞,有效提升了人們對“AI優先安全”重要性的認知。
