AnthropicがAIを多重プロンプト攻撃 (Many-shot Jailbreaking) で操作する方法を発見

サンフランシスコに拠点を置くAI安全性と研究を行う企業Anthropicは、内蔵されたガードレールを突破し、AI大規模言語モデル(LLM)を操作する新しい方法を発見しました。同社はこの手法を「Many-shot Jailbreaking」と呼び、Anthropic自身のモデルだけでなく、他のAI企業のモデルにも有効であると述べています。この方法では、危険または違法な活動に関するプロンプトの前に、大量の架空の対話を追加します。架空の会話では、「ユーザー」が様々な違法行為の方法を尋ね、「AI」が具体的な手順を回答します。ただし、架空の対話が1つしかない場合や、わずかな数しかない場合、LLMは内部のガードレールにより危険または違法な情報を提供するのを避ける可能性が高いと同社は指摘しています。

しかし、Anthropicがテストした最大256の架空の対話が前置きされていれば、LLMを欺いてjailbreakし、安全対策のトレーニングやガードレールを無視させて操作できるようになります。この手法は、新しい世代のLLMが持つより広い「コンテキストウィンドウ」を利用しています。コンテキストウィンドウとは、モデルが応答を生成する前に考慮して分析できる最大の情報量を指し、この1年で大幅に増加しています。Many-shot jailbreakを防ぐには、コンテキストウィンドウを短くする方法があります。しかし、その場合長いコンテキストウィンドウの利点である詳細な応答が得られなくなってしまいます。Anthropicが示した別の解決策は、プロンプトをモデルに送信する前に、分類と文脈化の手法を適用することです。

同社は次のように述べています。「そのような手法の1つで、Many-shot jailbreakingの効果を大幅に低減できました。ある事例では攻撃の成功率が61%から2%に低下しました。我々は引き続きこれらのプロンプトベースの対策とモデルの有用性へのトレードオフを検討しており、新しいClaude 3ファミリーを含め、検知を回避する可能性のある攻撃の変種にも警戒を怠りません。」

同社は自身のシステムでの対策実装に加え、Many-shot jailbreakingについて他のAI開発者に説明を行い、研究結果を公開しています。
「Many-shot jailbreakingを公開することで、高性能LLMの開発者や広範な科学コミュニティに、このjailbreakや長いコンテキストウィンドウを悪用するその他の可能性への対策を検討してもらえると期待しています。モデルがより高性能になり、関連するリスクが高まるにつれ、こういった攻撃への対策はますます重要になります。」と記しています。

TagsAIUnited States