大規模言語モデルのAnthropic、AIモデルを保護する「Constitutional Classifiers」を発表

Anthropicは、新たなAIセキュリティ技術「Constitutional Classifiers」を開発したことを発表した。この技術は、AIモデルに対する「ジェイルブレイク」（不正なプロンプトを用いてモデルの制約を回避し、有害な出力を生成させる行為）を検出し、防ぐためのシステムである。Anthropicは独立したテストユーザーを招き、その堅牢性を検証するとともに、一般向けに期間限定のデモ版を公開し、誰でもその性能を試せるようにしている。

ジェイルブレイクは、AIモデルに対する特殊なプロンプト技術を使い、通常は生成されない有害なコンテンツを出力させる手法を指す。これに対し、多くのAI開発企業はセキュリティ対策を施しているが、新しい手法が次々と開発されるため、完全に防ぐのは困難とされてきた。Anthropicの「Constitutional Classifiers」は、AIモデルに事前定義されたルール（憲法=Constitution）を適用することで、安全性を強化する仕組みだ。この技術には、入力（Input）と出力（Output）の2種類の分類器があり、それぞれが特定の原則に従い、許可されるコンテンツと禁止されるコンテンツを判断する。Anthropicは既に同社のAIモデルClaudeにこの「憲法」の概念を導入しており、今回の新技術はそれをさらに発展させたものとなる。このシステムの強化のため、AnthropicはAIが生成するプロンプトとその回答を多言語でデータセット化し、既知のジェイルブレイク技術も組み込むことで、モデルの堅牢性を向上させている。

Anthropicはこの技術の効果を検証するために、183人の独立したテスターによるバグ報奨金プログラムを実施した。その結果、どのプロンプトにも対応できる「ユニバーサルジェイルブレイク」は発見されなかったと報告されている。また、AIモデルに10,000件のジェイルブレイクプロンプトを投じる自動テストも行われ、その結果、ジェイルブレイクの成功率は無防備なモデルの86%に対し、Constitutional Classifiers導入モデルでは4.4%に低下したことが確認された。さらに、不要な拒否（安全な問い合わせまで拒否するケース）も最小限に抑えられ、追加の計算負荷も最適化されたという。Anthropicはこの技術の限界についても認識しており、今後登場する新たなジェイルブレイク手法には対応が難しい可能性があると述べている。現在、興味のあるユーザーは2月10日までの期間限定で公開されているデモ版で、このシステムの性能を試すことができる。

Anthropicについて
Anthropicは、AIの安全性と倫理的運用に特化した技術開発を行うスタートアップであり、独自の「Constitutional Classifiers」アプローチを用いてAIの制御と安全性を向上させることを目指している。

TagsAIUnited States