大規模言語モデルAnthropicが、AIの振る舞いに関する理由を研究

人間が作ったものであっても、大規模言語モデルはなお大きな謎に包まれています。現在のAIブームを支える高性能アルゴリズムは、外部から観察しても明確に説明できない動作をする傾向があります。このためAIは「ブラックボックス」と呼ばれ、外部から理解しづらい現象となっています。

AI業界の有力企業の一つAnthropic が最近発表した研究は、AIアルゴリズムの振る舞いのより不可解な側面に光を当てようとするものです。Anthropic はAIチャットボットClaude が特定の話題に関するコンテンツを生成する理由を説明しようとする研究論文を発表しました。

AIシステムは人間の脳を大まかに模した形で構築されており、情報を取り込み処理した上で、その情報に基づいて「決定」や予測を行うことになる階層型ニューラルネットワークで構成されています。このようなシステムは大量のデータセットで「学習」され、アルゴリズム的な関連付けを行えるようになります。しかし、AIシステムがその学習に基づいてデータを出力する際、人間の観察者はそのアルゴリズムがどのようにしてその出力に至ったのか分からないことが多くあります。

このような謎から、機械の意思決定の過程を追跡し理解しようとするAI「解釈」の分野が生まれました。AI解釈の分野では、「特徴」とはニューラルネットの中で活性化された「ニューロン」のパターンを指し、アルゴリズムが参照する概念に相当します。研究者が理解できる「特徴」が多ければ多いほど、特定の入力がネットワークにどのような出力をもたらすのかを理解できます。

Anthropicの研究者は、「辞書学習」と呼ばれるプロセスを使ってClaudeのニューラルネットワークのどの部分が特定の概念にマッピングされているかを解読したと説明しています。この手法を使うことで、「特定の入力に対してどの特徴が反応するかを見ることで、モデルがある応答に至った『推論』を理解し始められる」と研究者は述べています。

Wired誌のSteven Levyによるインタビューで、Anthropicの研究チームはClaudeの「脳」の解読作業がどのようなものだったかを説明しています。一つの特徴を解読できれば、他の特徴への手がかりが得られたそうです。「彼らの目に付いた一つの特徴は、ゴールデンゲートブリッジに関連していました。Claudeが巨大な橋梁構造物、つまりサンフランシスコとマリン郡を結ぶゴールデンゲートブリッジを『考えている』時に発火する一連のニューロンのセットをマッピングしたのです。さらに、類似のニューロンのセットが発火すると、ゴールデンゲートブリッジに関連する話題、つまりアルカトラズ島、カリフォルニア州知事のガビン・ニューサム、サンフランシスコを舞台にしたヒッチコック映画『酔うナミダ』といったものが喚起されました。結局のところ、チームはClaudeのニューラルネットを解読するための数百万の特徴、いわばロゼッタストーンを特定したのです」

営利企業であるAnthropic には、ビジネス上の動機から研究を特定の形で書き、発表している可能性があることに留意する必要があります。しかし、チームの論文は一般公開されているため、誰でも自身で読み、その発見と手法について自分なりの結論を下すことができます。

TagsAIUnited States