大規模言語モデルのAnthropic、「AIが悪に染まる」問題を防ぐ新技術を開発パーソナベクターによる性格制御で予防的対応

AIの大規模言語モデル（LLM）は私たちの生活に急速に浸透していますが、その「性格」や「振る舞い」をどう制御し、不適切な傾向（悪意・お世辞・虚偽情報生成など）を防ぐかが研究現場の大きな課題となっています。Claude開発元のAnthropicは、こうしたAIの性格や行動パターンの制御に関する最新の研究成果をarXivで公開し、AIの「悪化」を未然に防ぐ新たな手法を提示しました。

Anthropicの研究チームは、LLM内部のニューラルネットワークに現れる「パーソナベクター（persona vectors）」という活動パターンがAIの性格傾向を担っていることに着目。このパーソナベクターは、人間の脳の特定部位が特定の感情や行動時に活性化する現象に類似したもので、モデルの「悪意」「お世辞」「幻覚（虚偽情報）」といった性格的傾向を特定し、調整することができるといいます。研究では、オープンソースLLM「Qwen 2.5-7B-Instruct」および「Llama-3.1-8B-Instruct」を用い、パーソナベクターを操作することで悪意やお世辞、幻覚傾向を強めたり弱めたりできることを実証。ベクターを適用することで実際に不適切な振る舞いが現れることを確認し、性格傾向に「因果関係」が存在することを示しました。

重要なのは、これらの制御をAIモデルの「学習後」に適用すると知能が低下するリスクがある一方、学習中に「悪意」や「お世辞」などのパーソナベクターを意図的に誘導（ワクチンのように）することで、AIの有用性を損なわずに不適切傾向を抑えられる点です。この手法により、問題のあるトレーニングデータも早期に発見・対応でき、デプロイ後の“性格ドリフト”も抑制できることが明らかになりました。まだ曖昧な性格傾向の検出や他モデルでの実証など課題も残るものの、Anthropicは「パーソナベクターはAIが性格をどのように獲得・変化させるのか、またその制御方法を解明する手がかりとなる」としています。

Anthropicについて
Anthropicは、「Claude」など大規模言語モデルの研究・開発を手がけるAIスタートアップです。AIの安全性や倫理性に重点を置き、透明性・制御性に優れた次世代AI技術の開発で業界をリードしています。

TagsAIUnited States