Anthropicが人工知能の偏見と差別に対抗する新たな研究を発表

現代生活のほぼすべての分野に人工知能（AI）が浸透する中、Anthropicのようなスタートアップの研究者たちは、新しいAIシステムが展開される前に偏見や差別といった被害を防ぐための作業を行っています。

この度、Anthropicの研究者たちが「言語モデルの決定における評価と差別の緩和」と題した論文を発表し、AIシステムによって下される決定に潜む微妙な偏見を明らかにしました。この研究は、偏見を暴露するだけでなく、新たな差別評価方法を使用して、より公平なAIアプリケーションを作成するための包括的な戦略も提案しています。この研究は、特にOpenAIの内部混乱やCEOのSam Altmanの解任と再任命を受けて、急速な技術進化の倫理的な意味合いを注視するAI業界にとって、適切なタイミングで行われました。

研究方法は、AIにおける差別を積極的に評価することを目指しています。arXivに公開された新しい研究論文は、金融や住宅などの高リスクシナリオにおける大規模言語モデル（LLM）の差別的影響を評価するための積極的なアプローチを提示しています。

研究者たちは、Anthropic自身のClaude 2.0言語モデルを使用し、言語モデルに入力できる70の異なる仮想決定シナリオを生成しました。これらのプロンプトは、年齢、性別、人種などの人口統計学的要因を系統的に変えることで、差別を検出することができます。研究者たちは、Claude 2.0モデルが、介入がない場合、女性や非白人個人に対して差別的な表現を示し、60歳以上の人々に対しても差別をしていることを発見しました。

この研究は、Anthropicが今年初めに発表した注目されているConstitutional AI論文とも密接に関連しています。この論文は、Claudeがユーザーとのやり取りをする際に従うべき一連の価値観と原則を概説し、Claudeが取り扱うべき機微な話題、ユーザーのプライバシーの尊重、違法行為の回避などを指定しています。

Anthropicの共同創業者であるJared Kaplanは、AIの憲法が公開された5月にVentureBeatに語りました。「私たちは透明性の精神でClaudeの現在の立ち位置を共有しています。この研究がAIコミュニティにより有益なモデルを構築し、その価値をより明確にする手助けになることを願っています。また、これを出発点として、Claudeのルールを継続的に改訂していく予定で、この投稿を共有することで、ルール設計に関するより多くの研究と議論を促進することを期待しています。」

TagsAIUnited States