1. Home
  2. News
  3. AIメンタルヘルスのSword Health、現実的な対話でLLMを測る初の多ターン指標「MindEval」を公開
2025/12/10

Startup Portfolio

AIメンタルヘルスのSword Health、現実的な対話でLLMを測る初の多ターン指標「MindEval」を公開

Sword Healthは、メンタルヘルス領域における大規模言語モデル(LLM)の振る舞いを現実に近い形で評価する初のベンチマーク「MindEval」を公開しました。MindEvalは、米国心理学会(APA)のスーパービジョンガイドラインに基づき、臨床心理士の監修のもと設計されたもので、AIが「一問一答」ではなく、時間をかけて続くメンタルヘルス対話の中でどのように振る舞うかを、臨床レベルで評価することを目的としています。世界的に、感情的な支えやセルフコーチング、いわゆる“疑似カウンセリング”の目的でAIチャットボットに頼る人は増えていますが、これまで「実際のやり取りの中でAIがどれだけ安全かつ一貫性を持って対応できるか」を測る厳密な評価方法は存在しませんでした。MindEvalは、こうしたギャップを埋めるために開発された新たな臨床ベンチマークであり、モデルを以下の5つの軸で評価します。すなわち、臨床的正確性、倫理・職業的態度、アセスメントの質、セラピューティック・アライアンス(信頼関係)、そしてAI特有のコミュニケーション行動です。多くの既存ベンチマークが知識問題や単発の回答品質に依存しているのに対し、MindEvalは、うつや不安症状が高まる複雑なケースを含む、多ターンの対話シナリオを通じてモデルを評価する点が特徴です。

 

Sword Healthが12の最先端LLMを対象に実施した初回評価では、すべてのモデルが平均スコア6点満点中4点未満にとどまり、とくに現実の会話で重要となる領域で弱さが露呈しました。具体的には、「冗長な応答」「過剰な共感・安心の繰り返し」「表面的なアドバイス」といったAI特有のコミュニケーションの問題、重度の症状を抱えるクライアントへの支援の難しさ、対話が長くなるにつれて臨床的な質が劣化し失敗が累積していく傾向などが明らかになりました。モデルサイズの大型化や推論能力の向上が必ずしもメンタルヘルス支援の振る舞い改善につながらないことも示されており、「一般的なAI最適化」と「安全で臨床的に整合したメンタルヘルス支援」に必要なものとの間のギャップが浮き彫りになっています。

 

MindEvalが開発された背景には、AIメンタルヘルスツールの透明性と安全性に対する喫緊の課題があります。Sword Healthは、現在広く使われているベンチマークの多くが実際のセラピーを評価できておらず、単発の回答では見えにくいリスク(依存や境界の曖昧化、誤ったガイダンスなど)が長期対話の中で顕在化することを指摘しています。また、LLMが「準セラピスト」としてすでに現場利用されているにもかかわらず、その臨床的能力を評価する共通物差しが存在しないことも問題視しています。MindEvalは、金融分野におけるFinanceBenchに相当する「セラピー品質の対話のための業界標準ベンチマーク」を目指しており、規制当局、臨床家、開発者が共通の指標に基づいてモデル比較・安全レビュー・継続的監査を行えるようにするものです。

 

Sword HealthはMindEvalを完全オープンなベンチマークとして公開し、コード、プロンプト、人手評価データをすべて利用可能にしています。世界中の研究者・開発者・臨床家が自らのシステムをテストし、新たな安全技術を検証し、メンタルヘルス領域に特化したAIモデルの改善を共同で進められるようにする狙いです。CEOのVirgilio Bento氏は、「AIは高品質なメンタルヘルスケアへのアクセス格差を埋める大きな可能性を秘めていますが、それはケアの現場を正しく反映した基準でモデルを評価し、会話のすべてのターンで安全な振る舞いを保証できる場合に限られます」と述べ、「だからこそMindEvalをオープンソース化した」と強調しています。

 

Sword Healthについて
Sword Healthは、AIケアプラットフォームを通じて、ヘルスケアを「人間ファースト」から「AIファースト」へとシフトさせることを目指すAIヘルス企業です。まず運動器ケア領域からスタートし、その後ウィメンズヘルスやメンタルヘルスへと事業を拡大してきました。2020年以降、3大陸で70万人以上のメンバーが累計1,000万回以上のAIセッションを完了し、1,000社以上のクライアントが総額10億ドル超の医療費削減効果を得たとされています。政府やヘルスシステム向けの「Sword Intelligence」を通じて業務効率化やキャパシティ拡張も支援しており、43件の臨床研究と45件超の特許を背景に、Khosla Ventures、General Catalyst、Transformation Capital、Founders Fundなどから5億ドル以上の資金調達を行っています。

 

TagsHealthTechUnited States

関連ニュース

Contact

AT PARTNERSにご相談ください