ハルシネーション(幻覚)をより厳密に検出する方法の構築する"Probably"がSeedで$9Mを調達

Probablyは、Andreessen Horowitzがリードし、Accelなど参加したSeedで$9Mを調達した。

ハルシネーション(幻覚)をより厳密に検出する方法の構築するProbablyの目標は、ハルシネーションや単純な事実誤認がユーザーに届く前に防ぐことであり、決定論的システムでは一般的である99.99%レベルの精度を実現することです。しかし、そのような精度をAIで達成することははるかに困難です。その結果、LLMをそのレベルの精度へ引き上げるためには、AIエンジニアリングの多くの基本的な前提を見直す必要があることが分かりました。、

LLM(大規模言語モデル)がより強力になるにつれ、ハルシネーション(幻覚)の問題は依然として回避が非常に難しいことが明らかになっています。どれほど高性能なモデルでも誤りは発生し、それらの誤りを検出する方法はいくつか存在するものの、業界全体としては依然として最適な解決策を模索している段階です。

Probablyの最初のプロダクトはデータサイエンス向けツールです。このツールは複雑なデータセットから迅速に回答を生成するために設計されています。各結果には引用元と、その結果がどのように生成されたかを示す監査証跡が付与されており、これはAIツールの間でますます一般的になりつつある手法です。

しかし、それらの要約に誤りが入り込まないようにするためには、「データサイエンス用のパワードスーツ」と表現する複雑なハーネスシステムが必要でした。LLMが最初に生成した回答は決定論的な検証システムによってチェックされ、データセットと一致しない結果は差し戻されます。重要なのは、LLM自体がこの検証システムに基づいて訓練されている点です。同社によると、システム全体は高速かつ正確な回答を実現するよう最適化されています。

「私たちがこれを構築する中で学んだことは、ハーネスエンジニアリングが優れているほど、必要となるモデル性能は低くて済むということです。コンテキストを十分に洗練できれば、モデルは正しい答えを出すためにそれほど苦労する必要がありません。基本的には曖昧さを減らすための取り組みなのです。」とProbablyの創業者であるPeter Eliasは述べています。

これにより、Probablyのデータサイエンスツールは大幅に小型のAIモデル上で動作できます。Eliasによれば、現在のバージョンは「最先端モデルより4世代ほど性能が低いモデル」で動作しており、そのためローカルハードウェア(つまりデータセンターではなくデスクトップコンピューター)上で実行できます。これによってAI利用に伴うトークンコストを大幅に削減できるとしています。

これは、トークンコストが上昇し、多くの顧客がAI予算の見直しを進めている現在において歓迎すべきアイデアです。また、Eliasの構想はデータサイエンスだけにとどまりません。同じエンジンは会計や医療サービスなどの分野にも拡張可能であり、Eliasの言葉を借りれば「精度が重要なあらゆるユースケース」に適用できるといいます。

「大手AI研究所がこれにまったく取り組んでいないことは非常に興味深いと思います。彼らにはそうしないインセンティブがあります。なぜなら、ユーザーがモデルを修正する回数が増えるほど、彼らは利益を得られるからです。」と同氏は述べています。