Galileoが開発した新しいハルシネーション指数でGPT-4を最高性能のLLMとして評価

サンフランシスコに本拠を置く企業Galileoの研究部門が開発した新しいハルシネーション指数によると、OpenAIのGPT-4モデルが複数のタスクにおいて最も高い性能を発揮し、最少のハルシネーションを見せることがわかりました。この指数は、近く公開され、MetaのLlamaシリーズを含むほぼ12種類のオープンソースおよびクローズドソースの大規模言語モデル（LLM）を評価し、それぞれが異なるタスクを実行する際にどれだけハルシネーションを経験するかを検証しました。結果として、全てのLLMはタスクごとに異なる挙動を示しましたが、OpenAIのモデルは全シナリオにわたって一貫した高性能を維持しました。この指数の発見は、特に医療などの重要なセクターで大規模言語モデルを展開する際のハルシネーションの課題に直面している企業にとって、最新の助けとなるものです。

企業が生成AI、特にビジネス成果を推進するためにLLMを使用することに大きな関心を示していますが、実際にプロダクションで推論として展開するとき、LLMのレスポンスが100%事実に基づいていない可能性があるというパフォーマンスギャップに直面することがあります。

Galileoの共同創設者兼CTOのAtindriyo Sanyal氏は、「ハルシネーション指数による評価方法と指標は、エンジニアやデータサイエンティストがハルシネーションが起こった可能性を確実に特定するのに役立ちます」と語りました。

内部知識と学習に依存して回答を提供する問い合わせへの対応で、OpenAIのGPTファミリーが他を圧倒しました。GPT-4-0613モデルは正確性スコア0.77を受け、GPT-3.5 Turbo-1106、GPT-3.5-Turbo-Instruct、GPT-3.5-Turbo-0613がそれぞれ0.74、0.70、0.70のスコアを得ました。このカテゴリーでは、MetaのLlama-2-70bがGPTファミリーに次ぐ0.65のスコアを得ました。その他のモデルは特にLlama-2-7b-chatとMosaic MLのMPT-7b-instructがそれぞれ0.52と0.40のスコアで後れを取りました。長文テキスト生成などのタスクでは、GPT-4-0613とLlama-2-70bがそれぞれ0.83と0.82の正確性スコアを得て、最もハルシネーションを起こしにくいことが示されました。GPT-3.5-Turbo-1106はLlamaに匹敵し、0613バリアントは0.81のスコアを得ました。この場合、MPT-7bは0.53のスコアで後れを取りました。

OpenAIのGPT-4はすべてのタスクでトップに立っていますが、このモデルのAPIベースの価格設定はコストを押し上げる可能性があるため、GalileoはGPT-3.5-Turboモデルを選ぶことを推奨しています。これにより、あまりコストをかけずにほぼ同等のパフォーマンスを得ることができます。テキスト生成などの場合には、Llama-2-70bなどのオープンソースモデルもパフォーマンスとコストのバランスを取るのに役立ちます。ただし、これは進化している指数であり、新しいモデルが週単位で登場し、既存のものは時間とともに改善されています。Galileoは、異なるタスクで最もハルシネーションを起こしにくいモデルの正確な分析ランキングを提供するために、この指数を四半期ごとに更新する予定です。

Sanyal氏は、「ハルシネーションに対処するための出発点をチームに提供したいと考えています。ハルシネーション指数の結果を福音として扱うことは期待していませんが、生成AIの取り組みを開始するための非常に徹底した出発点として指数が役立つことを願っています」と付け加えました。

TagsAIUnited States