Generative AIのデータ活用を革新するDatavoloが、2100万ドル超の資金調達

スタートアップ企業のDatavolo は、2,100万ドル以上の資金調達を終え、人工知能(AI)システムへのデータ供給方法を変革する野心的な計画を明らかにしました。この資金調達ラウンドは、ジェネラルカタリストがリードし、シティベンチャーズ、ヒューマンキャピタル、MVPベンチャーズ、そしてCloudra Inc.の元CEOであるロブ・ビアーデンが参加しました。これにより、同社の調達総額は2,500万ドルを超えました。

Datavaloは、共同創業者であるCEOのジョー・ウィットとCOOのルーク・ロケットが率いています。彼らは、もとNSA(米国家安全保障局)で働いていた際に設計したオープンソースのApache NiFiプロジェクトをベースに、革新的な新しいデータパイプラインシステムを構築しました。Apache NiFiは、ソフトウェアシステム間でのデータフローを自動化するために構築されましたが、Datavaloはこのソフトウェアを生成AIワークロードのためのマルチモーダルデータ処理に特化させています。同社は、企業が保有するすべてのデータを活用できるよう支援したいと述べています。データベースに格納された従来の構造化データだけでなく、コンピューターシステム内に閉じ込められた非常に多くの非構造化データも活用できるようにするのが目標です。IDCの2023年レポートによると、組織で生成される情報の約90%が後者のカテゴリーに分類されますが、現在のデータパイプラインソフトウェアはこの種のデータを適切に扱えないとしています。

企業が非構造化データへのアクセスを簡単にできるようにならないと、生成AIの可能性を最大限に発揮できないと同社は指摘しています。Apache NiFiプロジェクトは現在、世界中の数千の組織で利用されており、政府、医療、金融、通信などの厳しい規制のある業界で特に人気があります。しかし、ほとんどの企業がこのソフトウェアを主に構造化データのニーズに使っているものの、非構造化データにも同様に有用です。

Datavaloは、Apache NiFiを生成AI向けのマルチモーダルデータパイプラインの基盤として活用することで変革を遂げようとしています。SiliconANGLEへのインタビューで、ウィット氏は、同社ソフトウェアの主な利点は、AIシステムへの非構造化データ配信に現在使用されている単一用途のポイントツーポイントコードを、あらゆる種類のデータソースに適用できる高速、柔軟、再利用可能なパイプラインに置き換えられる点にあると述べました。こうしてウィット氏によれば、同社は他に先駆けて企業が全てのデータソースからすべてのデータを活用し、より強力で能力の高いAIモデルを構築できるよう支援できるのです。さらに詳しく説明するとウィット氏は、非構造化データ向けの適切なデータパイプラインソリューションが不足しているため、各アプリケーション向けにカスタムコードを書く必要があり、業界の発展が妨げられていると指摘しました。既存のデータパイプラインは、確立された構造とスキーマを持つデータ向けに構築された行指向の抽象化に基づいているというのです。「マルチモーダルデータの世界では、データセットは大規模で行形式ではありません。加えて、従来のデータプラットフォームは、LLMアプリケーションに関連するターゲットシステムに適さないポイントツーポイントのELTアーキテクチャを採用しています。」と説明しました。

さらにウィット氏は、既存のデータパイプラインには重大な制限もあると指摘しました。例えば、テキストの塊がベクトルデータベースや検索インデックスに埋め込まれた後は、従来の構造化データをデータウェアハウスで処理できるようにはさらなる変換や強化ができなくなるのです。「さらに、企業が書かざるを得ないカスタムコードは、メンテナンス、セキュリティ、運用が難しい傾向にあります。」と述べました。「企業ユーザーは、こうしたリスクを移譲できる確立されたプラットフォームを強く望んでいるはずです。」

ウィット氏によると、Datavaloのデータパイプラインモデルの異なる点は、構造化・非構造化の両方のデータを抽出、クリーニング、変換、強化、公開するための既製のプロセッサを利用している点にあります。何より重要なのは、ハイボリューム・データの急増にも需要に応じてスケールアップできる、継続的でイベント駆動型の取り込みを想定した設計になっている点だそうです。

「当社のプラットフォームは、オーディオ、ビデオ、画像ストリーム、センサーで取得された生の信号、深く入れ子になった階層型の構造化JSONやXML、テキストベースのログエントリー、高度に構造化されたレコード・行のデータベースなど、様々なデータを処理できます。」とウィット氏は付け加えました。「データエンジニアにとって柔軟性は、スタックの進化が続きオープンな課題が解決されていく中で重要な要素になると確信しています。そこでDatavaloは、APIやソース、ターゲット、モデルを簡単に入れ替えられるよう、データパイプラインとオーケストレーション機能を目的に合わせて構築しています。」

ウィット氏によると、企業が将来、基盤言語モデルとの連携から最大限の価値を引き出すためには、非構造化データが不可欠になるとのことです。一般的にLLMは専有または一般に公開されたデータセットで学習されますが、企業が独自の主にフューないと非構造化データで微調整すれば、有用性をさらに高められるのです。

TagsAIUnited States