数ヶ月前、OpenAIはシーンの説明を元にオリジナルのビデオを作成する、Soraという生成AIモデルでテック界を魅了しました。カメラや撮影クルーは必要ありません。しかし、Soraはこれまでに比較的閉鎖的であり、同社はハリウッドの監督など、資金力のあるクリエイターを対象としているようです。それ、必ずしも趣味家や小規模なマーケターを意味するわけではありません。
アレクス・マシュラボフは、Snapの生成AI部門の元責任者で、この機会を感じ取りました。そこで、より適応し、パーソナライズされたアプリケーション向けに設計されたAIパワードのビデオ作成および編集プラットフォームであるHiggsfield AIを立ち上げました。
カスタムテキストツービデオモデルを搭載したHiggsfieldの最初のアプリであるDiffuseでは、ゼロからビデオを生成したり、自撮りを取り入れてその人を主演にしたクリップを作成したりできます。
「私たちのターゲットオーディエンスは、あらゆるタイプのクリエイターです。」とマシュラボフはTechCrunchのインタビューで述べています。「友達と楽しいコンテンツを作りたい一般ユーザーから、新しいコンテンツフォーマットを試したがっているソーシャルコンテンツクリエイター、自分のブランドを目立たせたいソーシャルメディアマーケターまで。」
マシュラボフは、Snapには前のスタートアップであるAI Factoryから来て、Snapが2020年に1億6600万ドルで買収したという経歴があります。Snap在籍時、マシュラボフはCameosなどのSnapchat用のARエフェクトやフィルター、Snapchatの物議を醸すMyAIチャットボットなどの製品を開発するのに貢献しました。
Higgsfieldは、マシュラボフと生成ビデオを専門とするAI研究者であるイェルザト・ドゥラットが数か月前に共同設立したもので、事前に生成されたクリップ、リファレンスメディア(つまり画像やビデオ)をアップロードするためのツール、およびユーザーが描写したいキャラクターやアクション、シーンを記述するプロンプトエディタを提供しています。Diffuseを使用することで、ユーザーはAI生成のシーンに直接自分自身を挿入したり、他のビデオで捉えられたダンスのようなものを模倣したりすることができます。
「当社のモデルは高度にリアルな動きや表現をサポートしています。」とマシュラボフは語っています。「私たちは消費者向けの『ワールドモデル』を先駆けとしています。これにより、制御レベルの高い優れたビデオ生成および編集を構築することができます。」
Higgsfieldは、OpenAIと競合する唯一の生成ビデオスタートアップではありません。先駆けとしてのRunwayや、そのツールは引き続き改善されています。そして、DeepMindの元メンバーからの支援を受け、ベンチャーキャッシュで1,300万ドル以上を調達しているHaiperも存在しています。
マシュラボフは、Diffuseはモバイルファーストでソーシャル重視のゴートゥーマーケット戦略によって目立つと主張しています。
「デスクトップワークフローではなく、iOSおよびAndroidアプリを優先することで、クリエイターがいつでもどこでも魅力的なソーシャルメディアコンテンツを作成できるようにしています。」とマシュラボフは述べています。「実際に、モバイルを基盤に構築することで、最初から使いやすさと消費者向けの機能に優先度を付けることができます。」
Higgsfieldはリーンで運営しています。マシュラボフによれば、プラットフォームの基盤となる生成モデルは、16人のチームによってわずか9か月で開発され、32GPUのクラスタでトレーニングされました(32GPUは多く聞こえるかもしれませんが、OpenAIは何万ものGPUを使用しており、実際にはそんなに多くありません)。そして、Higgsfieldはこれまでに800万ドルを調達しており、その大部分はMenlo Ventures主導の最近のシードファンディングトランシュからのものです。
ライバルに一歩先んじるために、Higgsfieldは、将来的にはビデオエディタを改良し、ユーザーがビデオ内のキャラクターやオブジェクトを変更できるようにしたり、ソーシャルメディア向けのより強力なビデオ生成モデルをトレーニングすることを予定しています。実際、マシュラボフはソーシャルメディア、特にソーシャルメディアマーケティングをHiggsfieldの主要な収益源と見ています。
現在、Diffuseは無料で使用できますが、マシュラボフは将来的にはマーケターがプレミアム機能やボリューム、大規模なキャンペーンのためにある種の料金や定期購読を支払うことを想定しています。
「Higgsfieldは、ソーシャルメディアマーケターにとって信じられないほどのリアリティとコンテンツ制作用途を開放すると考えています。」と彼は述べています。「常に、CMOやクリエイティブディレクターから、内容制作予算を最適化し、期間を短縮し、重要なコンテンツを提供する必要があるとの声を聞いています。そのため、ビデオ生成AIソリューションは、それらがそれを達成するのを支援するための主要なソリューションであると信じています。」
もちろん、Higgsfieldも生成AIスタートアップ全体に直面している幅広い課題からは免れません。
Diffuseをはじめとする種類の生成AIモデルは、しばしばトレーニングデータを「再現」するということが確立されています。なぜそれが問題なのか?モデルが著作権で保護されたコンテンツでトレーニングされた場合、許可なしで著作権侵害の作品を生成する可能性があり、それによってユーザーが訴訟にさらされる可能性があります。
マシュラボフは、Higgsfieldのトレーニングデータのソース(「複数の一般に利用可能な」場所から来ていると述べただけで、他には明かしませんでした)や、将来モデルをトレーニングするためにユーザーデータを保持するかどうかについても述べませんでした。これがいくつかのビジネス顧客には受け入れられないかもしれません。ただし、Diffuseのユーザーはアプリを通じていつでもデータの削除をリクエストすることができます。
Higgsfieldのようなデジタル「クローニング」プラットフォームは、ソーシャルメディア上でのディープフェイクの急速な拡散のように、乱用の可能性があります。
同様に、Higgsfieldはクリエイターのコンテンツを盗むのを簡単にするかもしれません。たとえば、誰かの振り付けをアップロードするだけで、その振り付けを行っている自分のビデオを生成することができます。
私は、Higgsfieldが乱用を防ぐために使用している保護策や保護措置についてマシュラボフに尋ねましたが、具体的な詳細には触れず、プラットフォームが自動化と手動のミックスを採用していると主張しました。
「製品を段階的に展開し、最初は選択した市場でテストすることで、乱用の可能性がある場所を監視し、必要に応じて製品を進化させることができるようにしています。」とマシュラボフは追加しています。
その実行状況がどのようになるかは待ち続ける必要があります。