ヒューマノイド・ロボット工学のほとんどの報道は、当然ながらハードウェア設計に焦点を当ててきました。開発者たちが「汎用ヒューマノイド」というフレーズをよく使うことを考えると、もっと最初の部分に注意を払うべきです。単一の目的を持つシステムから数十年後、より一般的なシステムへの移行は大きなものになります。私たちはまだその段階には達していません。
バイペダルヒューマノイドデザインにより開かれた広範な動きの幅を完全に活用できるロボティックインテリジェンスを生み出す推進力は、研究者にとって重要なトピックとなっています。最近、ロボティクスでの生成AIの使用も注目されています。MITの新しい研究は、後者が前者にどのように影響を与える可能性があるかを示しています。
一般的なシステムへの道のりで最も大きな課題の1つはトレーニングです。異なる仕事をする人々を訓練するためのベストプラクティスにはしっかりとした理解があります。ロボティクスへのアプローチは有望ですが、断片化されています。強化学習や模倣学習など、有望な手法がたくさんありますが、将来の解決策は、これらの手法の組み合わせを取り入れた生成AIモデルによっておそらくサポートされるでしょう。
MITチームが示唆する主要なユースケースの1つは、これらの小さな、タスク固有のデータセットから関連情報をまとめる能力です。この手法はポリシーコンポジション(PoCo)と呼ばれています。タスクには、釘を打つことやヘラで物をひっくり返すなど、有用なロボットのアクションが含まれます。
MITによると、拡散モデルの組み込みは、タスクのパフォーマンスを20%向上させました。これには、複数のツールが必要なタスクを実行する能力や、未知のタスクに学習/適応する能力も含まれます。このシステムは、異なるデータセットから適切な情報を組み合わせて、タスクを実行するために必要なアクションの連鎖を作成することができます。
論文のリード著者であるリルイ・ワンは「このアプローチの利点の1つは、最高の状態を得るためにポリシーを組み合わせることができることです」と述べています。たとえば、実世界のデータで訓練されたポリシーは、より器用さを発揮できるかもしれませんが、シミュレーションで訓練されたポリシーは、より一般化を達成できるかもしれません。
この具体的な作業の目標は、ロボットが異なるツールを交換してさまざまなタスクを実行できる知能システムの創出です。これにより、多目的システムの普及は、業界を汎用性の夢に一歩近づけるでしょう。