Meskipun terdapat kemajuan AI yang menakjubkan dalam beberapa tahun terakhir, robot tetap saja bodoh dan terbatas. Yang ditemukan di pabrik dan gudang biasanya menjalani rutinitas yang diatur dengan tepat tanpa banyak kemampuan untuk memahami lingkungan sekitar atau beradaptasi dengan cepat. Beberapa robot industri yang dapat melihat dan menangkap objek hanya dapat melakukan sejumlah hal dengan ketangkasan minimal karena kurangnya kecerdasan fisik secara umum.
Robot yang lebih mampu secara umum dapat melakukan tugas-tugas industri yang jauh lebih luas, mungkin hanya dengan sedikit demonstrasi. Robot juga memerlukan kemampuan yang lebih umum untuk mengatasi variabilitas dan kekacauan yang sangat besar di rumah manusia.
Kegembiraan umum terhadap kemajuan AI telah diterjemahkan ke dalam optimisme terhadap lompatan besar baru dalam bidang robotika. Perusahaan mobil Elon Musk, Tesla, sedang mengembangkan robot humanoid bernama Optimus, dan Musk baru-baru ini menyatakan bahwa robot tersebut akan tersedia secara luas dengan harga $20.000 hingga $25.000 dan mampu melakukan sebagian besar tugas pada tahun 2040.
Upaya sebelumnya untuk mengajarkan robot melakukan tugas-tugas yang menantang berfokus pada melatih satu mesin pada satu tugas karena pembelajaran tampaknya tidak dapat dialihkan. Beberapa karya akademis baru-baru ini menunjukkan bahwa dengan skala dan penyesuaian yang memadai, pembelajaran dapat ditransfer antar tugas dan robot yang berbeda. Proyek Google tahun 2023 yang disebut Open X-Embodiment melibatkan berbagi pembelajaran robot antara 22 robot berbeda di 21 laboratorium penelitian berbeda.
Tantangan utama dalam strategi Kecerdasan Fisik adalah tidak tersedianya skala data robot yang sama untuk pelatihan dibandingkan dengan model bahasa besar dalam bentuk teks. Jadi perusahaan harus menghasilkan datanya sendiri dan menemukan teknik untuk meningkatkan pembelajaran dari kumpulan data yang lebih terbatas. Untuk mengembangkan π0, perusahaan menggabungkan apa yang disebut model bahasa visi, yang dilatih pada gambar dan teks, dengan pemodelan difusi, sebuah teknik yang dipinjam dari pembuatan gambar AI, untuk memungkinkan pembelajaran yang lebih umum.
Agar robot dapat melakukan tugas robot apa pun yang diminta seseorang, pembelajaran semacam itu perlu ditingkatkan secara signifikan. “Perjalanan masih panjang, namun kami memiliki sesuatu yang dapat Anda anggap sebagai perancah yang menggambarkan hal-hal yang akan datang,” kata Levine.