SUMATERA UTARA — Angka fantastis itu diungkap langsung oleh Dr. Xianming Liu, Kepala Pusat Intelijen Umum Xpeng, dalam wawancara dengan Electrek. Pengeluaran ini dilakukan di tengah persaingan sengit industri otonom global. Menurut Liu, investasi besar ini adalah kunci untuk mengejar bahkan melampaui kemampuan Tesla.
Bahasa Adalah Racun bagi Sistem Otonom
Liu dikenal dengan pernyataan kontroversialnya: "language is poison" atau bahasa adalah racun. Dalam wawancara tersebut, ia menjelaskan bahwa pernyataan itu merujuk pada arsitektur anyar Xpeng, VLA (Vision-Language-Action) 2.0. Generasi pertama VLA masih menggunakan bahasa sebagai jembatan—melihat jalan, menerjemahkannya ke representasi bahasa, lalu mengubahnya menjadi aksi.
"Selama berkendara, kami tidak mengeluarkan token bahasa apa pun karena itu menjadi redundansi atau hambatan model," tegas Liu. Sistem otonom menelan sekitar dua miliar token visual per detik dari kamera, tetapi hanya butuh 10-20 token untuk mengendalikan setir dan pedal. Menambahkan langkah penerjemahan bahasa di tengah hanya menambah komputasi dan latensi yang tidak perlu.
Meski begitu, Xpeng tidak sepenuhnya meninggalkan bahasa. Sistem masih menerima bahasa sebagai masukan—berupa perintah suara dari pengemudi. "Kami masih memanfaatkan bahasa sebagai input, ini kunci untuk meningkatkan generalisasi," imbuhnya.
World Model: Sisi Lain dari Koin yang Sama
Dalam pidato utamanya di CVPR 2026 Denver, Liu memperkenalkan world model Xpeng. Ia menegaskan model ini bukan teknologi terpisah dari VLA, melainkan "sisi lain dari masalah yang sama." Jika VLA 2.0 belajar dari perilaku jutaan pengemudi manusia, world model mempelajari fisika lingkungan—memprediksi pergerakan objek lain dan konsekuensi dari setiap aksi.
"Orang mencoba memisahkan world model dan VLA sebagai dua dimensi teknologi, padahal sebenarnya mereka sama," kata Liu. Xpeng kini melatih VLA 2.0 untuk memprediksi apa yang akan dilihat kamera dalam waktu dekat sekaligus apa yang harus dilakukan mobil. Pembaruan ini dijadwalkan hadir di mobil produksi tahun ini.
Radar Hanya untuk Keselamatan Aktif
Xpeng kerap memasarkan sistem otonomnya sebagai "pure vision" atau murni kamera. Namun model terbaru seperti P7+ dan G7 masih membawa tiga radar gelombang milimeter dan dua belas sensor ultrasonik. Liu menjelaskan sensor-sensor itu tidak terhubung ke sistem AI utama.
"Kami memanfaatkan sensor lain untuk sistem keselamatan aktif yang membutuhkan sistem ortogonal yang sepenuhnya redundan dengan sistem berkendara utama," jelas Liu. Radar dan ultrasonik hanya menggerakkan AEB (pengereman darurat otomatis) dan AES (setir darurat otomatis)—lapisan keselamatan terpisah dari sistem otonom utama yang murni mengandalkan kamera.
Alasannya sederhana: kamera memiliki kepadatan informasi dan kecepatan baca yang lebih baik. "Waktu baca kamera hanya beberapa milidetik, frekuensinya sangat tinggi. Dari segi kepadatan informasi, kamera adalah salah satu sensor terbaik," pungkas Liu.