NVIDIA, yeni yapay zeka ve simülasyon araçlarıyla robotların el becerisini ve hareketliliğini artıracak. XPENG Robotics ve Hillbot gibi diğer insansı ve genel amaçlı robot geliştiricileri, yüksek çözünürlüklü görüntüleri ve videoları yönetmek için NVIDIA Cosmos belirteçleyicisini kullanıyor.
NVIDIA robot el becerilerini günlük hayata uyarlıyor
Almanya, Münih’te düzenlenen Robot Öğrenme Konferansı’nda (CoRL) açıklanan program, NVIDIA Isaac Lab robot öğrenme çerçevesinin genel kullanılabilirliğini, insansı robot gelişimini hızlandırma girişimi olan Proje GR00T için altı yeni insansı robot öğrenme iş akışını içeriyor. Şirket ayrıca, video işleme için NVIDIA Cosmos tokenizer ve NVIDIA NeMo Curator dahil olmak üzere video verisi küratörlüğü ve işleme için yeni dünya modeli geliştirme araçlarını da duyurdu.
NVIDIA’da bedenli yapay zeka kıdemli araştırma yöneticisi Jim Fan: “İnsansı robotlar bedenli yapay zekanın bir sonraki dalgasıdır” dedi. Şirket, altı yeni GR00T Projesi iş akışının insansı geliştiricilere en zorlu insansı robot yeteneklerini gerçekleştirmeleri için planlar sağladığını iddia etti. Bunlara GR00T-Gen, GR00T-Mimic, GR00T-Dexterity, GR00T-Control, GR00T-Mobility ve GR00T-Perception dahildir.
1X Technologies’de AI başkan yardımcısı olan Eric Jang, NVIDIA Cosmos tokenizer’ın “görsel sadakati korurken” verilerimizin gerçekten yüksek zamansal ve mekansal sıkıştırmasını sağladığını belirtti. Jang: “Bu, uzun vadeli video üretimiyle dünya modellerini daha da hesaplama açısından verimli bir şekilde eğitmemizi sağlıyor” diye ekledi. NVIDIA’ya göre, yüksek kaliteli sıkıştırma ve 12 kata kadar daha hızlı görsel yeniden yapılandırma sağlayan Cosmos tokenizer, geniş bir görsel alan yelpazesinde ölçeklenebilir, sağlam ve verimli üretken uygulamalar geliştirmenin yolunu açıyor.
NeMo Curator artık bir video işleme hattı içeriyor. NVIDIA’ya göre bu, robot geliştiricilerinin büyük ölçekli metin, görüntü ve video verilerini işleyerek dünya modeli doğruluklarını iyileştirmelerini sağlıyor.
Şirket, video verilerinin düzenlenmesinin, GPU’lar arasında yük dengeleme için ölçeklenebilir hatlar ve verimli orkestrasyon gerektirdiği için büyük boyutu nedeniyle zorluklar yarattığını savundu. Ek olarak, filtreleme, altyazı ekleme ve yerleştirme modellerinin verimi en üst düzeye çıkarmak için optimizasyona ihtiyacı var.