ECoT, robotların yeni görev ve ortamlarda karşılaştıkları durumlarla başa çıkma yeteneklerini artırmayı amaçlıyor; insan operatörlere, doğal dil geri bildirimi yoluyla robotların davranışlarını düzeltme imkanı sunuyor.
Vision-language-action (VLA) modelleri, robotlara bir görevi daha iyi anlama yeteneği kazandırmayı amaçlayan güçlü bir eğitim yöntemi olarak ortaya çıktı. Google DeepMind araştırmacıları, Haziran 2023’te yayımlanan bir çalışmada VLA’nın potansiyelini vurguladılar. Ancak, bu modeller genellikle ara mantık olmadan gözlemlerden öğrenirler; bu nedenle daha düşünceli planlama ve uyum gerektiren karmaşık, yeni durumları ele alma kabiliyetleri sınırlıdır.
Araştırmacılar, ECoT’yi geliştirmek için bir temel model ekleyerek robotik mantığı iyileştirmeyi hedeflediler. ECoT için sentetik eğitim verisi oluşturmak amacıyla çeşitli temel modellerden yararlanarak robot demonstrasyonlarından özellikler çıkarmak için ölçeklenebilir bir veri üretim hattı geliştirdiler.
Bu süreçte, nesne dedektörleri ve görüş-dil modelleri kullanılarak robotun bulunduğu ortamın tanımları oluşturuldu ve nesneler gibi bilgiler açıklandı. ECoT, OpenVLA’nın mutlak başarı oranını %28 artırdı. Ancak, ECoT’nin sabit bir sırada mantık adımları gerçekleştirmesi, robotun dinamik olarak değişen ortamlarda esnekliğini ve uyum yeteneğini sınırlayabilir.
Araştırmacılar, ECoT’yi daha geniş bir veri kümesiyle iyileştirmenin ve daha fazla robota uygulamanın yollarını aramakta. Ayrıca, kontrol frekanslarını optimize ederek işlemleri hızlandırmayı amaçlıyorlar. Temel modeller, robotların genel amaçlı görevleri yerine getirme potansiyelini artırarak robotik araştırmacılar için giderek daha fazla ilgi çekici bir alan haline geliyor.
Skild AI adlı bir girişim, bu araştırma alanını robotik eğitim maliyetlerini düşürmenin bir yolu olarak kullanmayı umuyor. Skild, görsel denetim ve devriye görevleri için otomasyon çözümlerine temel modeli uygulayarak bu çabalarını finanse etmek için 300 milyon dolar topladı.
ECoT yöntemi, robotların karar verme süreçlerini adım adım düşünerek ve çevrelerini dikkate alarak iyileştirmelerini sağlayarak robotik alanında önemli bir ilerleme sunuyor. Bu yenilikçi yaklaşım, robotların daha karmaşık ve dinamik ortamlarda etkili bir şekilde çalışabilme potansiyelini artırıyor.
Araştırmacılar, ECoT’yi daha geniş veri setleri ve optimize edilmiş kontrol frekansları ile geliştirmeyi planlayarak robotik alanında daha ileri adımlar atmayı hedefliyor.