DeepMind представила универсальную модель искусственного интеллекта, известную как RT-X, предназначенную для помощи роботам в освоении новых навыков.

Это может означать, что в области робототехники пришло время, сравнимое с появлением ImageNet для компьютерного зрения и обработки изображений.

RT-X представляет собой крупнейший сбор данных о роботах с открытым исходным кодом, охватывающий информацию от 33 институтов, 22 типов роботизированного оборудования, 527 навыков и 1 миллион эпизодов. Это огромный ресурс для обучения роботов.

Главной причиной того, что робототехника отстает в развитии по сравнению с другими областями искусственного интеллекта, такими как обработка естественного языка (Natural Language Processing, NLP) и компьютерное зрение, является нехватка данных. В отличие от текста, изображений и видео, данные для обучения роботов намного сложнее получить, так как их не так просто найти в интернете.

Около 11 лет назад ImageNet стала ключевой в революции глубокого обучения. За последние 3-4 года данные в масштабе Интернета способствовали появлению первых фундаментальных моделей, таких как GPT и модели-диффузии.

2023 год может стать годом расширения робототехники благодаря усилиям, направленным на создание данных и моделей, таких как RT-X и VIMA от Nvidia. RT-X представляет собой попытку объединения исследователей из разных уголков мира для решения этой огромной задачи.

Робототехника может стать последним «Святым Граалем», который будет достигнут в области искусственного интеллекта, и хотя путь еще долог, шаги в правильном направлении уже сделаны.