Больше не нужно искать — необходимые
обучающие материалы и подсказки всегда под рукой

Вот перефразированный текст новости на русском языке:
Компания Alibaba анонсировала набор ИИ-моделей Qwen-Robot Suite, предназначенный для роботов и выполнения задач в физическом мире. В набор входят три модели: Qwen-RobotNav отвечает за навигацию, Qwen-RobotManip — за манипуляции с объектами, а Qwen-RobotWorld прогнозирует развитие сцены. Разработчики назвали этот проект «полным стеком для воплощенного искусственного интеллекта».
Речь идет о программных моделях, которые помогают физическим роботам воспринимать окружающую среду, планировать свои действия и выполнять команды на естественном языке. Сейчас Qwen-Robot Suite проходит пилотные испытания у некоторых корпоративных клиентов Alibaba Cloud в сфере робототехники.
Зачем Alibaba выводит Qwen в физический мир
Большие языковые и мультимодальные модели уже умеют работать с текстом, изображениями, видео и речью, но для роботов этого недостаточно. Физическим агентам нужно не только понимать команду, но и переводить ее в движение, учитывать пространство, свойства объектов, ограничения датчиков и последствия своих действий.
Alibaba называет это направление «физическим ИИ» или «воплощенным ИИ». В таком подходе модель должна работать не только с цифровыми данными, но и с физической средой: перемещаться, находить объекты, управлять манипуляторами и предсказывать, что произойдет после действия.
Qwen-RobotNav: пять задач навигации в одной модели
Модель Qwen-RobotNav отвечает за навигацию. Она объединяет пять групп задач:
— следование инструкциям;
— движение к заданной точке;
— поиск объектов;
— отслеживание цели;
— автономное вождение.
По заявлению Alibaba, Qwen-RobotNav построена на базе Qwen3-VL и обучена на 15,6 миллиона примеров, связанных с планированием маршрутов и визуально-языковыми рассуждениями. Компания сообщила о 76,5% успешности на тесте VLN-CE RxR и 90% на EVT-Bench. В Alibaba также отметили, что модель может работать как инструмент для более крупных агентных систем: верхнеуровневая модель планирует задачу, а Qwen-RobotNav отвечает за перемещение.
В демонстрациях Alibaba описывает сценарии вроде поиска потерянного предмета в помещении или проверки, открыт ли конкретный объект в здании. В таких задачах робот должен не просто двигаться, а собирать визуальные доказательства и возвращать ответ пользователю.
Qwen-RobotManip: действия с объектами
Модель Qwen-RobotManip предназначена для физических действий с объектами. Она помогает роботам брать, перемещать и размещать предметы, а также переносить навыки между разными типами устройств.
Одна из ключевых проблем робототехники заключается в том, что роботы описывают действия по-разному. Манипулятор, двуручная платформа, робот с кистью или мобильная система используют разные координаты, суставы и форматы команд. Qwen-RobotManip пытается привести эти данные к общему представлению, чтобы обучение на одном типе робота помогало другому.
Для обучения Alibaba использовала более 38 100 часов данных. В этот объем вошли 11 320 часов открытых робототехнических данных, 1933 часа видео действий человека от первого лица и 24 808 часов синтетических роботических демонстраций, созданных на основе таких видео.
Компания заявила, что модель заняла первое место в RoboChallenge Table30 v1 в треке универсальных моделей. По данным Alibaba, Qwen-RobotManip также показала устойчивость к новым инструкциям, незнакомым объектам и переносу навыков между разными роботами.
Qwen-RobotWorld: модель мира для роботов
Qwen-RobotWorld — это видеомодель мира, управляемая естественным языком. Она прогнозирует, как будет развиваться сцена после заданного действия.
Например, модель получает текущее наблюдение и текстовую команду, а затем генерирует вероятное будущее состояние среды. Такой подход может использоваться для манипуляций, автономного вождения, навигации, планирования и создания синтетических обучающих данных для роботов.
Для обучения Qwen-RobotWorld команда собрала корпус Embodied World Knowledge. Он включает 8,6 миллиона пар «видео-текст» и более 200 миллионов кадров, охватывает более 20 типов роботических платформ и свыше 500 категорий действий.
Alibaba заявила, что Qwen-RobotWorld заняла первое место в EWMBench и DreamGen Bench, а также превзошла все открытые модели в WorldModelBench и PBench. В техническом описании также утверждается, что модель показывает высокую согласованность с базовыми физическими закономерностями — движением, сохранением массы, жидкостями и гравитацией.
До массовых роботов еще далеко
Несмотря на заявленные результаты, Qwen-Robot Suite пока остается набором моделей, а не готовой потребительской робототехнической платформой. Реальное внедрение сталкивается с шумом датчиков, износом приводов, нестандартными ситуациями, ошибками восприятия и огромным числом редких сценариев. Многие тесты, на которых сравнивают такие системы, проводятся в симуляции или в ограниченных экспериментальных условиях.
Alibaba также не раскрыла стоимость доступа, сроки публичного запуска и список клиентов, которые уже тестируют Qwen-Robot Suite.
Напомним, в апреле Alibaba Cloud представила агентную модель Qwen3.6-Plus с контекстным окном в 1 миллион токенов и поддержкой внешних инструментов.
Популярные лонгриды: