Nvidia представила ИИ-фреймворк для самостоятельного обучения роботов

Nvidia представила ИИ-фреймворк для самостоятельного обучения роботов

NVIDIA Искусственный Интеллект Новости роботы 18.06.2026

Вот перефразированная версия новости на русском языке:

Nvidia, Университет Карнеги-Меллон и Калифорнийский университет в Беркли представили ENPIRE — систему, которая позволяет ИИ-агентам самостоятельно улучшать алгоритмы управления роботами на реальном оборудовании.

Работа построена по замкнутому циклу: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное положение, а ИИ-агент анализирует ошибки, переписывает код и запускает новую серию тестов.

Как устроен ENPIRE

Обучение на реальных роботах — дорогой и медленный процесс. После неудачи нужно вручную восстанавливать сцену, проверять результат и корректировать алгоритм. ENPIRE автоматизирует этот процесс, перенося подход AutoResearch в физический мир. Система состоит из четырёх модулей:

— Environment — автоматический сброс сцены, проверка результата, логирование и безопасность.
— Policy Improvement — улучшение политики управления.
— Rollout — тестирование на одном или нескольких роботах.
— Evolution — анализ логов, поиск идей в литературе, изменение инфраструктуры и исправление кода.

После начальной настройки цикл может работать без участия человека. Агент анализирует видео, траектории и функцию награды, выдвигает гипотезы, меняет код и тестирует его на роботе.

Зачем нужны автоматическая проверка и сброс

Ключевая особенность — автоматизация проверки результата и возврата сцены в исходное состояние. Например, в задаче с кабельной стяжкой система использует детектор, сегментационную модель и две камеры, чтобы определить успех без ручной разметки. Автоматический сброс позволяет проводить множество попыток подряд без участия человека.

На первом этапе человек помогает создать постоянные инструменты (процедуру сброса и функцию награды), после чего агент берёт на себя дальнейшее улучшение.

Результаты экспериментов

Систему тестировали на нескольких задачах: толкание T-образного объекта (Push-T), вставка штырей в отверстия диаметром 4 мм (Pin Insertion), установка GPU и работа с кабельной стяжкой. В реальных задачах манипуляции система справлялась в 99% случаев, если агенту давали до восьми попыток с учётом предыдущих ошибок.

В качестве агентов сравнивали Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Тестирование проходило в бенчмарке AutoEnvBench. ENPIRE также превзошёл системы GR00T от Nvidia и CaP-X в симуляторе бытовых задач RoboCasa.

Масштабирование на восемь роботов

Nvidia провела эксперимент с восемью роботизированными станциями, каждая из которых имела свой компьютер и ИИ-агента. Станции обменивались результатами через Git, что ускорило обучение. Переход от одного робота к восьми сократил время освоения Push-T с пяти до двух часов, а Pin Insertion — с 90 до 40 минут.

Ограничения

Авторы отмечают, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код или ждут ответа языковой модели, роботы простаивают. С ростом числа роботов увеличивается нагрузка на GPU, но снижается средняя загрузка самих роботов. Также растёт расход токенов из-за чтения логов и координации между агентами.

ENPIRE пока протестирован на ограниченном наборе задач и не означает, что роботы могут самостоятельно осваивать произвольные навыки без инженерной подготовки.

Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — референс-дизайн для разработки навыков гуманоидных роботов, а Unitree показала «первого в мире готового к серийному производству» пилотируемого робота.