Больше не нужно искать — необходимые
обучающие материалы и подсказки всегда под рукой

Вот перефразированная версия новости на русском языке:
Nvidia, Университет Карнеги-Меллон и Калифорнийский университет в Беркли представили ENPIRE — систему, которая позволяет ИИ-агентам самостоятельно улучшать алгоритмы управления роботами на реальном оборудовании.
Работа построена по замкнутому циклу: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное положение, а ИИ-агент анализирует ошибки, переписывает код и запускает новую серию тестов.
Как устроен ENPIRE
Обучение на реальных роботах — дорогой и медленный процесс. После неудачи нужно вручную восстанавливать сцену, проверять результат и корректировать алгоритм. ENPIRE автоматизирует этот процесс, перенося подход AutoResearch в физический мир. Система состоит из четырёх модулей:
— Environment — автоматический сброс сцены, проверка результата, логирование и безопасность.
— Policy Improvement — улучшение политики управления.
— Rollout — тестирование на одном или нескольких роботах.
— Evolution — анализ логов, поиск идей в литературе, изменение инфраструктуры и исправление кода.
После начальной настройки цикл может работать без участия человека. Агент анализирует видео, траектории и функцию награды, выдвигает гипотезы, меняет код и тестирует его на роботе.
Зачем нужны автоматическая проверка и сброс
Ключевая особенность — автоматизация проверки результата и возврата сцены в исходное состояние. Например, в задаче с кабельной стяжкой система использует детектор, сегментационную модель и две камеры, чтобы определить успех без ручной разметки. Автоматический сброс позволяет проводить множество попыток подряд без участия человека.
На первом этапе человек помогает создать постоянные инструменты (процедуру сброса и функцию награды), после чего агент берёт на себя дальнейшее улучшение.
Результаты экспериментов
Систему тестировали на нескольких задачах: толкание T-образного объекта (Push-T), вставка штырей в отверстия диаметром 4 мм (Pin Insertion), установка GPU и работа с кабельной стяжкой. В реальных задачах манипуляции система справлялась в 99% случаев, если агенту давали до восьми попыток с учётом предыдущих ошибок.
В качестве агентов сравнивали Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Тестирование проходило в бенчмарке AutoEnvBench. ENPIRE также превзошёл системы GR00T от Nvidia и CaP-X в симуляторе бытовых задач RoboCasa.
Масштабирование на восемь роботов
Nvidia провела эксперимент с восемью роботизированными станциями, каждая из которых имела свой компьютер и ИИ-агента. Станции обменивались результатами через Git, что ускорило обучение. Переход от одного робота к восьми сократил время освоения Push-T с пяти до двух часов, а Pin Insertion — с 90 до 40 минут.
Ограничения
Авторы отмечают, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код или ждут ответа языковой модели, роботы простаивают. С ростом числа роботов увеличивается нагрузка на GPU, но снижается средняя загрузка самих роботов. Также растёт расход токенов из-за чтения логов и координации между агентами.
ENPIRE пока протестирован на ограниченном наборе задач и не означает, что роботы могут самостоятельно осваивать произвольные навыки без инженерной подготовки.
Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — референс-дизайн для разработки навыков гуманоидных роботов, а Unitree показала «первого в мире готового к серийному производству» пилотируемого робота.
Популярные лонгриды: