back to top
9.7 C
Европа
Суббота, 27 сентября, 2025

Apple обучает роботов с помощью видео с Apple Vision Pro

В новом исследовании под названием “Humanoid Policy H Human Policy” команда Apple в сотрудничестве с MIT, Carnegie Mellon, Вашингтонским университетом и Калифорнийским университетом в Сан – Диего предложила уникальный подход к обучению роботов-гуманоидов-с помощью видео от первого лица, записанных людьми, выполняющими повседневные действия. Для съемки использовали гарнитуру Apple Vision Pro.

Робот учится, глядя, как это делает человек

Идея проста: если человек выполняет определенное действие, его можно зафиксировать с точки зрения первого лица, а затем передать работу – и тот повторит увиденное. В ходе исследования ученые собрали более 25 000 демонстраций человеческих действий и 1500 примеров роботизированных действий, создав масштабный датасет PH2D. Этот набор данных использовался для обучения единой модели управления реальным гуманоидным роботом.

как собрали данные быстро и экономно

Для сбора видеоданных команда создала специальное приложение для Apple Vision Pro, которое использовало нижнюю левую камеру гарнитуры и ARKit для отслеживания движений головы и рук. Чтобы снизить затраты, исследователи также распечатали 3D-крепление, которое позволило установить камеру Zed Mini Stereo на другие устройства, такие как Meta Quest 3. это обеспечило аналогичное качество трекинга, но по гораздо более низкой цене.

Такой подход позволил получать качественные демонстрации за считанные секунды – намного быстрее и дешевле, чем при традиционном ручном управлении роботами.

движения людей-в замедленном темпе для роботов

Поскольку роботы движутся медленнее, чем люди, исследователи замедлили видео человеческих действий в 4 раза. Это позволило роботам учиться в удобном для них ритме без необходимости дополнительной обработки.

Модель HAT: универсальная политика действий

Центральным элементом исследования стала модель Human Action Transformer (HAT), которую тренировали на смешанных данных – как от людей, так и от роботов – в едином формате. Вместо разделения на “человеческие” и “роботизированные” действия, HAT обучается общей политике, которая подходит для любого типа “тела”. Это обеспечивает гибкость и высокую эффективность.

В тестах подход показал отличные результаты: роботы успешно выполняли даже те задачи, с которыми раньше не сталкивались, превосходя традиционные методы обучения.

Apple обучает роботов с помощью видео с Apple Vision Pro

PH2D: новый стандарт робототехники

PH2D стал одним из крупнейших и самых универсальных наборов данных в области обучения роботов. Исследование Apple и партнеров демонстрирует, как использование видео с гарнитур и современных моделей ИИ может революционизировать подход к обучению гуманоидов, делая его быстрым, доступным и масштабируемым.

- Реклама -