Эксклюзивное интервью с Хэ Тайраном, инициатором проекта OmniH2O: исследование возможного пути телеоперации гуманоидных роботов, который приведет к воплощению интеллекта
Эксклюзивное интервью с Хэ Тайраном, инициатором проекта OmniH2O: исследование возможного пути телеоперации гуманоидных роботов, который приведет к воплощению интеллекта

Самые сильные модели роботов должны иметь более одного источника данных.

Автор: Рао Шувэй

Монтажер丨Цен Фэн

«Иметь и то, и другое» — это амбиции и решимость Хэ Тайрана.

Говоря о возможных путях телеоперации робота-гуманоида, Хэ Тайран сказал, что он может не только добиться полного контроля над роботом, но и использовать для этого обучение с подкреплением. На пути, который он исследует, нет необходимости идти на компромисс из-за технических проблем или краткосрочных целей. Вы можете «иметь и то, и другое».

Телеоперация, то есть удаленная работа (Teleoperation). В сфере робототехники люди используют определенное оборудование для управления роботами для выполнения различных действий по инструкциям, тем самым собирая данные обучения роботов и предоставляя данные для последующего автоматизированного обучения. Поэтому дистанционное управление роботами является неизбежной частью почти каждой робототехнической компании.

Хотя потенциал рынка безграничен, по мнению Хэ Тайрана, нынешняя область все еще ограничена техническими трудностями и не достигла быстрого развития. Теперь появление воплощенного интеллекта придало этой области новую жизнь.

Примерно в 2015 году в области искусственного интеллекта произошел серьезный сдвиг от исследовательской парадигмы «перцептивного интеллекта» к «когнитивному интеллекту». Внедрение инновационных архитектур, таких как ResNet и Transformer, не только способствовало скачку технологий глубокого обучения, но и заложило основу для появления больших моделей. Большие модели с их беспрецедентной вычислительной мощностью и возможностями обработки данных значительно расширили границы машинного обучения при выполнении сложных задач, особенно в таких ключевых областях, как обработка естественного языка и компьютерное зрение. Эти технологические достижения заложили прочную алгоритмическую основу для улучшения восприятия, принятия решений и возможностей взаимодействия роботов.

Благодаря этому эксперты и ученые в области обработки естественного языка, компьютерного зрения и машинного обучения вместе с исследователями в области робототехники стали ключевой силой, возглавляющей эту волну развития воплощенного интеллекта. Они подталкивают воплощенный интеллект к постоянному преодолению границ и развитию в более разумном и гуманном направлении.

Хотя воплощенный интеллект считается важным направлением будущих исследований в области искусственного интеллекта, его развитие все еще находится в зачаточном состоянии и сталкивается с проблемами в технологиях, регулировании, безопасности и других аспектах. Как и в эпоху, когда автомобили впервые появились более ста лет назад, нам срочно необходимо открыть уровни от восприятия до познания и создать более крупную и унифицированную систему.

На этом фоне зародился проект OmniH2O. Его инициатор, Хэ Тайран, является докторантом Университета Карнеги-Меллон (CMU), а команда из девяти человек, включая его, представляет собой целую команду. Под руководством и помощью руководителей доктора Хэ Тайрана Ши Гуаньи и Лю Чанлю, а также его предыдущего руководителя в Шанхайском университете Цзяо Тонг Чжан Вэйнаня, OmniH2O не только продемонстрировал дистанционное управление всем телом и возможности автономного обучения полноразмерного робота-гуманоида. , но также продемонстрировал естественность управления роботом-гуманоидом и улучшение гибкости.

В основе проекта OmniH2O лежит подход, основанный на обучении, который обеспечивает множество способов управления роботами-гуманоидами, используя кинематические позы в качестве общего интерфейса управления. Ключевым вкладом проекта является разработка комплексной стратегии всего тела, которая координирует движения верхней и нижней части тела для поддержки ловких манипуляций и уверенных движений. Кроме того, проект OmniH2O также выпустил первый набор данных для управления всем телом робота-гуманоида, OmniH2O-6, который содержит шесть ежедневных задач и демонстрирует возможности обучения навыкам всего тела робота-гуманоида посредством этих задач.

В эксклюзивном интервью AI Technology Review с доктором Хэ Тайраном мы получили более глубокое понимание первоначального замысла проекта OmniH2O, его инновационных моментов и его потенциального влияния в области воплощенного интеллекта. Доктор Хе рассказал, как его команда добилась сбора данных и обучения с помощью телеоперации, раскрывая потенциал гуманоидных роботов, а также обсудил проблемы и решения, возникшие в этом процессе.

Ниже приводится обзор технологии искусственного интеллекта Хэ Тайрана. OmniH2O Из-за нехватки места стенограмма интервью проекта была отредактирована AI Technology Review без изменения исходного смысла:

1. Больше никаких удаленных операций «начиная с нуля».

Обзор технологий искусственного интеллекта: Каково позиционирование проекта OmniH2O в экологической цепочке в области воплощенного интеллекта?

Он Тайран:Наша работа сама по себе является подтверждением концепции(Proof of Концепция) позиционирования. С помощью этого проекта я хочу доказать, что люди могут VR Очки или другие устройства, такие как RGB Камеры удаленно управляют роботом-гуманоидом, собирая данные и позволяя ему выполнять повседневные задачи.

В процессе мы также надеемся сделать некоторые новые открытия, например, как сделать контроль и автономию лучше, надежнее и умнее. Но я думаю, что нам нужна помощь отрасли в этом отношении, чтобы оптимизировать и модернизировать всю систему. В одиночку нашим академическим лабораториям сложно довести этот вопрос до крайности. Поэтому я называю эту работу просто доказательством концепции.

Обзор технологий искусственного интеллекта: Почему вы выбрали роботов-гуманоидов в качестве носителя для исследований в области телеопераций?

Он Тайран:Потому что все конструкции в этом мире созданы с учетом формы человеческого тела и моделей активности.,Только человеческий облик робота,могут быть легко интегрированы в наш физический мир.

Кроме того, в процессе дистанционного управления роботом для обучения и тренировок из-за сходства строения тела стоимость обучения гуманоидных роботов с дистанционным управлением является самой низкой, что также является одним из ключевых факторов. Человеческий мозг — самая мощная модель для предварительного обучения. Мы можем извлечь когнитивные и контрольные возможности человеческого мозга для обучения роботов-гуманоидов. Таким образом, мы можем напрямую поделиться опытом человеческого мира с роботом для дистанционного управления. Необходимо начинать с нуля и тренироваться с нуля.

Обзор AI Technology: Итак, почему бы вам выбрать VR-шлем для дистанционного управления?

Он Тайран:В то время его также использовали RGB камера, от какой-то 2D Изображение восстановлено в 3D Оценить позу человека, выполнить телеоперацию с этими данными, а затем передать их в tracking В политике этот метод осуществим, но точность и надежность не так хороши, как метод с креплением на голове. VR. Некоторые другие, лучшие interface (например, оборудование для захвата движения или полнотелые экзоскелеты) слишком дороги и нерентабельны.

Позже мы обнаружили, что использование очков VR — это хороший баланс между ценой и практичностью. У него есть два уникальных преимущества. Во-первых, это сам дисплей, который можно полностью заменить на ракурс робота, что делает его более интуитивным, чем другие устройства. Во-вторых, очки VR позволяют очень точно отслеживать и оценивать положение головы и рук. Например, Apple довела это до крайности. В каждой руке по 25 очков. Как это выглядит? Каковы соответствующие углы? Apple Vision Pro может прогнозировать с большой точностью. Поэтому идеально использовать это устройство для удаленного управления.

Поэтому на данный момент мы считаем, что VR — это хорошее направление, но если в будущем появится лучшее оборудование, мы также будем использовать лучшее и более подходящее оборудование для телеоперации и обучения.

Комментарий AI Technology: После появления ChatGPT, будете ли вы рассматривать возможность подключения ChatGPT к OmniH2O для достижения автономной работы?

Он Тайран:Фактически, открытость означает возможность подобных GPT-4o Такие большие модели на замену людям-телеоператорам. Однако какое бы устройство ни использовал человек-телеоператор, в нисходящий поток передается стратегия управления роботом-гуманоидом, то есть положения некоторых ключевых точек (голова/руки/пальцы) робота-гуманоида. Я думаю, что если стратегия управления нисходящим потоком реализована хорошо, то не имеет особого значения, из чего исходит верхний поток.

Если мы хотим использовать GPT-4o для удаленного управления, мы можем использовать камеру на голове робота-гуманоида, чтобы передавать то, что он видит, на GPT-4o в реальном времени и сообщать ему, что теперь делать. Но в настоящее время, если GPT-4o разрешено напрямую выполнять инструкции, время его ответа слишком велико, поэтому мы позволяем GPT-4o выбирать действия вместо того, чтобы принимать полностью автономные решения. Я думаю, что это наиболее осуществимо для текущего решения.

Конечно, я думаю, что в будущем модели языка видения, такие как GPT-4o, определенно добьются большого прогресса. К тому времени не будет необходимости загружать в облако, не будет задержек в сети, и логический вывод можно будет выполнять по сети. собственное устройство робота. В это время нет необходимости задавать вопросы с несколькими вариантами ответов, достаточно просто писать вопросы.

Обзор AI Technology Review: С какими промышленными компаниями вы в настоящее время контактируете и сотрудничаете? Как бы вы представили этот проект, когда связались с ними?

Он Тайран:Сейчас у меня мало контактов с индустрией.,Обычно мы являемся пользователями в промышленности. Потому что наша лаборатория купит роботов у Юшу или других компаний. Я думаю, для каждой компании,Телеоперация гуманоидов является неотъемлемой частью. Сейчас в академических кругах много достижений,Из UCSD, Цинхуа, Стэнфорда и CMU.,Я считаю, что в будущем в отрасли произойдет достаточно зрелая интеграция решений.

Но сейчас у многих компаний есть более или менее компромиссы в процессе телеуправления роботами. Они либо управляют верхней и нижней частью тела отдельно, а не всем телом, либо некоторые компании предпочитают более стабильные и зрелые традиционные методы управления и не делают выбор в пользу усиления. обучение. То, что мы делаем сейчас, — это донести до отрасли сообщение: телеоперация робота-гуманоида может выполнять как управление всем телом, так и обучение с подкреплением, а также может достичь хорошей степени завершенности.

2. Самые ценные данные — самые редкие.

Обзор технологий искусственного интеллекта: как вы решаете некоторые технические препятствия, возникающие при дистанционном управлении и автономном обучении?

Он Тайран:Мы не гонимся за одноэтапными решениями。первый,Мы разберем проблему,Например, мы будем использовать хороший interface (VR) для удаленной работы и стратегии отслеживания (слежения) в нисходящем направлении policy) отслеживать перемещения людей. Исходя из этого, мы разделяем эту задачу на задачи физического контроля и когнитивные задачи. На когнитивном уровне вместо этого мы можем использовать телеоперацию.

По моему мнению, границы между двумя разными задачами — телеоперацией и автономным обучением — на самом деле очень размыты. Потому что, по сути, телеоперация позволяет роботам обучаться автономно. И в основе всего этого лежит очень хорошая стратегия контроля. Восходящий поток, исходит ли он от человеческого мозга или от автономного агента, обученного вами, возможен.

Комментарий к технологии искусственного интеллекта. Для развития воплощенного интеллекта сейчас требуются разнообразные наборы данных. Какие наборы данных вы считаете более важными?

Он Тайран:Я думаю, проблема сейчас в том, что каждыйробот Каждая форма имеет своюданныенабор,Но нам сложно интегрировать разные данные. в начале этого года Stanford Опубликованный результат исследования называется UMI , это очень хорошо Manipulation Data пытаться.

Я думаю, что будь то роботизированная рука, похожая на собаку, или роботизированная рука-гуманоид, данными можно делиться. Но роботы-гуманоиды отличаются от чистых манипуляций с роботизированными руками. Я думаю, что помимо рук также очень важны данные ног, талии и других частей.

Комментарий по технологии искусственного интеллекта: мы знаем, что помимо удаленного управления данные также можно получить с помощью моделирования. Как вы думаете, в какой степени 3D-моделирование может решить проблемы с данными?

Он Тайран:Я думаю, что это будет решено в значительной степени。Это потому, что нам не хватаетроботв реальном миреданные,Вот почему необходимо моделирование. Хотя возможно, что данные, полученные с помощью моделирования, не столь точны.,Но может обеспечить достаточно хорошие стартовые данные. Я считаю, что это лучшая система для будущего,Он определенно не будет обучаться только на одном виде данных.

Как клише, ценность данных можно сравнить со структурой пирамиды. Наиболее доступные данные моделирования симулятора находятся на самом низком уровне, который бесконечен и примерно верен, данные на самом высоком уровне являются наиболее редкими, но также и самыми редкими; имеет наивысшую ценность. Лучшим алгоритмом или самой мощной моделью робота в будущем обязательно станет тот, который идеально интегрирует различные источники данных.

Обзор технологий искусственного интеллекта: какие задачи включает в себя набор данных этого проекта? Каких целей миссии вы надеетесь достичь в будущем?

Он Тайран:данныенабор包含了 6 задача. Первый — бокс. Как тренер, я должен уметь распознавать и выполнять указания по цвету перчаток и ударам левой и правой стороны.

Второй — игра в «камень, ножницы, бумага». После ввода правил игры он может научиться побеждать в «камень, ножницы, бумага», пройдя несколько тренировок.

Третий — о том, как приседать, чтобы избежать препятствий. Устанавливаем автоматическое устройство с длинной деревянной перекладиной, чтобы постоянно приближаться к роботу-гуманоиду. Если робот не сможет научиться приседать, чтобы избежать его, его будут постоянно бить.

Четвертое и пятое задания — это задачи на захват. Робот хватает предмет правой рукой и кладет его на коробку, а затем левой рукой возвращает его на исходное место. Этот процесс повторяется с левой и правой рукой. .

Шестое задание — выбросить мусор. Например, если мы передаем мусор роботу-гуманоиду, он должен научиться самостоятельно захватывать его и выбрасывать в мусорное ведро.

В будущем мы надеемся улучшить управление и повысить эффективность, надежность и точность действий. Таким образом, эффективность сбора данных будет выше, и мы будем собирать больше данных в сценах повседневной жизни.

Обзор технологий искусственного интеллекта: Насколько, по вашему мнению, вышеупомянутые наборы данных далеки от практического применения?

Он Тайран:этотданныенабор虽然包含了 6 Высококачественные данные для каждой задачи, но основной вклад заключается в сборе данных для научных кругов и промышленности, чтобы проверить, могут ли роботы обучаться автономно без телеуправления.

Фактически, этот объем данных составляет менее одного часа рабочих данных. Для реального практического применения может потребоваться сбор данных удаленной работы десятков тысяч людей в течение длительного времени, и точного ответа никто не знает. Я думаю, что промышленность и научные круги должны работать вместе, чтобы ответить на вопрос, как более эффективно собирать и использовать эти данные, а также как спроектировать структуру данных, чтобы максимально эффективно использовать их.

3. Сформируйте маховик данных воплощенного интеллекта

Обзор технологии искусственного интеллекта: Когда вы заинтересовались областью телеуправления роботами-гуманоидами? На каком этапе у вас возникла идея сделать проект OmniH2O?

Он Тайран:Меня интересует этот научно-фантастический фильм с детства.《Железный кулак》началось。В этом фильме рассказывается история людей, работающих телеоператором.роботзаменить себя в боксерских поединках в будущем。после просмотра фильма,Семена были посажены в моем сердце,Надеюсь, в будущем мне удастся спроектировать систему роботов для фильма.

Я получил степень бакалавра в Шанхайском университете Цзяо Тонг, а затем в августе 2023 года приехал в CMU, чтобы начать докторскую карьеру. Именно здесь я официально начал подготовку к проекту OmniH2O. После поступления в КМУ я обсудил эту идею со своим научным руководителем, профессором Ши Гуаньей. Помимо соображений личного интереса, реализация проекта OmniH2O имеет и определенное исследовательское значение. Этот проект может использовать технологию телеуправления для сбора данных, которые приводят в движение маховик робота.

Потому что в области компьютерного зрения и обработки естественного языка корпуса можно найти в виде данных через Интернет и другие методы, а вот в области робототехники в настоящее время нет готовых данных для получения. Я думаю, что телеоперация может быть использована в качестве решения, позволяющего людям управлять роботом для выполнения некоторых важных повседневных задач, тем самым собирая данные и начиная первый шаг в разработке автоматической версии робота, а затем позволяя автоматической версии робота выполнять итерацию. больше данных. Сформируйте маховик данных. Я думаю, что именно таким образом можно действительно реализовать воплощенный интеллект.

Обзор AI Technology Review: Каковы, по вашему мнению, основные аспекты прогресса роботов за последние десять лет?

Он Тайран:Фактически за последние десять летроботпрорыв,По сравнению с AI Другие области все еще далеки от адекватных. Честно говоря, я думаю, что главный прорыв в робототехнике произойдет благодаря AI Прогресс в других сообществах.

Область робототехники в основном делится на восприятие, планирование и управление. Я думаю, что первое важное достижение — это восприятие, а второе — аппаратное обеспечение. Например, робот-гуманоид отечественной компании Yushu недорог и имеет очень хорошие характеристики.

Кроме того, с точки зрения контроля я вижу потенциал обучения с подкреплением в управлении роботами. Десять лет назад количество специалистов в мире, способных заставить робота-гуманоида ходить, можно было пересчитать по пальцам. Теперь, поскольку после AlphaGo глубокое обучение с подкреплением добилось большого прогресса, сложность этой задачи значительно снизилась.

Кроме того, поддержка чипов также очень помогает. Если вы просто используете один поток для запуска симулятора на ЦП, вы не сможете управлять роботом с той же скоростью. Но тренажерный зал Isaac от NVIDIA, включая Mujoco3, может одновременно запускать тысячи или даже десятки тысяч сред и выполнять сотни тысяч или даже миллионы шагов в секунду, что раньше было невообразимо.

Поэтому я думаю, что прогресс в робототехнике за последнее десятилетие стал результатом когнитивных возможностей компьютерного зрения, достижений в алгоритмах обучения с подкреплением, а также достижений в робототехническом оборудовании и высокопараллельных средах моделирования на графических процессорах.

Обзор AI Technology Review: Что вы думаете об исследователях из разных областей, участвующих в исследованиях в области воплощенного интеллекта?

Он Тайран:Я думаю, это хорошая вещь。Если человек разбирается только в компьютерном зрении или понимает толькообучение с подкреплением、NLP,Тогда невозможно достичь воплощенного разума. Независимо от контроля конструкции системы,Или интеллектуальное соединение более высокого уровня?,Как реализовать оптимальную роботизированную систему, должен обсудить каждый.

В ходе обсуждения то, как люди с разным исследовательским опытом думают о проблемах, какие хорошие решения у них есть, есть ли в их основе какая-то общая логика, которая может сделать роботов лучше и т. д., может вызвать разные искры. Например, мы изучили закон масштабирования из ChatGPT. Чем больше данных, тем больше модель и тем выше производительность. Но как нам применить тот же закон масштабирования в области робототехники? Как нам получить данные такого масштаба? Как нам получить роботизированную версию GPT? Мне очень нравятся области исследований, где ни у кого нет однозначных ответов. У всех разный опыт, но всех объединяет общая вера в исследовательскую проблему — сделать роботов лучше и сделать жизнь каждого лучше.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose