За последние несколько лет базовые модели изменили ландшафт исследований в области обработки естественного языка (NLP) и компьютерного зрения (CV). Итак, какие возможности базовые модели могут принести в робототехнику? Возможно, в этом обзоре есть ответы, которые вы ищете.
Роботы — это технология с безграничными возможностями, особенно в сочетании с интеллектуальными технологиями. Ожидается, что большие модели, которые в последнее время стали основой многих преобразующих приложений, станут интеллектуальным мозгом роботов, помогая роботам воспринимать и понимать мир, а также принимать решения и планировать.
Недавно совместная команда под руководством Йонатана Биска из CMU и Фэй Ся из Google DeepMind опубликовала обзорный отчет, знакомящий с применением и разработкой базовых моделей в области робототехники. Первым автором отчета является Яфэй Ху, аспирант четвертого курса КМУ, чьи исследования сосредоточены на пересечении робототехники и искусственного интеллекта. С ним сотрудничает Квантин Се, который занимается исследованием воплощенного интеллекта с помощью базовых моделей.
Название диссертации: На пути к роботам общего назначения с помощью фундаментальных моделей: исследование и метаанализ
Адрес статьи: https://arxiv.org/abs/2312.08782.
Разработка роботов, способных автономно адаптироваться к различным средам, всегда была мечтой человечества, но это долгий и трудный путь. Раньше системы восприятия роботов, использующие традиционные методы глубокого обучения, обычно требовали большого количества размеченных данных для обучения моделей обучения с учителем, а стоимость разметки больших наборов данных с помощью краудсорсинга была очень высокой.
Кроме того, из-за ограниченных возможностей обобщения классических методов контролируемого обучения для развертывания этих моделей в конкретных сценариях или задачах эти обученные модели часто требуют тщательно разработанных методов адаптации предметной области, которые, в свою очередь, часто требуют дальнейшего сбора данных и маркировки шагов. . Точно так же классические подходы к планированию и управлению роботами часто требуют тщательного моделирования мира, собственной динамики агента и/или динамики других агентов. Эти модели обычно строятся для каждой конкретной среды или задачи, и при изменении условий модель необходимо перестраивать. Это показывает, что производительность миграции классической модели также ограничена.
Фактически, во многих случаях построение эффективных моделей либо слишком дорого, либо просто недоступно. Хотя методы планирования и контроля движений на основе глубокого (подкрепления) обучения помогают облегчить эти проблемы, они по-прежнему страдают от сдвига распределения и снижения способности к обобщению.
Хотя существует множество проблем при разработке роботизированных систем общего назначения, области обработки естественного языка (НЛП) и компьютерного зрения (CV) в последнее время добились быстрого прогресса, включая большие языковые модели (LLM) для НЛП, изображения высокой точности. Генерируемое распространение. модели, мощные визуальные модели и модели визуального языка для задач CV, таких как генерация нулевых или нескольких кадров.
Так называемая «базовая модель» на самом деле представляет собой большую модель предварительного обучения (LPTM). Они обладают мощными визуальными и вербальными способностями. Недавно эти модели также были применены в области робототехники и, как ожидается, предоставят роботизированным системам восприятие открытого мира, планирование задач и даже возможности управления движением. В дополнение к использованию существующих базовых моделей зрения и/или языка в области робототехники некоторые исследовательские группы разрабатывают базовые модели для задач роботов, такие как модели действий для манипулирования или модели планирования движения для навигации. Эти базовые модели роботов демонстрируют сильные возможности обобщения и могут адаптироваться к различным задачам и даже конкретным решениям. Есть также исследователи, которые напрямую используют базовые модели зрения/языка для задач роботов, что показывает возможность интеграции различных модулей робота в единую унифицированную модель.
Хотя базовые модели зрения и языка имеют большие перспективы в области робототехники и разрабатываются новые базовые модели роботов, в области робототехники все еще остается много проблем, которые трудно решить.
С точки зрения практического применения модели часто невоспроизводимы, их невозможно обобщить на различные морфологии роботов (многовоплощенное обобщение) или сложно точно понять, какое поведение в окружающей среде осуществимо (или приемлемо). Кроме того, в большинстве исследований используются архитектуры на основе Transformer, ориентированные на семантическое восприятие объектов и сцен, планирование на уровне задач и контроль. Другие части робототехнической системы менее изучены, например базовые модели мировой динамики или базовые модели, способные выполнять символические рассуждения. Для этого требуются возможности междоменного обобщения.
Наконец, нам также нужны более крупномасштабные реальные данные и высокоточные симуляторы, поддерживающие разнообразные роботизированные задачи.
В этом обзорном документе обобщаются основные модели, используемые в области робототехники, с целью понять, как базовые модели могут помочь решить или облегчить основные проблемы в области робототехники.
В этом обзоре,используется исследователямииз「Базовая модель для роботов(foundation models for Термин робототехника охватывает два аспекта:
(1) Существующие (в основном) модели зрения и языка для роботов, в основном посредством нулевого и контекстного обучения;
(2) Использовать данные, сгенерированные роботами, для разработки и использования роботизированных моделей для решения роботизированных задач.
Они обобщили базовую модель для роботизированных методов обработки бумаги и провели метаанализ этих экспериментальных результатов.
Общая структура обзора
Чтобы помочь читателям лучше понять содержание этого обзора, команда сначала предоставляет раздел подготовительных знаний.
Сначала они познакомят с основами робототехники и лучшими современными технологиями. Основное внимание здесь уделяется методам, использовавшимся в области робототехники до эпохи базовых моделей. Вот краткое объяснение, подробности можно найти в оригинальной статье.
Далее команда представит базовые модели и сосредоточится в основном на областях НЛП и CV. В число задействованных моделей входят: LLM, VLM, базовая визуальная модель и модель генерации текстовых условных изображений.
2. Проблемы, с которыми сталкивается сфера робототехники
Пять основных проблем, с которыми сталкиваются различные модули типичной роботизированной системы. На рисунке 3 показана классификация этих пяти проблем.
2.1 обобщать
Роботизированные системы часто испытывают трудности с точным восприятием и пониманием окружающей среды. У них также нет возможности перенести результаты обучения по одной задаче на другую задачу.,Это еще больше ограничивает их практичность в реальном мире. также,Из-за разного оборудования,Также сложно перенести Модель на другую морфологию изробота. Используя База Модель для робота,Проблему обобщать можно частично решить. Что касается различных форм роботобобщать, на этот дополнительный вопрос еще предстоит ответить.
2.2 Нехватка данных
Для разработки надежных моделей роботов решающее значение имеют высококачественные данные в масштабе. Уже предпринимаются усилия по сбору крупномасштабных наборов данных из реального мира, включая автономное вождение, траектории работы роботов и т. д. А сбор данных о роботах на основе человеческих демонстраций обходится дорого. Однако процесс сбора достаточных и обширных данных в реальном мире еще больше усложняется разнообразием задач и сред. Существуют также проблемы безопасности при сборе данных в реальном мире. Кроме того, в реальном мире очень сложно собирать данные в больших масштабах, и еще труднее собирать изображения/текстовые данные в масштабе Интернета, используемые для обучения базовой модели.
Чтобы решить эти проблемы, многие исследовательские усилия пытались создать синтетические данные в смоделированных средах. Эти симуляции могут создать очень реалистичный виртуальный мир, позволяя роботам учиться и использовать свои навыки в практически реальных сценариях. Однако использование моделируемой среды также имеет ограничения, особенно с точки зрения разнообразия объектов, что затрудняет непосредственный перенос полученных навыков в реальные ситуации.
Одним из многообещающих подходов является совместный сбор данных, который объединяет данные из разных лабораторных сред и типов роботов, как показано на рисунке 4а. Однако команда тщательно изучила набор данных варианта реализации Open-X и обнаружила, что существуют некоторые ограничения с точки зрения доступности типов данных.
2.3 Требования к модели и примитивам
Классические методы планирования и контроля обычно требуют тщательного проектирования среды. Раньше стратегии обучались сквозным образом на основе методов обучения (таких как обучение с имитацией и обучение с подкреплением).,Другими словами, да получает управляющий сигнал непосредственно на основе сенсорного ввода.,Это позволяет избежать создания и использования модели. Эти методы могут частично решить проблему явной зависимости от Модельиз.,Но их часто сложно использовать в разных средах и задачах.
Это приводит к двум вопросам: (1) Как научиться хорошо общатьсяиз и моделировать стратегии? (2) Как изучить хорошую модель мира, чтобы можно было применять классические методы, основанные на моделях?
2.4 Характеристики задачи
Чтобы создать агента общего назначения, ключевой задачей является понимание спецификаций задачи и обоснование их в соответствии с текущим пониманием мира роботом. Обычно эти спецификации задач предоставляются пользователем, который имеет лишь ограниченное представление об ограничениях когнитивных и физических возможностей робота. Это поднимает множество вопросов, в том числе, какие лучшие практики можно предложить для этих спецификаций задач и является ли составление этих спецификаций естественным и достаточно простым. Также сложно понять и устранить двусмысленности в спецификациях задач, основываясь на понимании роботом своих возможностей.
2.5 Неопределенность и безопасность
Чтобы развернуть роботов в реальном мире, ключевой проблемой является борьба с неопределенностью, присущей окружающей среде и спецификациям задач. В зависимости от источника неопределенность можно разделить на эпистемическую неопределенность (неопределенность, вызванную недостатком знаний) и случайную неопределенность (шум, присущий окружающей среде).
Затраты на количественную оценку неопределенности (UQ) могут быть слишком высокими для продолжения исследований и приложений.,Это также может помешать оптимальному решению последующих задач. Учитывая массовую чрезмерную параметризацию свойств База Модели,Достичь масштабируемости без ущерба для производительности.,Предоставьте решения для обучения, которые можно сохранить, сводя к минимуму изменения в базовой архитектуре. UQ Метод имеет решающее значение. Разработка роботов, которые могут обеспечивать надежную и достоверную оценку своего поведения и, в свою очередь, разумно запрашивать четко сформулированную обратную связь, остается нерешенной задачей.
Несмотря на недавний прогресс, обеспечение роботам возможности учиться на собственном опыте, чтобы точно настраивать свои стратегии и оставаться в безопасности в новых условиях, остается сложной задачей.
3. Обзор современных методов исследования
В этой статье также резюмируется Базовая модель для роботовиз Современные методы исследования. Команда разделила сферу использования роботов из База Модель на две большие категории: Базовая. модель для роботови Базовая модель робота (RFM)。
Базовая модель для роботов в основном относится к использованию визуального языка База Модель для роботов с нулевой выборкой, что означает, что не требуется никакой дополнительной тонкой настройки или обучения. робот База Модель может использовать визуал - Инициализация предварительной языковой подготовки для горячего старта и / Или обучите модель непосредственно на наборе данных робота.
Детали классификации
В этой части основное внимание уделяется практическому применению базовых моделей зрения и языка в области робототехники. В основном это включает в себя развертывание VLM с нуля в приложениях для восприятия роботов с использованием возможностей контекстного обучения LLM для планирования на уровне задач и движений и генерации действий. На рисунке 6 показаны некоторые репрезентативные исследовательские работы.
3.2 Базовая модель робота (RFM)
По мере роста наборов данных по робототехнике, содержащих пары «состояние-действие» реальных роботов, категория «Фундаментальная модель робота» (RFM) также становится все более и более вероятной на успех. В этих моделях используются роботизированные данные для обучения модели решению роботизированных задач.
Исследовательская группа обобщает и обсуждает различные типы RFM. Первый — это RFM, который может выполнять определенный тип задачи в одном модуле робота, который также называется базовой моделью одноцелевого робота. Например, RFM может генерировать действия низкого уровня для управления роботом или моделями, которые могут генерировать планирование движения более высокого уровня. В статье также будут представлены RFM, которые могут выполнять задачи в нескольких модулях роботов, то есть универсальные модели, которые могут выполнять задачи измерения, управления и даже неробототехнические задачи.
3.3 Как базовые модели могут помочь решить проблемы робототехники?
В предыдущей статье перечислены пять основных проблем, стоящих перед областью робототехники. Здесь мы опишем, как базовые модели могут помочь решить эти проблемы.
Все основные модели, связанные с визуальной информацией (такие как VFM, VLM и VGM), могут использоваться в модуле восприятия робота. LLM, с другой стороны, более универсален и может использоваться для планирования и контроля. Базовая модель робота (RFM) обычно используется в модулях планирования и генерации действий. В таблице 1 обобщены основные модели для решения различных задач робототехники.
Вид с поверхности,все База Модель умеет обобщать различные роботы-модули из задач. Магистр права Особенно хорош в определении задач. С другой стороны, РФМ Хорошо справляется с задачами динамической модели, потому что большинство RFM Вседаникто Модельметод。дляробот С точки зрения восприятия,обобщатьвозможностии Модельиз Проблемыдавзаимное соединениеиз,Потому что, если вы воспринимаете Модель, у вас уже есть очень хорошая способность изобобщать.,Нет необходимости получать дополнительные данные для адаптации домена или дополнительной тонкой настройки.
Кроме того, отсутствуют исследования проблем безопасности, которые могли бы стать важным направлением будущих исследований.
4. Обзор текущих экспериментов и оценок
В этом разделе обобщены текущие результаты исследований наборов данных, тестов и экспериментов.
4.1 Наборы данных и тесты
Существуют ограничения, позволяющие полагаться исключительно на знания, полученные из наборов лингвистических и визуальных данных. Как показывают результаты некоторых исследований, некоторые понятия, такие как трение и вес, нелегко выучить только с помощью этих методов.
Поэтому, чтобы позволить роботизированным агентам лучше понимать мир, исследовательское сообщество не только адаптирует фундаментальные модели из областей языка и зрения, но также продвигает разработку больших и разнообразных мультимодальных наборов данных робототехники для обучения и точной настройки этих моделей.
Эти усилия в настоящее время разделены на два основных направления: сбор данных из реального мира и сбор данных из смоделированного мира и их миграция в реальный мир. Каждое направление имеет свои плюсы и минусы. Наборы данных, собранные из реального мира, включают RoboNet, Bridge Dataset V1, Bridge-V2, Language-Table, RT-1 и т. д. Обычно используемые симуляторы включают Habitat, AI2THOR, Mujoco, AirSim, автономный гоночный симулятор прибытия, Issac Gym и т. д.
4.2 Метаанализ существующих методов
Еще одним важным вкладом команды является метаанализ экспериментов в статьях, упомянутых в этом обзорном отчете, который может помочь прояснить следующие вопросы:
В Таблице 2-7 и на Рисунке 11 представлены результаты анализа.
Некоторые из ключевых наблюдений команды из их метаанализа:
Команда суммировала некоторые проблемы, которые еще предстоит решить, и направления исследований, которые стоит обсудить:
Целью этой статьи является академический обмен. Это не означает, что этот общедоступный аккаунт согласен с его взглядами или несет ответственность за подлинность его содержания. В случае каких-либо нарушений, пожалуйста, сообщите нам. удалите его.