[Колонка обзора] Обзор пути разработки базовых моделей + роботов.
[Колонка обзора] Обзор пути разработки базовых моделей + роботов.

За последние несколько лет базовые модели изменили ландшафт исследований в области обработки естественного языка (NLP) и компьютерного зрения (CV). Итак, какие возможности базовые модели могут принести в робототехнику? Возможно, в этом обзоре есть ответы, которые вы ищете.

Роботы — это технология с безграничными возможностями, особенно в сочетании с интеллектуальными технологиями. Ожидается, что большие модели, которые в последнее время стали основой многих преобразующих приложений, станут интеллектуальным мозгом роботов, помогая роботам воспринимать и понимать мир, а также принимать решения и планировать.

Недавно совместная команда под руководством Йонатана Биска из CMU и Фэй Ся из Google DeepMind опубликовала обзорный отчет, знакомящий с применением и разработкой базовых моделей в области робототехники. Первым автором отчета является Яфэй Ху, аспирант четвертого курса КМУ, чьи исследования сосредоточены на пересечении робототехники и искусственного интеллекта. С ним сотрудничает Квантин Се, который занимается исследованием воплощенного интеллекта с помощью базовых моделей.

Название диссертации: На пути к роботам общего назначения с помощью фундаментальных моделей: исследование и метаанализ

Адрес статьи: https://arxiv.org/abs/2312.08782.

Разработка роботов, способных автономно адаптироваться к различным средам, всегда была мечтой человечества, но это долгий и трудный путь. Раньше системы восприятия роботов, использующие традиционные методы глубокого обучения, обычно требовали большого количества размеченных данных для обучения моделей обучения с учителем, а стоимость разметки больших наборов данных с помощью краудсорсинга была очень высокой.

Кроме того, из-за ограниченных возможностей обобщения классических методов контролируемого обучения для развертывания этих моделей в конкретных сценариях или задачах эти обученные модели часто требуют тщательно разработанных методов адаптации предметной области, которые, в свою очередь, часто требуют дальнейшего сбора данных и маркировки шагов. . Точно так же классические подходы к планированию и управлению роботами часто требуют тщательного моделирования мира, собственной динамики агента и/или динамики других агентов. Эти модели обычно строятся для каждой конкретной среды или задачи, и при изменении условий модель необходимо перестраивать. Это показывает, что производительность миграции классической модели также ограничена.

Фактически, во многих случаях построение эффективных моделей либо слишком дорого, либо просто недоступно. Хотя методы планирования и контроля движений на основе глубокого (подкрепления) обучения помогают облегчить эти проблемы, они по-прежнему страдают от сдвига распределения и снижения способности к обобщению.

Хотя существует множество проблем при разработке роботизированных систем общего назначения, области обработки естественного языка (НЛП) и компьютерного зрения (CV) в последнее время добились быстрого прогресса, включая большие языковые модели (LLM) для НЛП, изображения высокой точности. Генерируемое распространение. модели, мощные визуальные модели и модели визуального языка для задач CV, таких как генерация нулевых или нескольких кадров.

Так называемая «базовая модель» на самом деле представляет собой большую модель предварительного обучения (LPTM). Они обладают мощными визуальными и вербальными способностями. Недавно эти модели также были применены в области робототехники и, как ожидается, предоставят роботизированным системам восприятие открытого мира, планирование задач и даже возможности управления движением. В дополнение к использованию существующих базовых моделей зрения и/или языка в области робототехники некоторые исследовательские группы разрабатывают базовые модели для задач роботов, такие как модели действий для манипулирования или модели планирования движения для навигации. Эти базовые модели роботов демонстрируют сильные возможности обобщения и могут адаптироваться к различным задачам и даже конкретным решениям. Есть также исследователи, которые напрямую используют базовые модели зрения/языка для задач роботов, что показывает возможность интеграции различных модулей робота в единую унифицированную модель.

Хотя базовые модели зрения и языка имеют большие перспективы в области робототехники и разрабатываются новые базовые модели роботов, в области робототехники все еще остается много проблем, которые трудно решить.

С точки зрения практического применения модели часто невоспроизводимы, их невозможно обобщить на различные морфологии роботов (многовоплощенное обобщение) или сложно точно понять, какое поведение в окружающей среде осуществимо (или приемлемо). Кроме того, в большинстве исследований используются архитектуры на основе Transformer, ориентированные на семантическое восприятие объектов и сцен, планирование на уровне задач и контроль. Другие части робототехнической системы менее изучены, например базовые модели мировой динамики или базовые модели, способные выполнять символические рассуждения. Для этого требуются возможности междоменного обобщения.

Наконец, нам также нужны более крупномасштабные реальные данные и высокоточные симуляторы, поддерживающие разнообразные роботизированные задачи.

В этом обзорном документе обобщаются основные модели, используемые в области робототехники, с целью понять, как базовые модели могут помочь решить или облегчить основные проблемы в области робототехники.

В этом обзоре,используется исследователямииз「Базовая модель для роботов(foundation models for Термин робототехника охватывает два аспекта:

(1) Существующие (в основном) модели зрения и языка для роботов, в основном посредством нулевого и контекстного обучения;

(2) Использовать данные, сгенерированные роботами, для разработки и использования роботизированных моделей для решения роботизированных задач.

Они обобщили базовую модель для роботизированных методов обработки бумаги и провели метаанализ этих экспериментальных результатов.

Общая структура обзора

1. Предварительные знания

Чтобы помочь читателям лучше понять содержание этого обзора, команда сначала предоставляет раздел подготовительных знаний.

Сначала они познакомят с основами робототехники и лучшими современными технологиями. Основное внимание здесь уделяется методам, использовавшимся в области робототехники до эпохи базовых моделей. Вот краткое объяснение, подробности можно найти в оригинальной статье.

  • Основные составляющие роботизма можно разделить на восприятие.、Принятие решений и планирование、Генерация действий состоит из трех частей. Команда разделила восприятие роботов на пассивное восприятие.、Активное зондирование и оценка состояния.
  • существоватьробот Принятие решений и планированиечасть,Исследователи представили классический метод планирования и метод планирования на основе обучения.
  • Существуют также классические методы управления и методы управления на основе обучения для генерации действий машины.

Далее команда представит базовые модели и сосредоточится в основном на областях НЛП и CV. В число задействованных моделей входят: LLM, VLM, базовая визуальная модель и модель генерации текстовых условных изображений.

2. Проблемы, с которыми сталкивается сфера робототехники

Пять основных проблем, с которыми сталкиваются различные модули типичной роботизированной системы. На рисунке 3 показана классификация этих пяти проблем.

2.1 обобщать

Роботизированные системы часто испытывают трудности с точным восприятием и пониманием окружающей среды. У них также нет возможности перенести результаты обучения по одной задаче на другую задачу.,Это еще больше ограничивает их практичность в реальном мире. также,Из-за разного оборудования,Также сложно перенести Модель на другую морфологию изробота. Используя База Модель для робота,Проблему обобщать можно частично решить. Что касается различных форм роботобобщать, на этот дополнительный вопрос еще предстоит ответить.

2.2 Нехватка данных

Для разработки надежных моделей роботов решающее значение имеют высококачественные данные в масштабе. Уже предпринимаются усилия по сбору крупномасштабных наборов данных из реального мира, включая автономное вождение, траектории работы роботов и т. д. А сбор данных о роботах на основе человеческих демонстраций обходится дорого. Однако процесс сбора достаточных и обширных данных в реальном мире еще больше усложняется разнообразием задач и сред. Существуют также проблемы безопасности при сборе данных в реальном мире. Кроме того, в реальном мире очень сложно собирать данные в больших масштабах, и еще труднее собирать изображения/текстовые данные в масштабе Интернета, используемые для обучения базовой модели.

Чтобы решить эти проблемы, многие исследовательские усилия пытались создать синтетические данные в смоделированных средах. Эти симуляции могут создать очень реалистичный виртуальный мир, позволяя роботам учиться и использовать свои навыки в практически реальных сценариях. Однако использование моделируемой среды также имеет ограничения, особенно с точки зрения разнообразия объектов, что затрудняет непосредственный перенос полученных навыков в реальные ситуации.

Одним из многообещающих подходов является совместный сбор данных, который объединяет данные из разных лабораторных сред и типов роботов, как показано на рисунке 4а. Однако команда тщательно изучила набор данных варианта реализации Open-X и обнаружила, что существуют некоторые ограничения с точки зрения доступности типов данных.

2.3 Требования к модели и примитивам

Классические методы планирования и контроля обычно требуют тщательного проектирования среды. Раньше стратегии обучались сквозным образом на основе методов обучения (таких как обучение с имитацией и обучение с подкреплением).,Другими словами, да получает управляющий сигнал непосредственно на основе сенсорного ввода.,Это позволяет избежать создания и использования модели. Эти методы могут частично решить проблему явной зависимости от Модельиз.,Но их часто сложно использовать в разных средах и задачах.

Это приводит к двум вопросам: (1) Как научиться хорошо общатьсяиз и моделировать стратегии? (2) Как изучить хорошую модель мира, чтобы можно было применять классические методы, основанные на моделях?

2.4 Характеристики задачи

Чтобы создать агента общего назначения, ключевой задачей является понимание спецификаций задачи и обоснование их в соответствии с текущим пониманием мира роботом. Обычно эти спецификации задач предоставляются пользователем, который имеет лишь ограниченное представление об ограничениях когнитивных и физических возможностей робота. Это поднимает множество вопросов, в том числе, какие лучшие практики можно предложить для этих спецификаций задач и является ли составление этих спецификаций естественным и достаточно простым. Также сложно понять и устранить двусмысленности в спецификациях задач, основываясь на понимании роботом своих возможностей.

2.5 Неопределенность и безопасность

Чтобы развернуть роботов в реальном мире, ключевой проблемой является борьба с неопределенностью, присущей окружающей среде и спецификациям задач. В зависимости от источника неопределенность можно разделить на эпистемическую неопределенность (неопределенность, вызванную недостатком знаний) и случайную неопределенность (шум, присущий окружающей среде).

Затраты на количественную оценку неопределенности (UQ) могут быть слишком высокими для продолжения исследований и приложений.,Это также может помешать оптимальному решению последующих задач. Учитывая массовую чрезмерную параметризацию свойств База Модели,Достичь масштабируемости без ущерба для производительности.,Предоставьте решения для обучения, которые можно сохранить, сводя к минимуму изменения в базовой архитектуре. UQ Метод имеет решающее значение. Разработка роботов, которые могут обеспечивать надежную и достоверную оценку своего поведения и, в свою очередь, разумно запрашивать четко сформулированную обратную связь, остается нерешенной задачей.

Несмотря на недавний прогресс, обеспечение роботам возможности учиться на собственном опыте, чтобы точно настраивать свои стратегии и оставаться в безопасности в новых условиях, остается сложной задачей.

3. Обзор современных методов исследования

В этой статье также резюмируется Базовая модель для роботовиз Современные методы исследования. Команда разделила сферу использования роботов из База Модель на две большие категории: Базовая. модель для роботови Базовая модель робота (RFM)。

Базовая модель для роботов в основном относится к использованию визуального языка База Модель для роботов с нулевой выборкой, что означает, что не требуется никакой дополнительной тонкой настройки или обучения. робот База Модель может использовать визуал - Инициализация предварительной языковой подготовки для горячего старта и / Или обучите модель непосредственно на наборе данных робота.

Детали классификации

3.1 Базовая модель для роботов

В этой части основное внимание уделяется практическому применению базовых моделей зрения и языка в области робототехники. В основном это включает в себя развертывание VLM с нуля в приложениях для восприятия роботов с использованием возможностей контекстного обучения LLM для планирования на уровне задач и движений и генерации действий. На рисунке 6 показаны некоторые репрезентативные исследовательские работы.

3.2 Базовая модель робота (RFM)

По мере роста наборов данных по робототехнике, содержащих пары «состояние-действие» реальных роботов, категория «Фундаментальная модель робота» (RFM) также становится все более и более вероятной на успех. В этих моделях используются роботизированные данные для обучения модели решению роботизированных задач.

Исследовательская группа обобщает и обсуждает различные типы RFM. Первый — это RFM, который может выполнять определенный тип задачи в одном модуле робота, который также называется базовой моделью одноцелевого робота. Например, RFM может генерировать действия низкого уровня для управления роботом или моделями, которые могут генерировать планирование движения более высокого уровня. В статье также будут представлены RFM, которые могут выполнять задачи в нескольких модулях роботов, то есть универсальные модели, которые могут выполнять задачи измерения, управления и даже неробототехнические задачи.

3.3 Как базовые модели могут помочь решить проблемы робототехники?

В предыдущей статье перечислены пять основных проблем, стоящих перед областью робототехники. Здесь мы опишем, как базовые модели могут помочь решить эти проблемы.

Все основные модели, связанные с визуальной информацией (такие как VFM, VLM и VGM), могут использоваться в модуле восприятия робота. LLM, с другой стороны, более универсален и может использоваться для планирования и контроля. Базовая модель робота (RFM) обычно используется в модулях планирования и генерации действий. В таблице 1 обобщены основные модели для решения различных задач робототехники.

Вид с поверхности,все База Модель умеет обобщать различные роботы-модули из задач. Магистр права Особенно хорош в определении задач. С другой стороны, РФМ Хорошо справляется с задачами динамической модели, потому что большинство RFM Вседаникто Модельметод。дляробот С точки зрения восприятия,обобщатьвозможностии Модельиз Проблемыдавзаимное соединениеиз,Потому что, если вы воспринимаете Модель, у вас уже есть очень хорошая способность изобобщать.,Нет необходимости получать дополнительные данные для адаптации домена или дополнительной тонкой настройки.

Кроме того, отсутствуют исследования проблем безопасности, которые могли бы стать важным направлением будущих исследований.

4. Обзор текущих экспериментов и оценок

В этом разделе обобщены текущие результаты исследований наборов данных, тестов и экспериментов.

4.1 Наборы данных и тесты

Существуют ограничения, позволяющие полагаться исключительно на знания, полученные из наборов лингвистических и визуальных данных. Как показывают результаты некоторых исследований, некоторые понятия, такие как трение и вес, нелегко выучить только с помощью этих методов.

Поэтому, чтобы позволить роботизированным агентам лучше понимать мир, исследовательское сообщество не только адаптирует фундаментальные модели из областей языка и зрения, но также продвигает разработку больших и разнообразных мультимодальных наборов данных робототехники для обучения и точной настройки этих моделей.

Эти усилия в настоящее время разделены на два основных направления: сбор данных из реального мира и сбор данных из смоделированного мира и их миграция в реальный мир. Каждое направление имеет свои плюсы и минусы. Наборы данных, собранные из реального мира, включают RoboNet, Bridge Dataset V1, Bridge-V2, Language-Table, RT-1 и т. д. Обычно используемые симуляторы включают Habitat, AI2THOR, Mujoco, AirSim, автономный гоночный симулятор прибытия, Issac Gym и т. д.

4.2 Метаанализ существующих методов

Еще одним важным вкладом команды является метаанализ экспериментов в статьях, упомянутых в этом обзорном отчете, который может помочь прояснить следующие вопросы:

  1. Над какими задачами работают люди?
  2. Какие наборы данных или симуляторы использовались для обучения Модели? Какие есть платформы для тестирования?
  3. Какую База Модель использует исследовательское сообщество? Насколько он эффективен в решении поставленной задачи?
  4. Какой из этих методов База Модель используется чаще?

В Таблице 2-7 и на Рисунке 11 представлены результаты анализа.

Некоторые из ключевых наблюдений команды из их метаанализа:

  • Реакция исследовательского сообщества на робота Operation Task (Manipulation) изсосредоточиться дисбаланс
  • обобщать Возможности (обобщение) и надежность необходимо улучшить
  • Исследование действий низкого уровня (Low-level Control) очень ограничено.
  • Частота управления слишком низкая(<15Hz),Невозможно использовать в реальном роботе (обычно требуется 100 Гц).
  • Отсутствие унифицированных тестовых тестов (Метрики) и тестовых платформ (Моделирование или Аппаратное обеспечение) очень затрудняет сравнение.

5. Обсуждение и будущие направления

Команда суммировала некоторые проблемы, которые еще предстоит решить, и направления исследований, которые стоит обсудить:

  • Как настроить стандартную Базу (заземление) для воплощения робота?
  • Безопасность и неопределенность?
  • Несовместимы ли сквозной и модульный подходы?
  • Адаптивность к физическим изменениям
  • Метод Модель мира (World Model) или да не имеет ничего общего с методом Модельиз?
  • Новая роботизированная платформа и мультисенсорная информация
  • Продолжить обучение
  • Стандартизация и воспроизводимость (Воспроизводимость)

Целью этой статьи является академический обмен. Это не означает, что этот общедоступный аккаунт согласен с его взглядами или несет ответственность за подлинность его содержания. В случае каких-либо нарушений, пожалуйста, сообщите нам. удалите его.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose