Актуальный и всеобъемлющий обзор воплощенного интеллекта! (начальство)
Актуальный и всеобъемлющий обзор воплощенного интеллекта! (начальство)

Сухая информация Datawhale

Автор: Чжэн Ченгруй, инженер-алгоритм.

‍В последнее время очень популярна концепция воплощенного интеллекта.

Независимо от того, в эти дниZhihuijun робот-гуманоид с открытым исходным кодом, полный набор чертежей + код,Это вызвало бурные дискуссии в кругу.

Существуют также различные воплощенные интеллектуальные продукты, такие как Voxposer Ли Фейфея, RT1 и RT2 Google, RTX Google, Robot Flamingo Bytedance, ACT Стэнфорда и 3D_diffuser_act Карнеги-Меллона, каждый из которых продемонстрировал свою мощь в различных задачах и сценариях, а также возможности и потенциал. добиться революционных перемен.

Так что же такое воплощенный интеллект? Какая в этом польза?

Эта статья поможет вам разобраться.

Эта статья разделена на две части. Следующая часть будет обновлена ​​завтра и будет посвящена взаимодействию человека и компьютера и обсуждениям вопросов разработки.

Эта статья частично ссылается на «Отчет о разработке воплощенного интеллекта», подготовленный Китайской академией информационных и коммуникационных технологий и Пекинской компанией по инновациям в области гуманоидных роботов.

Основные концепции воплощенного интеллекта

Воплощенный интеллект, то есть «воплощенный + интеллект», — это парадигма искусственного интеллекта, которая адаптирует алгоритмы машинного обучения к физическим объектам для взаимодействия с физическим миром. «Программные агенты» (или «агенты вне тела»), представленные ChatGPT, используют большие модели для взаимодействия с пользователями через веб-страницы и мобильные приложения и могут принимать пользователей в различных вариантах голосовых, текстовых, изображений и видеоинструкций для реализации. восприятие окружающей среды, планирование, память и использование инструментов для выполнения сложных задач. На этой основе воплощенный интеллект внедряет большие модели в физические объекты, общается с людьми через датчики, установленные на машине, и подчеркивает взаимодействие между интеллектом и физической средой.

С точки зрения непрофессионала, это значит снабдить умный «разум» искусственного интеллекта «телом». Этим «телом» может быть мобильный телефон или беспилотный автомобиль.

Робот-гуманоид — это носитель, объединяющий различные основные и передовые технологии и являющийся типичным продуктом воплощенного интеллекта.

Три элемента воплощенного интеллекта: онтология, интеллект и окружающая среда.

Есть три элемента воплощенного интеллекта: «онтология», которая является аппаратным носителем; «интеллект», который представляет собой большие модели, голос, изображения, управление, навигацию и другие алгоритмы и «среду», которая представляет собой физический мир; онтология взаимодействует с. Высокая степень связи онтологии, интеллекта и окружающей среды является основой продвинутого интеллекта.

другойсреда Будет дождьдругой Оборудование формыОсновная частьадаптироватьсясреда。Например, плоская площадка в помещении больше подходит для колесных транспортных средств.робот,Пересеченная местность больше подходит для четвероногого использования.робот(робот-собака)。в вариантеразумный Тело исредаво взаимодействии,разумныйалгоритмможет пройтиОсновная частьдатчики, чтобы чувствоватьсреда,делатьпринятие решенийконтролироватьОсновная частьВыполняйте задания действий,тем самым затрагиваясреда。существоватьразумныйалгоритмисредаво взаимодействиивозвращатьсяможет пройти“интерактивное обучение”и Антропоморфное мышление, которому стоит научитьсяиадаптироватьсясреда,тем самым достигаяразумныйрост。

Четыре модуля воплощенного интеллекта: восприятие-решение-действие-обратная связь.

Действие воплощенного агента можно разделить на четыре этапа: «восприятие-решение-действие-обратная связь», которые завершаются соответственно четырьмя модулями и образуют замкнутый цикл.

Модуль восприятия

Модуль восприятия отвечает за сбор и обработку информации.,Чувствуйте и понимайте окружающую среду с помощью нескольких датчиков. на роботе,Общие датчики включают в себя:

1. Камера видимого света: отвечает за сбор цветных изображений.

2. Инфракрасная камера: отвечает за сбор тепловизионных изображений, измерение температуры, ночное видение и перспективу. Инфракрасные камеры способны обнаруживать тепловое излучение, испускаемое объектами, и создавать изображения даже в полной темноте. Эта возможность делает инфракрасные камеры пригодными для ночного видения и тепловидения. Инфракрасные камеры могут измерять температуру поверхностей объектов и широко используются в таких областях, как обнаружение перегрева оборудования, энергоаудит и медицинская визуализация. Некоторые инфракрасные камеры способны проникать сквозь дым, туман и другие препятствия и подходят для экстренного спасения и мониторинга безопасности.

3. Камера глубины: отвечает за измерение расстояния между каждой точкой изображения и камерой и получение информации о трехмерных координатах сцены.

4. LiDAR: отвечает за измерение расстояния и скорости целевых объектов. Путем излучения лазерных импульсов и приема отраженного света рассчитывается расстояние до объекта и генерируются высокоточные трехмерные данные облака точек, которые широко используются в автономном вождении и навигации роботов.

5. Ультразвуковой датчик: отвечает за объезд препятствий. Путем излучения ультразвуковых импульсов и получения отражений этих импульсов определяется расстояние между роботом и препятствием и наличие препятствия.

6. Датчик давления: отвечает за измерение давления рук или ног робота, используется для ходьбы и контроля силы захвата, а также предотвращения препятствий.

7. Микрофон: отвечает за сбор звука.

Кроме того, в зависимости от различных сценариев применения некоторые конкретные датчики также могут использоваться для реализации определенных функций. Например, электронные носы могут обнаруживать газы и используются в сценариях взрывозащиты и мониторинга окружающей среды; датчики влажности могут использоваться в сельскохозяйственных роботах и ​​​​контроле внутренней среды. Понимание окружающей среды: после получения информации об окружающей среде с помощью датчиков роботу необходимо понять окружающую среду с помощью алгоритмов. В некоторых средах, где пространство и сцены относительно стабильны и управляемы, алгоритм не требует сильных возможностей обобщения, поэтому необходимы только модели для конкретных сцен. Например, вы можете использовать YOLO для обнаружения целей и SLAM для навигации и позиционирования. Для изменчивых и незнакомых сцен алгоритм требует сильных возможностей обобщения, поэтому необходимо использовать большую мультимодальную модель для интеграции и оценки множественной информации об окружающей среде, такой как звук, изображение, видео, позиционирование и т. д. Подробно это будет обсуждаться в последующих главах.

Модуль принятия решений (большая модель)

принятие Модуль решений является ядром всей воплощенной разумной системы.,Он отвечает за получение от Модуль Информация об окружающей среде для планирования миссии и обоснования анализа для руководства модулем действия порождают действия. На раннем этапе развития технологии модуль принятия решений в основном полагался на правила ручного программирования и разработки специализированных задач. Однако этим специализированным алгоритмам трудно справиться с динамически меняющимися и неизвестными ситуациями. На основе алгоритма оптимизации проксимальной стратегии (Proximal Policy Optimization, Метод обучения с подкреплением (PPO) и алгоритм Q-обучения демонстрируют большую гибкость принятия решений в таких задачах, как встроенная интеллектуальная автономная навигация, обход препятствий и сбор нескольких целей. Однако эти методы по-прежнему имеют ограничения с точки зрения адаптивности к сложным средам, точности принятия решений и эффективности.

Появление крупных моделей значительно повысило интеллект воплощенных агентов и значительно улучшило их возможности восприятия окружающей среды, голосового взаимодействия и принятия решений. По сравнению с AIGC (контентом, созданным искусственным интеллектом) «программного интеллекта», который генерирует текст, изображения и другой контент из большой модели, а названные инструменты являются функциями; большая модель воплощенного интеллекта представляет собой AIGA (действия, созданные искусственным интеллектом). То есть действия генерируются на основе больших моделей, а используемые инструменты — это части тела, такие как роботизированные руки и камеры. На основе мультимодальной модели языка видения (VLM) направлением развития крупных моделей воплощенного интеллекта является модель действий языка видения (VLA) и модель навигации языка видения (Vision Language Navigation Model, VLN).

  • VLA: ввод — это язык, изображение или видеопоток, вывод — язык и действие. Он объединяет Интернет, физический мир и информацию о движении в единой структуре, тем самым обеспечивая прямое преобразование инструкций на естественном языке в исполняемые инструкции действий.
  • VLN: вход — это язык, изображение или видеопоток.,На выходе получается язык и траектория движения. Нацеливание на требования задачи на нескольких этапах, таких как языковое описание, объекты визуального наблюдения и траектории движения в задачах навигации.,VLN для унифицированной среды ввода инструкций,Это позволяет большой Модели напрямую генерировать оперативную информацию, такую ​​как направление движения и положение целевого объекта.

В последние годы первые модели VLA, такие как VoxPoser, RT-2 и Palme, а также модели VLN, такие как NaviLLM, продемонстрировали многообещающие возможности. В ориентированном на будущее развитии сочетание больших мультимодальных моделей и моделей мира может обеспечить прогнозирование восприятия, то есть моделировать динамические изменения в окружающей среде. На этой основе 3D-VLA дополнительно интегрирует модальности трехмерной модели мира и может просматривать динамические изменения в окружающей среде и их влияние на результаты действий. С развитием технологии мультимодальной обработки встроенные интеллектуальные системы смогут интегрировать множественную сенсорную информацию, такую ​​как язык, зрение, слух, осязание и т. д., чтобы более автоматически понимать инструкции и расширять возможности обобщения задач. Возможно, на заключительном этапе разработки большой модели воплощенного интеллекта родится сквозная большая модель с восприятием-решением-исполнением. Это похоже на слияние человеческого мозга и мозжечка, объединяющее функции различных модулей в единую структуру. Он может напрямую рассуждать о языковых реакциях, тонких движениях, автономной навигации, использовании инструментов и сотрудничестве с людьми, тем самым достигая низкой задержки и Сильное обобщение.

модуль действий

модуль Действия — это «исполнительная единица» в воплощенной разумной системе, которая отвечает за получение инструкций от модуля принятия решений и выполнение конкретных действий. модуль действий К основным задачам относятсяИспользуйте алгоритмы навигации и позиционирования для достижения движения и используйте алгоритмы управления для манипулирования компонентами тела, такими как роботизированные руки, для манипулирования объектами.。Например,Задачи навигации требуют, чтобы тело двигалось, чтобы найти целевое местоположение.,И манипулирование объектамиивзаимодействие предполагаетсреда Захват предметов、двигатьсяи Выпуск и другие действия。существоватьмодуль В действиях достижение точного контроля движений является важной задачей. модуль действий Как ответитьпринятие инструкции модуля решений и генерировать действия,Конкретную реализацию можно разделить на следующие три способа:

1. Модуль принятия решений (большая модель)Вызов заранее запрограммированных действийалгоритм

  • Навигация и позиционирование достигаются путем перемещения по заранее созданным точкам карты.
  • Элементы тела, такие как роботизированные руки, выполняют определенные действия с помощью заранее запрограммированных элементов управления.

Преимущество этого метода в том, что движения хорошо контролируемы. В процессе взаимодействия с реальным физическим миром скорость генерации действий невелика, а ошибки в действиях, предполагаемых моделью, могут привести к огромным потерям. Недостатком этого метода является то, что объем разработки алгоритмов велик, а способность к обобщению слаба, что затрудняет перенос действий в новые среды.

2. Модуль принятия решений (большая модель)идействиеалгоритмсовместная работа:Используйте визуальный язык Модель(VL)читатьмодуль Потоковое видео действий в реальном времени, которое направляет навигацию и контролирует алгоритм генерируемых действий. Например:

  • При выполнении навигационных задач,Введите видеопоток карты, отображаемый Rviz, и видеопоток в реальном времени, снятый камерой, в VL.,В сочетании с инструкциями на языке пользователя,Руководство навигационной системы мобильное.
  • При выполнении задач манипулирования объектами,Ввод видеопотока в реальном времени с камеры роботизированной руки в VL.,В сочетании с инструкциями на языке пользователя,Алгоритм управления и контроля для управления роботизированной рукой для выполнения таких задач, как точный захват.

Этот метод позволяет роботу постоянно вводить новую информацию об окружающей среде во время взаимодействия с окружающей средой, чтобы постоянно оптимизировать решения и действия и повышать обобщение действий. Однако этот подход создает проблемы с пропускной способностью данных и вычислительной мощностью.

3. Модуль принятия решений (большая модель)имодуль действийслияние:как упоминалось выше,Будущим направлением развития будет использованиеVLA(Vision Language Action модель) и VLN (видение Language Navigation Модель) такая сквозная воплощенная разумная Модель, непосредственно обусловливающая действия. Этот вид объединяет знания Моделей в Интернете, концепции физического мира и информацию о движении в единую структуру и может напрямую генерировать исполняемые инструкции действий на основе описаний на естественном языке и передавать их в привод. Этот метод постепенно объединяет принятие решений, действие и даже восприятие, делая модуль Возможности и гибкость действий дополнительно улучшаются, что позволяет встроенной разумной системе играть более важную роль в различных сценариях применения.

Вышеупомянутые три метода сверху вниз.,Поскольку технологии продолжают развиваться,Постепенно интегрируйте принятие решений, действия и даже восприятие.,Сделайте модуль действий постоянно расширяющимся в возможностях и гибкости.,Это позволяет встроенной разумной системе играть большую роль в различных сценариях применения.

модуль обратной связи

модуль обратной связи постоянно получает обратную связь от окружающей среды посредством многоуровневого взаимодействия и вносит коррективы и оптимизации. В частности, модуль обратной связи соответственно обратная связь вышеупомянутое восприятие, принятие решения, модуль действия. Повысить уровень адаптивности к окружающей среде и разумный.

1. Обратная связь Модуль восприятия:модуль обратной Связь улучшает Модуль, обеспечивая постоянную обратную связь чувствительность восприятия к окружающей среде в реальном времени. Это включает, помимо прочего, мультимодальные данные, такие как изображения, звуки, давление и прикосновения, что делает Модуль Восприятие может более точно улавливать и реагировать на изменения в окружающей среде.

модуль обратной связи Воля Модуль воспринимать ранее захваченную информацию об окружающей среде как «опыт» или «память» и повторно ввести эту информацию в Модуль как «напоминание». восприятиесередина. Например, в сценарии человеко-машинного диалога, если Модуль восприятие распознает нового пользователя, то есть человека, у которого еще не сложился профиль пользовательских привычек, или старого пользователя, который уже существует в памяти, то есть пользователя, у которого уже есть знакомый рабочий процесс, модуль обратной связь передаст эту идентификационную информацию обратно в Модуль. восприятие. Этот процесс имитирует естественную реакцию человека при встрече с незнакомцами или знакомыми, что делает Модуль восприятияможет основываться на предпочтениях пользователядругойличностьиисторическое взаимодействиеданные,скорректировать свои стратегии восприятия и реагирования,Предоставление более персонализированных и адаптивных услуг.

2. Модуль принятия решений с обратной связью:модуль обратной Связь обеспечивает непрерывную обратную связь о выполнении задач и указаниях пользователя. принятие Модуль решений использует эту обратную связь для своей оптимизации.,Настройте его параметры. Благодаря этому механизму обратной связи с обратной связью,Модуль принятия решений может постоянно учиться и адаптироваться.,Повысить уровень адаптивности к окружающей среде и разумный.

Например,В технологии управления планированием принятия решений для автономного вождения,Роль модуля обратной связи основана на прогнозируемой траектории воспринимаемых окружающих объектов.,В сочетании с намерением маршрута автономного транспортного средства и текущим местоположением.,транспортное средстводелатьсамый разумныйпринятие решенийиконтроль。

3. Модуль обратной связи действий:модуль обратной связипроходить Модуль восприятие Получить информацию об изменении окружающей среды,И передать эту информацию обратно в модуль принятия решений. Модуль принятия решений гибко корректирует действия на основе обратной информации.,Убедитесь, что привод может регулировать траекторию движения, выходную силу и последовательность действий в изменяющейся ситуации. Например,Ультразвуковая функция предотвращения препятствий робота может немедленно остановить движение при обнаружении внезапных препятствий или пешеходов впереди.,Избегайте столкновений. Система навигации при планировании свободного пути,При встрече с внезапными препятствиями или скоплением людей вы можете немедленно перепланировать путь и сделать объезд.

Следующая статья будет обновлена ​​завтра и будет посвящена взаимодействию человека и компьютера и обсуждениям вопросов развития.

Поставим лайк три раза подряд↓

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose