Сухая информация Datawhale
Автор: Чжэн Ченгруй, инженер-алгоритм.
В последнее время очень популярна концепция воплощенного интеллекта.
Независимо от того, в эти дниZhihuijun робот-гуманоид с открытым исходным кодом, полный набор чертежей + код,Это вызвало бурные дискуссии в кругу.
Существуют также различные воплощенные интеллектуальные продукты, такие как Voxposer Ли Фейфея, RT1 и RT2 Google, RTX Google, Robot Flamingo Bytedance, ACT Стэнфорда и 3D_diffuser_act Карнеги-Меллона, каждый из которых продемонстрировал свою мощь в различных задачах и сценариях, а также возможности и потенциал. добиться революционных перемен.
Так что же такое воплощенный интеллект? Какая в этом польза?
Эта статья поможет вам разобраться.
Эта статья разделена на две части. Следующая часть будет обновлена завтра и будет посвящена взаимодействию человека и компьютера и обсуждениям вопросов разработки.
Эта статья частично ссылается на «Отчет о разработке воплощенного интеллекта», подготовленный Китайской академией информационных и коммуникационных технологий и Пекинской компанией по инновациям в области гуманоидных роботов.
Основные концепции воплощенного интеллекта
Воплощенный интеллект, то есть «воплощенный + интеллект», — это парадигма искусственного интеллекта, которая адаптирует алгоритмы машинного обучения к физическим объектам для взаимодействия с физическим миром. «Программные агенты» (или «агенты вне тела»), представленные ChatGPT, используют большие модели для взаимодействия с пользователями через веб-страницы и мобильные приложения и могут принимать пользователей в различных вариантах голосовых, текстовых, изображений и видеоинструкций для реализации. восприятие окружающей среды, планирование, память и использование инструментов для выполнения сложных задач. На этой основе воплощенный интеллект внедряет большие модели в физические объекты, общается с людьми через датчики, установленные на машине, и подчеркивает взаимодействие между интеллектом и физической средой.
С точки зрения непрофессионала, это значит снабдить умный «разум» искусственного интеллекта «телом». Этим «телом» может быть мобильный телефон или беспилотный автомобиль.
Робот-гуманоид — это носитель, объединяющий различные основные и передовые технологии и являющийся типичным продуктом воплощенного интеллекта.
Три элемента воплощенного интеллекта: онтология, интеллект и окружающая среда.
Есть три элемента воплощенного интеллекта: «онтология», которая является аппаратным носителем; «интеллект», который представляет собой большие модели, голос, изображения, управление, навигацию и другие алгоритмы и «среду», которая представляет собой физический мир; онтология взаимодействует с. Высокая степень связи онтологии, интеллекта и окружающей среды является основой продвинутого интеллекта.
другойсреда Будет дождьдругой Оборудование формыОсновная частьадаптироватьсясреда。Например, плоская площадка в помещении больше подходит для колесных транспортных средств.робот,Пересеченная местность больше подходит для четвероногого использования.робот(робот-собака)。в вариантеразумный Тело исредаво взаимодействии,разумныйалгоритмможет пройтиОсновная частьдатчики, чтобы чувствоватьсреда,делатьпринятие решенийконтролироватьОсновная частьВыполняйте задания действий,тем самым затрагиваясреда。существоватьразумныйалгоритмисредаво взаимодействиивозвращатьсяможет пройти“интерактивное обучение”и Антропоморфное мышление, которому стоит научитьсяиадаптироватьсясреда,тем самым достигаяразумныйрост。
Четыре модуля воплощенного интеллекта: восприятие-решение-действие-обратная связь.
Действие воплощенного агента можно разделить на четыре этапа: «восприятие-решение-действие-обратная связь», которые завершаются соответственно четырьмя модулями и образуют замкнутый цикл.
Модуль восприятия
Модуль восприятия отвечает за сбор и обработку информации.,Чувствуйте и понимайте окружающую среду с помощью нескольких датчиков. на роботе,Общие датчики включают в себя:
1. Камера видимого света: отвечает за сбор цветных изображений.
2. Инфракрасная камера: отвечает за сбор тепловизионных изображений, измерение температуры, ночное видение и перспективу. Инфракрасные камеры способны обнаруживать тепловое излучение, испускаемое объектами, и создавать изображения даже в полной темноте. Эта возможность делает инфракрасные камеры пригодными для ночного видения и тепловидения. Инфракрасные камеры могут измерять температуру поверхностей объектов и широко используются в таких областях, как обнаружение перегрева оборудования, энергоаудит и медицинская визуализация. Некоторые инфракрасные камеры способны проникать сквозь дым, туман и другие препятствия и подходят для экстренного спасения и мониторинга безопасности.
3. Камера глубины: отвечает за измерение расстояния между каждой точкой изображения и камерой и получение информации о трехмерных координатах сцены.
4. LiDAR: отвечает за измерение расстояния и скорости целевых объектов. Путем излучения лазерных импульсов и приема отраженного света рассчитывается расстояние до объекта и генерируются высокоточные трехмерные данные облака точек, которые широко используются в автономном вождении и навигации роботов.
5. Ультразвуковой датчик: отвечает за объезд препятствий. Путем излучения ультразвуковых импульсов и получения отражений этих импульсов определяется расстояние между роботом и препятствием и наличие препятствия.
6. Датчик давления: отвечает за измерение давления рук или ног робота, используется для ходьбы и контроля силы захвата, а также предотвращения препятствий.
7. Микрофон: отвечает за сбор звука.
Кроме того, в зависимости от различных сценариев применения некоторые конкретные датчики также могут использоваться для реализации определенных функций. Например, электронные носы могут обнаруживать газы и используются в сценариях взрывозащиты и мониторинга окружающей среды; датчики влажности могут использоваться в сельскохозяйственных роботах и контроле внутренней среды. Понимание окружающей среды: после получения информации об окружающей среде с помощью датчиков роботу необходимо понять окружающую среду с помощью алгоритмов. В некоторых средах, где пространство и сцены относительно стабильны и управляемы, алгоритм не требует сильных возможностей обобщения, поэтому необходимы только модели для конкретных сцен. Например, вы можете использовать YOLO для обнаружения целей и SLAM для навигации и позиционирования. Для изменчивых и незнакомых сцен алгоритм требует сильных возможностей обобщения, поэтому необходимо использовать большую мультимодальную модель для интеграции и оценки множественной информации об окружающей среде, такой как звук, изображение, видео, позиционирование и т. д. Подробно это будет обсуждаться в последующих главах.
принятие Модуль решений является ядром всей воплощенной разумной системы.,Он отвечает за получение от Модуль Информация об окружающей среде для планирования миссии и обоснования анализа для руководства модулем действия порождают действия. На раннем этапе развития технологии модуль принятия решений в основном полагался на правила ручного программирования и разработки специализированных задач. Однако этим специализированным алгоритмам трудно справиться с динамически меняющимися и неизвестными ситуациями. На основе алгоритма оптимизации проксимальной стратегии (Proximal Policy Optimization, Метод обучения с подкреплением (PPO) и алгоритм Q-обучения демонстрируют большую гибкость принятия решений в таких задачах, как встроенная интеллектуальная автономная навигация, обход препятствий и сбор нескольких целей. Однако эти методы по-прежнему имеют ограничения с точки зрения адаптивности к сложным средам, точности принятия решений и эффективности.
Появление крупных моделей значительно повысило интеллект воплощенных агентов и значительно улучшило их возможности восприятия окружающей среды, голосового взаимодействия и принятия решений. По сравнению с AIGC (контентом, созданным искусственным интеллектом) «программного интеллекта», который генерирует текст, изображения и другой контент из большой модели, а названные инструменты являются функциями; большая модель воплощенного интеллекта представляет собой AIGA (действия, созданные искусственным интеллектом). То есть действия генерируются на основе больших моделей, а используемые инструменты — это части тела, такие как роботизированные руки и камеры. На основе мультимодальной модели языка видения (VLM) направлением развития крупных моделей воплощенного интеллекта является модель действий языка видения (VLA) и модель навигации языка видения (Vision Language Navigation Model, VLN).
В последние годы первые модели VLA, такие как VoxPoser, RT-2 и Palme, а также модели VLN, такие как NaviLLM, продемонстрировали многообещающие возможности. В ориентированном на будущее развитии сочетание больших мультимодальных моделей и моделей мира может обеспечить прогнозирование восприятия, то есть моделировать динамические изменения в окружающей среде. На этой основе 3D-VLA дополнительно интегрирует модальности трехмерной модели мира и может просматривать динамические изменения в окружающей среде и их влияние на результаты действий. С развитием технологии мультимодальной обработки встроенные интеллектуальные системы смогут интегрировать множественную сенсорную информацию, такую как язык, зрение, слух, осязание и т. д., чтобы более автоматически понимать инструкции и расширять возможности обобщения задач. Возможно, на заключительном этапе разработки большой модели воплощенного интеллекта родится сквозная большая модель с восприятием-решением-исполнением. Это похоже на слияние человеческого мозга и мозжечка, объединяющее функции различных модулей в единую структуру. Он может напрямую рассуждать о языковых реакциях, тонких движениях, автономной навигации, использовании инструментов и сотрудничестве с людьми, тем самым достигая низкой задержки и Сильное обобщение.
модуль Действия — это «исполнительная единица» в воплощенной разумной системе, которая отвечает за получение инструкций от модуля принятия решений и выполнение конкретных действий. модуль действий К основным задачам относятсяИспользуйте алгоритмы навигации и позиционирования для достижения движения и используйте алгоритмы управления для манипулирования компонентами тела, такими как роботизированные руки, для манипулирования объектами.。Например,Задачи навигации требуют, чтобы тело двигалось, чтобы найти целевое местоположение.,И манипулирование объектамиивзаимодействие предполагаетсреда Захват предметов、двигатьсяи Выпуск и другие действия。существоватьмодуль В действиях достижение точного контроля движений является важной задачей. модуль действий Как ответитьпринятие инструкции модуля решений и генерировать действия,Конкретную реализацию можно разделить на следующие три способа:
1. Модуль принятия решений (большая модель)Вызов заранее запрограммированных действийалгоритм:
Преимущество этого метода в том, что движения хорошо контролируемы. В процессе взаимодействия с реальным физическим миром скорость генерации действий невелика, а ошибки в действиях, предполагаемых моделью, могут привести к огромным потерям. Недостатком этого метода является то, что объем разработки алгоритмов велик, а способность к обобщению слаба, что затрудняет перенос действий в новые среды.
2. Модуль принятия решений (большая модель)идействиеалгоритмсовместная работа:Используйте визуальный язык Модель(VL)читатьмодуль Потоковое видео действий в реальном времени, которое направляет навигацию и контролирует алгоритм генерируемых действий. Например:
Этот метод позволяет роботу постоянно вводить новую информацию об окружающей среде во время взаимодействия с окружающей средой, чтобы постоянно оптимизировать решения и действия и повышать обобщение действий. Однако этот подход создает проблемы с пропускной способностью данных и вычислительной мощностью.
3. Модуль принятия решений (большая модель)имодуль действийслияние:как упоминалось выше,Будущим направлением развития будет использованиеVLA(Vision Language Action модель) и VLN (видение Language Navigation Модель) такая сквозная воплощенная разумная Модель, непосредственно обусловливающая действия. Этот вид объединяет знания Моделей в Интернете, концепции физического мира и информацию о движении в единую структуру и может напрямую генерировать исполняемые инструкции действий на основе описаний на естественном языке и передавать их в привод. Этот метод постепенно объединяет принятие решений, действие и даже восприятие, делая модуль Возможности и гибкость действий дополнительно улучшаются, что позволяет встроенной разумной системе играть более важную роль в различных сценариях применения.
Вышеупомянутые три метода сверху вниз.,Поскольку технологии продолжают развиваться,Постепенно интегрируйте принятие решений, действия и даже восприятие.,Сделайте модуль действий постоянно расширяющимся в возможностях и гибкости.,Это позволяет встроенной разумной системе играть большую роль в различных сценариях применения.
модуль обратной связи постоянно получает обратную связь от окружающей среды посредством многоуровневого взаимодействия и вносит коррективы и оптимизации. В частности, модуль обратной связи соответственно обратная связь вышеупомянутое восприятие, принятие решения, модуль действия. Повысить уровень адаптивности к окружающей среде и разумный.
1. Обратная связь Модуль восприятия:модуль обратной Связь улучшает Модуль, обеспечивая постоянную обратную связь чувствительность восприятия к окружающей среде в реальном времени. Это включает, помимо прочего, мультимодальные данные, такие как изображения, звуки, давление и прикосновения, что делает Модуль Восприятие может более точно улавливать и реагировать на изменения в окружающей среде.
модуль обратной связи Воля Модуль воспринимать ранее захваченную информацию об окружающей среде как «опыт» или «память» и повторно ввести эту информацию в Модуль как «напоминание». восприятиесередина. Например, в сценарии человеко-машинного диалога, если Модуль восприятие распознает нового пользователя, то есть человека, у которого еще не сложился профиль пользовательских привычек, или старого пользователя, который уже существует в памяти, то есть пользователя, у которого уже есть знакомый рабочий процесс, модуль обратной связь передаст эту идентификационную информацию обратно в Модуль. восприятие. Этот процесс имитирует естественную реакцию человека при встрече с незнакомцами или знакомыми, что делает Модуль восприятияможет основываться на предпочтениях пользователядругойличностьиисторическое взаимодействиеданные,скорректировать свои стратегии восприятия и реагирования,Предоставление более персонализированных и адаптивных услуг.
2. Модуль принятия решений с обратной связью:модуль обратной Связь обеспечивает непрерывную обратную связь о выполнении задач и указаниях пользователя. принятие Модуль решений использует эту обратную связь для своей оптимизации.,Настройте его параметры. Благодаря этому механизму обратной связи с обратной связью,Модуль принятия решений может постоянно учиться и адаптироваться.,Повысить уровень адаптивности к окружающей среде и разумный.
Например,В технологии управления планированием принятия решений для автономного вождения,Роль модуля обратной связи основана на прогнозируемой траектории воспринимаемых окружающих объектов.,В сочетании с намерением маршрута автономного транспортного средства и текущим местоположением.,транспортное средстводелатьсамый разумныйпринятие решенийиконтроль。
3. Модуль обратной связи действий:модуль обратной связипроходить Модуль восприятие Получить информацию об изменении окружающей среды,И передать эту информацию обратно в модуль принятия решений. Модуль принятия решений гибко корректирует действия на основе обратной информации.,Убедитесь, что привод может регулировать траекторию движения, выходную силу и последовательность действий в изменяющейся ситуации. Например,Ультразвуковая функция предотвращения препятствий робота может немедленно остановить движение при обнаружении внезапных препятствий или пешеходов впереди.,Избегайте столкновений. Система навигации при планировании свободного пути,При встрече с внезапными препятствиями или скоплением людей вы можете немедленно перепланировать путь и сделать объезд.
Следующая статья будет обновлена завтра и будет посвящена взаимодействию человека и компьютера и обсуждениям вопросов развития.
Поставим лайк три раза подряд↓