Харбинский технологический институт Не Лицян: Мультимодальные большие модели являются ключевой движущей силой развития воплощенного интеллекта丨Десять человек говорят о воплощенном интеллекте
Харбинский технологический институт Не Лицян: Мультимодальные большие модели являются ключевой движущей силой развития воплощенного интеллекта丨Десять человек говорят о воплощенном интеллекте

Без «мозга» большой мультимодальной модели «тело» представляет собой просто тупое механическое устройство.

Автор: Чэнь Луйи

Монтажер丨Цен Фэн

Как отражается «разум» воплощенного разума?

Это одна из наиболее часто упоминаемых тем при посещении многих исследователей в этой области с тех пор, как Leifeng.com-AI Technology Review запустил колонку «Десять докладов о воплощенном интеллекте».

Проще говоря, воплощенный интеллект — это технология, которая объединяет интеллектуальные системы с физическими объектами, чтобы позволить им воспринимать окружающую среду, принимать решения и выполнять действия. Ключевое слово — «воплощение», что означает, что это не просто абстрактные алгоритмы и данные, но и взаимодействие с миром через физические формы.

Однако для достижения истинного «интеллекта» воплощенным интеллектуальным системам необходим мощный «мозг» для поддержки сложных процессов принятия решений и обучения. «Мозг» здесь не является органом в биологическом смысле, а относится к продвинутой вычислительной модели, способной обрабатывать и понимать мультимодальную информацию — большой мультимодальной модели. Эта модель может интегрировать множество сенсорных данных, таких как зрение, слух и осязание, а также абстрактную информацию, такую ​​​​как язык и инструкции, чтобы предоставить роботам более богатые и полные возможности понимания окружающей среды.

В ноябре 2022 года появление ChatGPT продемонстрировало прорыв в области крупномасштабных языковых моделей (LLM). Оно не только вдохновило неограниченное воображение на применение больших моделей в различных отраслях, но и выдвинуло в центр внимания «воплощенный интеллект», вызвав Интерес к машинам Углубленные дискуссии о том, как более естественно взаимодействовать с людьми и окружающей средой, вдохновили на новую волну исследований мультимодальных больших моделей.

Обработка естественного языка (NLP) — одна из основных технологий, лежащих в основе больших моделей. Харбинский технологический институт — это хорошо зарекомендовавшая себя инженерная школа, специализирующаяся на исследованиях НЛП и обладающая значительным накоплением технологий крупномасштабных модельных исследований. Jiutian, независимая и управляемая мультимодальная крупномасштабная модель, независимо разработанная Харбинским технологическим институтом, получила широкое внимание в отрасли. Jiutian обладает такими важными характеристиками, как широкий модальный охват, первоклассные мультимодальные наборы данных, широкие возможности модального соединения и высокая масштабируемость. Он показал хорошие результаты по ряду показателей оценки. Работы Цзютиандуи, относящиеся к части обработки видеотекста и части обработки текста изображения, получили награду за лучшую статью на выставке ACM MM 2022.

Исследования мультимодальной большой модели и воплощенного интеллекта в Харбинском технологическом институте возглавляет профессор Не Лицян. Его научные исследования за последние 15 лет были сосредоточены на мультимодальном контент-анализе и понимании, и он убежден в важности мультимодального восприятия, слияния и понимания. Он понял, что традиционные роботы обладают слабыми возможностями автономного принятия решений, а большие мультимодальные модели хорошо понимают решения, но не могут взаимодействовать с физическим миром. Это вдохновило его объединить их, используя робота в качестве туловища и мультимодальную большую модель в качестве мозга для достижения взаимодополняющих преимуществ.

Некоторые люди полагают, что технология мультимодальных больших моделей будет способствовать быстрой модернизации «мозга» робота, а скорость его эволюции намного превысит скорость развития самого робота. В ближайшие 2–3 года он может пересечь точку технологической зрелости. вступить в стадию масштабного промышленного внедрения.

Недавно AI Technology Review посетил профессора Не ​​Лицяна и обсудил с ним тенденции исследований в области воплощенного интеллекта, проблемы, с которыми сталкивается интеграция промышленности, научных кругов и исследований, а также другие темы. Ниже приводится стенограмма интервью AI Technology Review с Не Лицяном на тему воплощенного интеллекта. Из-за нехватки места AI Technology Review был отредактирован без изменения первоначального смысла:

1. «Мозг» стимулирует развитие воплощенного интеллекта.

Обзор технологий искусственного интеллекта: Что вы думаете о недавнем буме воплощенного интеллекта? Когда все исследуют и обсуждают воплощенный интеллект, каковы технические ожидания и ожидания от применения?

Не Лицян:Увлечение воплощенным интеллектом — большой шаг в развитии искусственного интеллекта Модель Технологии иробот Сочетание технологий。Искусственный интеллект CUHKМодельтехнологический прорыв,Предоставлен новый «мозг» для робота,Взаимодействие между роботом и физическим миром также заставляет по-новому взглянуть на большую Модель.,Эти двое продвигают друг друга и дополняют преимущества друг друга.

Тенденции исследований в области воплощенного интеллекта также постоянно меняются. На начальном этапе расширения возможностей крупных моделей проводится некоторая работа по непосредственному применению новых результатов в области искусственного интеллекта к роботам, но она недостаточно глубока. Например, обычными модальностями мультимодальных больших моделей являются зрение и текст, но роботы подвергаются воздействию более широкого спектра информации — зрение, слух, осязание, инструкции человека, положение рук робота и т. д. В будущем большие модели будут Необходимо адаптировать задачи воплощенного интеллекта, воспринимать характеристики взаимодействия в физическом реальном мире и интегрировать богатую мультимодальную информацию.

В последнее время исследования встроенного интеллекта, основанного на больших моделях, постепенно углубляются и переходят от предварительных приложений к углубленной интеграции, особенно к интеграции управления движением роботов. Это ключ к технологическому развитию и серьезная проблема. По мере углубления исследований мы ожидаем, что большие модели смогут более полно понимать тело робота и управлять им, а также достигать более глубоких физических взаимодействий.

Если проблемы в области воплощенного интеллекта будут эффективно решены, потенциал его применения огромен. Приложения воплощенного интеллекта могут интегрировать интеллект в различные вертикальные области, такие как интеллектуальное производство и сфера услуг, например, промышленные инспекции, ведение домашнего хозяйства и т. д., позволяя воплощенному интеллекту руководить модернизацией новых производств, сфер услуг и других отраслей. По мере развития технологии сценарии ее применения станут более обширными.

Обзор технологий искусственного интеллекта: какую роль мультимодальные большие модели играют в воплощенном интеллекте?

Не Лицян:мультимодальный Модельэто воплощенный интеллектроботиз“мозг”,Ключевой. Он расположен выше застройки,Предоставление интеллекта роботу. Нет такого "мозга",下游изробот“Тело”也只是一个失去智能из机械装置。Большие мультимодальные модели с высокой производительностью являются ключевой движущей силой развития области воплощенного интеллекта.

Мультимодальные большие модели выходят за рамки ограничений, связанных с тем, что одной модальности недостаточно для обработки сложных реальных сцен, что значительно улучшает возможности восприятия и понимания робота, позволяя роботу более точно и всесторонне понимать сложные сцены и задачи. Кроме того, мультимодальная большая модель изучает богатые человеческие знания после предварительной подготовки крупномасштабных данных, что дает роботу возможность автономно планировать и принимать решения.

Мультимодальные большие модели также оптимизируют взаимодействие человека и компьютера. Позвольте роботам точно понимать намерения человека с помощью мультимодальной информации, такой как голос и жесты, что сделает взаимодействие между нами и роботами более естественным. Мощная способность к обобщению мультимодальных больших моделей также закладывает основу для способности робота к автономному обучению, помогая роботу адаптироваться к меняющимся задачам и делая шаг к тому, чтобы стать настоящим интеллектуальным агентом, способным автономно учиться и адаптироваться к изменениям окружающей среды. Страйд.

Я считаю, что мультимодальные большие модели, как и «мозги», влияют на все аспекты роботов. Их расширение возможностей роботов преодолевает ключевые препятствия на пути реализации воплощенного интеллекта и является источником прогресса в области воплощенного интеллекта.

2. Будущие тенденции: гуманизация и сотрудничество

Обзор AI Technology Review: Какие тенденции вы видите в будущем развитии мультимодальных больших моделей в области воплощенного интеллекта?

Не Лицян:мультимодальный Модель在Воплощенный智能领域из未来发展将带来革命性из变化,Сделать системы искусственного интеллекта более человечными в их взаимодействии с физическим миром и его понимании.。Можно ожидать, что в ближайшие годы эту область будут формировать несколько ключевых тенденций::

  1. мультимодальное восприятие:Модельбудет плавно интегрировать тактильный、Запах и другая сенсорная информация,Обеспечить более полное представление об окружающей среде,接近人类из Восприятиеспособность。
  2. Модель облегченная:开发高效измультимодальный Модель Архитектура,Использование технологии сжатия моделей и дистилляции знаний,Повысить гибкость и эффективность реализованной системы.
  3. Передача и обучение в несколько этапов:ВоплощенныйAI将展现在迁移学习和少样本学习方面из进步,Быстро адаптируйтесь к новым задачам без длительного обучения.
  4. Разработка базовой технологии:Модельлучше свяжет абстрактные знания с физической реальностью,Совершение прорывов в рассуждениях, основанных на здравом смысле, и понимании причинно-следственных связей.,Улучшите долговременную память и устойчивые способности к обучению.
  5. естественные возможности взаимодействия:Улучшайте людей иAI机器из交流直观性和上下文Восприятиеспособность,Позволяет роботу вести сложные разговоры,Объясните обстановку и действия.
  6. Создание модели мира:创建全面из内部世界表示,用于ВоплощенныйAIизпланирование、Прогнозирование и принятие решений.
  7. нейроморфный компьютерный синтез:мультимодальный Модель Интеграция с методами нейроморфных вычислений.,Моделирование биологических нейронных сетей,Повышение энергоэффективности и адаптивности.

Эти тенденции указывают на то, что в будущем воплощенные системы искусственного интеллекта станут ближе к человеку в понимании мира и взаимодействии с ним посредством больших мультимодальных моделей, открывая возможности для широкого спектра приложений и областей.

Обзор технологий искусственного интеллекта: Какова, по вашему мнению, самая большая проблема, с которой в настоящее время сталкиваются мультимодальные большие модели?

Не Лицян:в настоящий моментмультимодальный Модельиз最大из挑战是如何在保持连贯性、效率和伦理考虑из同时,Интегрируйте и согласуйте несколько модальностей данных. Различные модальности, такие как текст, изображения, аудио и видео, имеют уникальные характеристики.,Их согласование является фундаментальной проблемой.,Для достижения эффективного совместного представления необходимы предварительное обучение, тонкая настройка и проектирование архитектуры.

Требования к вычислительным ресурсам, необходимые для больших мультимодальных моделей, растут экспоненциально с увеличением масштаба и модальности, что поднимает проблемы масштабируемости, доступности и возможности развертывания, которые могут ограничить популярность модели.

Качество и разнообразие данных также являются серьезными препятствиями. Получение крупномасштабных, высококачественных и объективных мультимодальных наборов данных — трудоемкий и дорогостоящий процесс.

Сложность модели также затрудняет обеспечение интерпретируемости и понятности. Это имеет решающее значение для достоверности модели в критически важных приложениях.

Наконец, мультимодальные большие модели также сталкиваются с проблемами с точки зрения этического и социального воздействия. Такие проблемы, как дезинформация, глубокая подделка и нарушение конфиденциальности, требуют разработки соответствующих мер безопасности и этических принципов, а также большего внимания и сотрудничества со стороны всех сторон.

3. Танец между научными кругами и промышленностью

Обзор технологий искусственного интеллекта: Что вы думаете о нынешнем сотрудничестве между академическими кругами и промышленностью в области исследований воплощенного интеллекта?

Не Лицян: Воплощенные интеллектуальные исследования требуют сочетания фундаментальных исследований и инновационного мышления в научных кругах и практического опыта в промышленности.,Работайте вместе, чтобы преодолеть сложные научные и технологические проблемы.недавно1-2年из Воплощенныйкомпания,Многие из них созданы университетами. Увеличение числа компаний, инкубируемых университетами, демонстрирует ключевую роль академических кругов в содействии коммерциализации технологий.

Государственная поддержка дает импульс сотрудничеству школ и предприятий, а также обеспечивает необходимую экономическую и платформенную поддержку, поощряя школы и предприятия к совместной подаче заявок на проекты. Создание совместной лаборатории способствует глубокой интеграции академических и промышленных кругов и ускоряет обмен знаниями и инновациями.

Укрепить сотрудничество,Нам необходимо и дальше согласовывать академические исследования с потребностями отрасли.,Разработать стандартизированные исследовательские платформы и протоколы воплощенного интеллекта.,以及培养能够连接两界из人才。Как преподаватели, мы несем ответственность за развитие трансграничных способностей учащихся в области знаний, технологий и методов исследования.

В целом сотрудничество между академическими кругами и промышленностью демонстрирует большой потенциал в области воплощенного интеллекта. Благодаря государственной поддержке, совместным лабораториям и согласованию исследований и потребностей университеты и предприятия будут совместно продвигать инновационное развитие воплощенного интеллекта.

Обзор технологий искусственного интеллекта: каковы перспективы воплощенного интеллекта в академических кругах и промышленности? Какие конкретные исследования есть у вас и вашей команды?

Не Лицян:Воплощенный智能在学术和工业界均备受青睐,Это открыло новые возможности для передовых перекрестных исследований. Будь то исследователь ИИ или исследователь роботов,активно осваивают эту сферу. Отрасль с оптимизмом смотрит на проблемы и перспективы применения больших возможностей роботов.

(Техническая проверка беспилотной кухонной сцены проекта Руою·Цзютянь)

Харбинский технологический институт добился значительного прогресса в исследованиях в области воплощенного интеллекта, таких как проект Жоюй-Цзютянь, который достиг технической проверки в сценарии беспилотной кухни и совершил прорыв в ключевых технологиях, таких как мультимодальный большой рой, управляемый моделями. интеллект. Мы успешно объединили мультимодальные большие модели с роботизированными объектами для разработки роботизированных систем с возможностями восприятия, взаимодействия, планирования и действий.

В этом процессе мы столкнулись с такими проблемами, как мультимодальное объединение информации, сложное планирование задач и точный контроль действий, и каждый шаг требовал тщательного изучения. Например, большие модели должны эффективно обрабатывать множественную модальную информацию, «мозг» робота должен точно планировать задачи, а «мозжечок» отвечает за точное выполнение действий. Результаты этих исследований обеспечивают прочную основу для применения воплощенного интеллекта.

Обзор технологий искусственного интеллекта: каковы дальнейшие планы развития Харбинского технологического института в области воплощенного интеллекта?

Не Лицян:в настоящий момент,На основе текущего исследовательского фонда Харбинского технологического института по мультимодальным крупномасштабным моделям и роботам.,Мы разработали план интеллектуальных исследований для системы,Включая множество аспектов, таких как восприятие интеллектуального агента, планирование, работа, групповое сотрудничество и т. д.,Охватывает различные формы разумных тел, такие как роботизированные руки, дроны и гуманоидные роботы.

Короче говоря, воплощенный интеллект является многообещающей областью исследований. Харбинский технологический институт будет продолжать продвигать технологические инновации и подготовку кадров, а также стремиться вносить больший вклад в научные круги и промышленность.

4. Производственная практика парадигмы мозг + мозжечок.

Комментарий AI Technology: Ruoyu Technology однажды выдвинула лозунг «поместить мозг в робота». Что вы думаете о синергетических отношениях между мозгом и мозжечком и будущих направлениях исследований?

Не Лицян:Жоюйнаука и Equipment — высокотехнологичная компания, созданная на базе Харбинского технологического института. и техникакомпания,Акцент делается на совместной работе робото-когнитивной системы (мозга) и системы двигательного контроля (мозжечка). Мультимодальная отличная модель: девять дней решают задачи понимания, восприятия, планирования и принятия решений.,А мозжечок выполняет точные физические движения и взаимодействия. Такая координация гарантирует, что робот сможет выполнять конкретный контроль в соответствии с инструкциями высокого уровня.,и обратная связь обратно в мозг для корректировки стратегии,Критически важен для адаптивности и надежности.

Будущие исследования Руоюй будут сосредоточены на усилении этой синергии, интеграции планирования модели и алгоритмов управления низкого уровня, включая разработку механизмов исправления ошибок и онлайн-обучения, чтобы мозг мог быстро адаптироваться в соответствии с результатами выполнения мозжечка и оптимизировать задачи с длинной последовательностью. планирование и улучшение восприятия и способности робота принимать решения посредством мультимодального восприятия и адаптивного обучения. Кроме того, Жоюй также изучит, как использовать расширенные возможности понимания мозга для улучшения работы мозжечка, например, планирование управления захватом или оптимизацию траектории посредством семантического понимания.

Обзор технологий искусственного интеллекта: какие инновации и прорывы компания Ruoyu Technology сделала в мультимодальных больших моделях и воплощении интеллекта? Как применить технологию мультимодальных больших моделей к продуктам?

Не Лицян:Жоюйнаука и техника在мультимодальный Модель驱动из Воплощенный智能上из开发上取得了突破,Инновационная реализация мозжечково-мозжечковой парадигмы,Интегрирует обработку естественного языка, визуальное восприятие и планирование действий.,Сделайте так, чтобы у робота был интеллектуальный «мозг» в нескольких областях.

Основные технологии включают улучшенное планирование больших моделей с поиском иллюзий, позволяющее роботам автономно выполнять сложные задачи на основе инструкций на естественном языке, такие как обработка заказов и координация подачи еды на беспилотных кухнях. Что касается трехмерного восприятия, робот может понимать объекты в сложных средах и манипулировать ими без предварительной регистрации, демонстрируя высокую гибкость и надежность.

Ruoyu Technology также внедрила имитационное обучение, основанное на диффузионных моделях, что позволяет роботам осваивать сложные навыки без программирования. Эти технологии интегрированы в «мозг» нашего робота Jiutian, поддерживают мультимодальное взаимодействие и применяются в пищевой, сортировочной, сборочной, 3C-индустрии и т. д.

Ruoyu внедрила робота «Jiutian» в специальных областях, используя имитационное обучение для эффективного выполнения бизнес-задач. В будущем Ruoyu будет способствовать внедрению многоагентного планирования на основе требований сцены и реализовывать замкнутые циклы бизнеса при сотрудничестве нескольких роботов.

Обзор технологий искусственного интеллекта: Как вы оцениваете текущий эффект применения технологий встроенного интеллекта в реальных сценариях?

Не Лицян:Воплощенный智能技术已在多个领域展现显著效益。в производстве,Это улучшает интерактивные возможности робота.,Повышенная производительность и гибкость,Человеческая ошибка снижается. В сфере логистики и складирования,Воплощенный интеллектуальный робот благодаря автономной навигации и алгоритмам глубокого обучения,Оптимизирован процесс классификации и обработки предметов.,Повышение скорости логистики и снижение затрат.

Сфера услуг также стала свидетелем преимуществ воплощенного интеллекта, таких как роботы приветствия, заказа и доставки в гостиничном бизнесе и сфере общественного питания, которые улучшают качество обслуживания клиентов и экономят затраты на рабочую силу. Несмотря на проблемы, связанные со стоимостью технологий, экологической адаптируемостью и этикой, эффект от применения встроенных интеллектуальных технологий в реальных сценариях является положительным и показывает широкие перспективы. Однако для адаптации к меняющимся потребностям рынка по-прежнему необходимы постоянные улучшения и оптимизация.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose