Роботы мультимодальны как на уровне воплощения, так и на уровне восприятия.
Внешний вид робота может иметь форму человека или собаки; информация, получаемая роботом, может быть как визуальной, так и тактильной. Все это часть исследований в области робототехники.
Автор: Цяо Янвэй
Редактор | У Тонг
«У людей много недопониманий относительно захвата и работы роботов, и многие результаты исследований трудно применить на практике».
Профессор Ли Мяо из Уханьского университета сказал, что это была важная причина, по которой он отказался от постдокторских исследований в команде профессора Альберто Родригеса в лаборатории MCube Массачусетского технологического института (лаборатория манипулирования и механизмов) и решил вернуться в Китай, чтобы начать свой бизнес.
Профессор Ли Мяо окончил Федеральную политехническую школу Лозанны в Швейцарии, где учился у профессора Ода Биллара, основателя Лаборатории алгоритмов и систем обучения. Он уже давно занимается исследованиями в области обучения и управления роботами, захвата объектов. и манипуляция.
Его докторская диссертация по исследованию алгоритмов динамического сканирования была удостоена швейцарской премии ABB (Asea Brown Boveri Ltd.), которая вручается в мире только раз в два года, в Федеральной политехнической школе Лозанны в Швейцарии. Он также является единственным китайским лауреатом. этой награды. Это исследование предлагает надежные алгоритмы для ловкого манипулирования сложными объектами и успешно применяется к реальным задачам манипулирования роботами, особенно при захвате и манипулировании роботами.
Профессор Ли Мяо продолжил это исследование после возвращения в Китай, чтобы найти подходящие сценарии реализации алгоритма сканирования.
После появления технологии больших моделей содержание исследований профессора Ли Мяо также изменилось соответствующим образом. С одной стороны, он сотрудничал с промышленностью, чтобы применить технологию больших моделей к разработке роботов для домашнего обслуживания;
С другой стороны, в академических исследованиях также предпринимались попытки объединить диффузионные модели (Diffusion Policy) со стратегиями производства хирургических роботов, а также объединить большие модели с медицинскими изображениями.
«Когда я общаюсь с членами своей команды, я всегда подчеркиваю,Нам необходимо смотреть на все проблемы роботов с точки зрения больших моделей, будь то исследование алгоритмов или другие виды работ, если они не связаны с большими моделями, их можно устранить в течение 5 лет.”
Профессор Ли Мяо отметил, что крупные модели полностью изменят процесс развития области робототехники.
8 апреля (понедельник) с 20:00 до 22:00 Leifeng.com проведет онлайн-форум за круглым столом на тему «Эра больших моделей, технологические инновации в робототехнике и реализация сценариев». Профессор Ли Мяо поделится передовыми технологиями. наблюдения.
Ниже приводится разговор (отредактированный):
1
От теоретических исследований к исследованиям в области робототехники
Leifeng.com: Почему после получения степени магистра вы выбрали EPFL для обучения на докторскую степень? Каковы особенности школьных исследований в области робототехники?
Ли Мяо:Сначала я подал заявку на получение прямой докторской степени в Хуачжунском университете науки и технологий.,После магистратуры,Учитывая, что зарубежные исследования роботов в то время были относительно продвинутыми,,Поэтому я попытался подать заявку в несколько школ с самым высоким профессиональным рейтингом роботов в мире.,у меня тоже много предложений,Например, Университет Джонса Хопкинса в США, Имперский колледж Лондона в Великобритании и т. д.
Мне хотелось выбрать направление, более тесно интегрированное с алгоритмами искусственного интеллекта, поэтому я отправился в Лабораторию алгоритмов и систем обучения профессора Од Биллар в Федеральной политехнической школе Лозанны в Швейцарии.
Поскольку мои исследовательские направления в области робототехники в бакалавриате и магистратуре были более теоретическими и тесно связаны с математикой, медициной, динамикой и другими дисциплинами, исследования команды профессора Од Биллард были сосредоточены больше на данных и сборе рабочих процессов роботов посредством имитационного обучения и других средств. Профессор Од Биллар — пионер в этой области и глава Швейцарской сети робототехники.
Помимо лаборатории профессора Ода Бийяра, в Федеральной политехнической школе Лозанны в Швейцарии работает множество технологически ведущих исследовательских групп в области робототехники, таких как Лаборатория биоробототехники, которая изучает бионических роботов, и Лаборатория реконфигурируемых роботов, которая изобрела робота-оригами. Реконфигурируемая лаборатория робототехники) и так далее.
Общий стиль исследований в области робототехники в Швейцарском федеральном технологическом институте в Лозанне небольшой, но усовершенствованный. Школа расширила множество конкретных исследовательских направлений и групп.
Leifeng.com: Компания ABB, одно из четырех основных семейств промышленных роботов, также родилась в Швейцарии. Вы много раз номинировались и выигрывали премию ABB от школы. Какое влияние это оказало на ваше последующее предпринимательское направление?
Ли Мяо:ABBШтаб-квартира находится в Швейцарии.,Существует множество проектов сотрудничества с Федеральной политехнической школой Лозанны в Швейцарии.,Компания ABB учредила в школе награду (Asea Brown Boveri Ltd. ), вручается каждые два года и награждает оригинальные научные работы в различных областях, таких как энергетика, автоматизация, телекоммуникации и т. д. Каждый раз вручается только одна награда, и конкуренция очень жесткая.
Я получил награду 2018 года за разработку надежного алгоритма ловкого манипулирования сложными объектами и его успешное применение к реальным задачам манипулирования роботами (статья: «Адаптация динамического захвата — от людей к роботам»). также единственный китайский победитель.
В ходе предыдущих исследований роботов было разработано большое количество алгоритмов.,Но это не очень хорошо решает реальную проблему,И мойЭто исследование было впервые успешно применено к реальным проблемам эксплуатации роботов, особенно при захвате и эксплуатации роботов.
После того, как я покинул Федеральную политехническую школу Лозанны в Швейцарии в 2016 году, я обнаружил, что многие результаты исследований в области робототехники все еще трудно реализовать на практике. У людей было много недопониманий относительно захвата и работы роботов, поэтому я решил. вернуться в Китай, чтобы основать компанию. Роботизированная технология распространяется на сценарии практического применения.
После того, как я вернулся в Китай, моя предпринимательская команда продолжила изучать эту технологию, применяя ее для захвата и операций в логистике, аптеках и других сценариях, а также постоянно совершенствуя решения.
Leifeng.com: В 2016 году вы вернулись в Китай, чтобы начать бизнес и заняться исследованием приложений, связанных с захватом роботов и интеллектуальным управлением. Почему вы решили вернуться в Китай, чтобы начать бизнес?
Ли Мяо:Когда я впервые вернулся, я все еще былfresh Доктор философии, чьи знания в отрасли все еще ограничены, пытался найти подходящие сценарии реализации алгоритма сканирования. Он пытался реализовать его от логистики, промышленности до медицинских сценариев и, наконец, сосредоточился на медицинских сценариях.
В это время мы нашли,Роботизированное изделие должно не только иметь технологию захвата, но также должно быть оснащено большим количеством вспомогательного аппаратного оборудования.Постепенно было сформировано комплексное решение.。
После того, как я пришел работать в Уханьский университет в 2017 году, эти ранние работы также косвенно повлияли на мое исследовательское направление в университете, заставив меня уделять больше внимания практическому применению роботов.
Leifeng.com: Еще в 2022 году вы совместно с профессором Чэнь Фэем из Гонконгского отделения китайского языка и литературы опубликовали статью о кулинарных роботах «Приготовление пищи с помощью стир-фрай: двуручное нехватательное манипулирование полужидкими объектами». Фокус отличается от статьи «Консолидация деревьев роботизированных планов, созданных с использованием больших языковых моделей для повышения надежности», ранее опубликованной профессором Сунь Юем в журнале IJAIRR? Какие еще направления робототехники в кулинарии, по вашему мнению, стоит изучить?
Ли Мяо:В сцене на кухне,Требования к роботу самые полные,Будь то прекрасное движение,Или план более высокого измерения?,и понимание различных модулей,Сцены приготовления пищи самые богатые.
Даже чувства вкуса и обоняния, которые редко используются в других сценах, также задействованы в сценах приготовления пищи.
робот в сцене готовки Работу можно разделить на две большие логики,Один из них — планирование задач верхнего уровня, а второй — планирование действий нижнего уровня.Мое сотрудничество с профессором Чэнь Фэем больше основано на действии.планирование,Исследование профессора Сунь Юя касается уровня задачпланирование。
Для соединения планирования задач верхнего уровня и планирования действий нижнего уровня также необходим средний слой, который также можно назвать связующим слоем.
В текущей области исследований углубленное изучение архитектуры среднего уровня еще не достигло ожидаемой зрелости.
Будь то использование языка определения предметной области планирования (PDDL) для формального описания и объединения задач автоматизированного планирования, использование экспертных систем на основе правил для поддержки принятия решений или использование нейронных сетей для создания экспертных систем, эти методы показали определенные ограничения в достижении эффективности и эффективности. надежные возможности обработки среднего уровня.
Эти технологии по-прежнему сталкиваются со многими проблемами при работе с динамически меняющейся средой, повышении прозрачности и интерпретируемости решений, а также расширении возможностей обобщения системы.
Leifeng.com: Ваши исследования в области робототехники также объединяют знания из различных дисциплин, таких как машинное зрение и глубокое обучение. Как вы оцениваете значение междисциплинарного сотрудничества в исследованиях в области робототехники?
Ли Мяо:робот Исследование можно условно разделить на четыре части.:дизайн(Воплощенный)、Восприятие、планирование、контроль.
С точки зрения восприятия, когда роботу необходимо получить визуальную информацию, ему необходимо сотрудничество визуальных датчиков; когда роботу нужно получить тактильную информацию, ему необходимо сотрудничество тактильных датчиков. Это, похоже, междисциплинарное исследование.
Но когда мы смотрим на это с точки зрения текущей большой модели или с точки зрения данных, эти вещи сами по себе интегрированы.
Роботы мультимодальны как на уровне воплощения, так и на уровне восприятия.робот Внешность может быть гуманоидной,Он также может быть в форме собаки; информация, получаемая роботом, может быть либо визуальной, либо визуальной.,Это также может быть тактильная информация. Мы можем рассматривать это содержание как часть исследования роботов.
2
Когда роботы встречают большие модели
Leifeng.com: Появление технологий больших моделей оказало огромное влияние на исследования в области робототехники. Какие применения этой технологии были применены в ваших исследованиях?
Ли Мяо:В моем сотрудничестве с отраслью,Уже начались попытки применить крупномасштабные технологии для исследования и разработки роботов для домашних услуг.
Возьмем, к примеру, подметальную машину. При восприятии подметальной машины мы используем большие модели для генерации данных и синтеза данных моделирования, чтобы устранить недостатки реальных данных. В то же время мы интегрируем в восприятие логические рассуждения, основанные на собственных. семантическая карта, чтобы подметальная машина могла более разумно оценивать движение и избегать помех от таких препятствий, как провода и мусор;
В разделе отчета об уборке мы используем большие модели для создания отчетов об уборке и позволяем пользователям добавлять собственные параметры к содержимому отчета, чтобы получить более полное представление о ситуации в доме.
Мы еще не использовали настоящие большие модели в школьных исследованиях, но начали приближаться к исследованиям в этой области, таким как сочетание диффузионных моделей (Diffusion Policy) и стратегий производства действий хирургических роботов, сочетание больших моделей и медицинских визуализация и т. д. подождите.
Когда я разговариваю с членами моей команды,всегда подчеркивалНам необходимо смотреть на все проблемы роботов с точки зрения больших моделей, будь то исследование алгоритмов или другие виды работ, если они не связаны с большими моделями, их можно устранить в течение 5 лет.
Работа, которую мы проделали в прошлом, теперь с точки зрения большой модели, спроектированный модуль должен быть достаточно большим и построен в форме «ввод данных, вывод данных». можно получить желаемый результат.
Например, моя докторская диссертация посвящена захвату роботами, и основная задача — устранить неопределенность в процессе захвата. Мой подход в то время заключался в том, чтобы обрабатывать неопределенность отдельно на уровне планирования и уровне исполнения робота.
Проще говоря, когда робот хватает чашку, на уровне планирования могут возникнуть визуальные ошибки, которые не могут гарантировать, что пальцы точно схватят чашку. На уровне выполнения могут возникнуть ошибки веса, которые не могут гарантировать, что робот приложит соответствующие усилия. сила на чашке.
Поэтому неопределенности, существующие в процессе захвата этой чаши, я распределил по разным звеньям и разобрался с ними отдельно.
В отличие от роботов, люди не различают уровень планирования и уровень выполнения, когда берут чашку. Они параллельны.
Мы объединяем эти две связи вместе, что теперь называется мультимодальностью. Данных становится больше, и функции невозможно извлечь. Мы можем решить эту проблему, только преобразовав ее в большую модель, то есть ввод всех данных позволяет создать большую модель. чтобы автоматически понять задачу, интегрировать планирование и выполнение и получить желаемый вывод.
Leifeng.com: Какова текущая тенденция развития в области интеллектуального управления роботами?
Ли Мяо:робот Разработка системы управления изначально была основана на традиционном подвесном обучении.;Позже переросло в имитационное обучение.,Постепенно переход от двухточечного имитационного обучения к использованию сгенерированной модели для имитационного обучения, а затем перерос в обучение с подкреплением;,Просто поставь цель,Установить награду функция (функция вознаграждения), робот может выполнить задание.
Поскольку задачи становятся все более и более сложными, при настройке функции вознаграждения необходимо соблюдать больше условий, и она постепенно становится большой моделью.
Когда в него будут интегрированы требования роботов к силе, зрению, прикосновению и другим различным режимам, это превратится в мультимодальную тенденцию развития больших моделей.
Эта идея развития также имеет недостатки, то есть по мере увеличения требований к данным большие модели будут становиться все более сложными и требовать больше параметров.
На самом деле то, чем мы занимаемся, должно быть расчетом малых параметров. Может быть, 200 параметров — это уже большое количество.
Однако в эпоху больших моделей зачастую используются миллиарды, десятки миллиардов или даже сотни миллиардов параметров, что предъявляет большие требования к вычислительной мощности чипа, особенно когда результаты вычислений необходимо получать за миллисекунды.
Таким образом, будущее требует «конца, периферии и облака» (конец: различные устройства, датчики, интеллектуальное оборудование и т. д. в Интернете вещей; периферия: граница сети, мобильная периферия, периферия Интернета вещей и т. д.; облако: облачные вычисления). , облачное хранилище, облачные приложения и другие области), все трое сотрудничают для развертывания больших моделей в облаке и решают локальные проблемы только на одной стороне при развертывании на одной стороне.
Например, в случае с ходьбой роботов-гуманоидов всеобщее внимание сосредоточено на проблеме, как заставить роботов двигаться устойчиво. Однако долгосрочная навигация роботов-гуманоидов из точки А в точку Б все еще неразрешима. эта концепция:
В этом примере роль периферийных вычислений заключается в решении задач, которые требуют более быстрого реагирования, но не требуют огромных вычислительных ресурсов облака. Таким образом, можно гарантировать, что робот сможет поддерживать низкую задержку при выполнении долгосрочных навигационных задач, а также сможет использовать мощные вычислительные мощности облака для принятия сложных решений. Таким образом, долгосрочная проблема навигации роботов-гуманоидов может быть решена посредством сотрудничества «конца, края и облака».
Leifeng.com: Каково направление исследований вашей исследовательской группы в будущем? На каких аспектах исследования технологий вы сосредоточитесь?
Ли Мяо:В основном вокругробот Захват и ловкая работа,и проводить исследования по соответствующим отраслевым приложениям.
Практики в индустрии робототехники раньше уделяли больше внимания поверхностным приложениям. Например, когда они видели, как люди хватают вещи руками в реальной жизни, они просили роботов выполнить эту работу и заменить людей в ручном труде.
Однако,Из реальной ситуации,Мы рассмотрели множество различных отраслей,НапримерВ таких сценариях применения, как интервенционная хирургия и хирургия головного мозга, человеческие руки должны быть способны выполнять более ловкие операции.
Как можно добиться таких ловких операций с помощью роботов? Какие конкретно технологии задействованы? Это наша цель в будущем.
Мы продолжим изучать эти сценарии, которые было нелегко обнаружить в прошлом, и разрабатывать соответствующие технологии для адаптации к этим сценариям.
Однако до сих пор неизвестно, смогут ли эти технологии быть по-настоящему индустриализированы при соответствующих сценариях в будущем.
Однажды я оценивал сценарий операции по поводу аневризмы головного мозга. Вероятность успеха этой операции составляет всего 50%. Она требует очень большого опыта работы врачей. Индустриализация полностью автоматических хирургических роботов может оказаться невозможной в течение 20 лет.
Но я по-прежнему считаю, что эта работа имеет долгосрочную ценность для всего человечества.
Моя команда уже начала соответствующую исследовательскую работу, например, разработку тактильных датчиков. В хирургии аневризмы головного мозга тактильные датчики должны обнаруживать как нормальные, так и тангенциальные силы, а также справляться с операциями в экстремальных условиях.
Поэтому нам необходимо соединить все аспекты проектирования роботов, их восприятия, планирования, управления и т. д. и смоделировать эти сценарии с использованием больших моделей для продвижения исследований.
Leifeng.com: Судя по вашему опыту работы в отрасли, каковы трудности в процессе разработки роботов, от технологических исследований и разработок до внедрения на сцене?
Ли Мяо:Самая большая проблема в настоящее время – это большая Модельосновные правилаscaling Это также общая проблема, с которой сталкиваются все стартапы по робототехнике.
Возможно, компании, производящие основные компоненты, двигатели и редукторы, преуспевают, но как только дело дойдет до производства конкретной роботизированной продукции, будь то шестиосные роботы, четырехосные роботы или параллельные роботы, продажи и продажи будут не очень высокими. .
Роботоиндустрия пока даже не увидела единого чипа, поэтому о масштабах речи не идет.
это означает,Сам робот может не иметь единой формы.
Я думаю, что, хотя робот и носит это имя, он не может быть полностью эквивалентен роботу-гуманоиду. С биологической точки зрения на самом деле существует больше существ разных форм, которые могут лучше решать проблемы. Например, человеческая прыгучесть не является лучшей. не самая высокая скорость бега, и он даже не может летать, поэтому гуманоидная форма не является окончательным выбором для роботов.
Оставляя в стороне уровень воплощения, нам также необходимо посмотреть, можно ли значительно повысить уровень интеллекта роботов. Только путем итерации других различных интеллектуальных продуктов через уровень интеллекта можно решить общие проблемы в робототехнике.
Например, системы «умный дом» могут предоставлять более персонализированные услуги за счет интеграции более умных роботизированных технологий; беспилотные автомобили могут повысить безопасность и эффективность за счет технологий восприятия и принятия решений роботами; дроны могут использовать технологии навигации и управления роботов для выполнения более сложных задач; и многое другое.
Предварительный просмотр круглого стола GAIR в прямом эфире
8 апреля с 20:00-22:00 по пекинскому времени Leifeng.com проведет онлайн-форум за круглым столом на тему «Технологические инновации и сценарная реализация роботов в эпоху больших моделей».
Среди гостей этого форума профессор Сунь Юй из Университета Южной Флориды, профессор Ли Мяо из Уханьского университета, профессор Чжан Вэй из Южного университета науки и технологий и доктор Пан Цзяньсинь из UBTECH.
«Глобальная конференция по искусственному интеллекту и робототехнике» (GAIR) началась в 2016 году как конференция CCF-GAIR, основанная Leifeng.com и Китайской компьютерной федерацией (CCF). Ее цель - объединить научные круги, промышленность и инвестиционные круги. волна искусственного интеллекта. На этой конференции также была создана новая платформа и новое позиционирование Leifeng.com «соединение трех миров».
После нескольких лет разработки конференция GAIR стала отраслевым эталоном. Это, безусловно, крупнейшее, самого высокого уровня и наиболее комплексное академическое, промышленное и инвестиционное мероприятие в области искусственного интеллекта в регионе Гуандун-Гонконг-Макао. Район залива.
GAIR Live, являясь брендом прямых видеотрансляций под управлением Leifeng.com, стремится публиковать свежие, глубокие и оригинальные интервью и диалоги со знаменитостями, а также создавать уникальную онлайн-платформу, которая излучает индустрию, обучение, исследования и инвестиции.
«Разговор с профессором Сунь Юем из Университета Южной Флориды: когда для планирования задач робота используются большие языковые модели 丨IJAIRR»
https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog
бумага:Объединение деревьев роботизированных планов, созданных с использованием больших языковых моделей, для повышения надежности,https://gairdao.com/doi/10.1142/S2972335324500029
Международный журнал исследований искусственного интеллекта и робототехники (IJAIRR) — международный академический журнал, издаваемый совместно Сингапурским исследовательским институтом GAIR и World Science and Technology Press.
Являясь первым в мире журналом, посвященным искусственному интеллекту (ИИ), робототехнике (Робототехника) и фундаментальным междисциплинарным исследованиям (Исследования), IJAIRR стремится стать авторитетной издательской платформой для исследований в области ИИ и робототехники.
IJAIRR приветствует заявки в виде исследовательских работ, обзорных статей, коротких статей, рецензий на книги и специальных выпусков.
Мы уделяем особое внимание выдающимся статьям, которые были опубликованы на ведущих конференциях по искусственному интеллекту и представлены в прямом эфире, но не имеют долгосрочной платформы для прогнозирования. Чтобы предоставить этим статьям и их авторам более широкий канал публикации и продвижения, IJAIRR в настоящее время активно приглашает к представлению соответствующих статей.
(1) «Если ваша статья была опубликована (или собирается быть опубликована) на ведущей конференции в этой области не более одного года, мы поможем вам опубликовать ее в журнале IJAIRR с небольшими изменениями.
(2) Если команда, которую вы возглавляете, опубликовала несколько статей на ведущих конференциях и надеется запланировать специальный выпуск по определенной теме на IJAIRR, мы искренне приглашаем вас более подробно обсудить сотрудничество.
(3) Если вы являетесь организатором крупной конференции и заинтересованы в сотрудничестве с IJAIRR для планирования специального выпуска для конкретной конференции, мы также будем рады обсудить с вами детали сотрудничества.
IJAIRR надеется на сотрудничество с вами для совместного содействия развитию исследований в области искусственного интеллекта и робототехники.