Изображение: Камера «рыбий глаз» и ультразвуковой датчик для обнаружения препятствий в ближнем поле с высоты птичьего полета
В ролях: Ариндам Дас, Сударшан Пол, Нико Шольц, Ахилеш Кумар Мальвия, Ганеш Систу
Редактор: Облако точек PCL
краткое содержание
Точное определение препятствий в восприятии ближнего поля для автономного вождения является фундаментальной задачей. Традиционно камеры типа «рыбий глаз» часто используются для кругового обзора, включая позиционирование препятствий заднего вида. Однако производительность таких камер может значительно снизиться в условиях низкой освещенности, ночью или при ярком солнечном свете. Напротив, более дешевые датчики, такие как ультразвуковые датчики, обычно не подвергаются воздействию этих условий. Поэтому мы предлагаем то, что мы знаем как первую комплексную мультимодальную модель слияния, предназначенную для эффективного восприятия препятствий в режиме наблюдения с высоты птичьего полета (BEV), используя камеры «рыбий глаз» и ультразвуковые датчики. ResNeXt-50 впервые используется как набор одномодальных кодеров для извлечения функций, специфичных для каждой модальности. Пространство признаков, связанное с видимым спектром, затем преобразуется и преобразуется в BEV. Слияние этих двух модальностей достигается посредством последовательного соединения. В то же время карта одномодальных признаков, основанная на ультразвуковом спектре, используется для устранения несовпадения датчиков между двумя датчиками в объединенном пространстве признаков посредством свертки расширения с учетом содержимого. Окончательные объединенные функции используются двухэтапным семантическим декодером занятости для генерации прогнозов на основе сетки для точного восприятия препятствий. Мы провели систематическое исследование для определения оптимальной стратегии мультимодального слияния двух сенсоров. Предоставляется информация о процедурах создания наборов данных, рекомендациях по аннотациям, а также проводится тщательный анализ данных, чтобы обеспечить адекватный охват всех сценариев. Результаты эксперимента подчеркивают надежность и эффективность предложенного нами подхода мультимодального слияния при применении к нашему набору данных.
Основные вклады
Обнаружение препятствий с помощью ультразвуковых датчиков Ультразвуковые датчики распознают окружающую среду посредством эхо-позиционирования и поддерживают передовые системы помощи водителю (ADAS). Эти системы могут обнаруживать препятствия и уведомлять водителя с помощью визуальных или звуковых сигналов на человеко-машинном интерфейсе (HMI). На рис. 2(а) показана общая схема комплекта ультразвуковых сенсорных систем обнаружения неклассифицированных препятствий.
Рисунок 2: (а) Место установки ультразвукового датчика и камеры «рыбий глаз». Двенадцать ультразвуковых датчиков показаны серыми прямоугольниками на контуре автомобиля, а задняя камера «рыбий глаз» показана розовой точкой на задней части автомобиля. Ни один из символов не отображается в масштабе реальных датчиков. (б) Схематическая иллюстрация заполнения карты ультразвуковой сетки для примерной ячейки сетки и примерного пути прохождения сигнала. Сетчатые диаграммы нарисованы не в масштабе.
Для достижения надежного зондирования ближнего поля,В данной статье основное внимание уделяется выявлению препятствий с высоты птичьего полета. Ультразвуковые датчики — это технология, подходящая для комбинации с камерой «рыбий глаз».,Они обеспечивают экономичное обнаружение целей на малых и средних дистанциях.,Низкое энергопотребление,Нечувствительность к цвету или материалу предметов.,Не чувствителен к окружающему свету,Поэтому это очень ценно при автономном вождении. В этой статье представлена модель слияния на основе сквозной сверточной нейронной сети (CNN).,Предназначен для использования датчиков типа «рыбий глаз» и ультразвуковых датчиков.данные Восприятие препятствий с высоты птичьего полета。Используяпредварительная На этапе обработки необработанные амплитуды эхо-сигнала, генерируемые ультразвуковым датчиком, преобразуются в изображения, которые можно использовать в качестве входных данных для сверточной нейронной сети (CNN). Унимодальные характеристики извлекаются из каждого датчика с помощью стандартного кодировщика, а затем объединяются для получения характеристик, не зависящих от модальности. Наконец, мультимодальные функции преобразуются в вид с высоты птичьего полета, после чего используется декодер семантической сегментации, который выполняет классификацию на уровне пикселей для распознавания препятствий. Основы этой работы вклады Подвести Итог таков:
Обзор контента
Автомобильные датчики для измерения ближнего поля
Автомобильные датчики, такие как ультразвуковые датчики, панорамные камеры, радары, лидары (LiDAR) и фронтальные камеры дальнего действия, как показано на рисунке 3, стратегически установлены вокруг автомобиля, чтобы определять объекты и препятствия в непосредственной близости от автомобиля. Они имеют решающее значение для таких задач, как помощь при парковке, мониторинг слепых зон и предотвращение столкновений на низких скоростях и в сложных городских условиях. Поскольку автономное вождение продолжает развиваться, точные датчики ближнего поля имеют решающее значение для обеспечения безопасности и успеха автономных транспортных средств в сложных реальных сценариях.
Роль камер «рыбий глаз» и ультразвуковых датчиков. Камеры «рыбий глаз» широко используются в автомобильной системе обнаружения с близкого расстояния, а ультразвуковые датчики обеспечивают надежные, маломощные и экономичные средства обнаружения объектов на ограниченных и средних расстояниях для улучшения возможностей обхода препятствий и упрощенные операции по парковке. Другие сопутствующие датчики:
*Радар ближнего действия (SRR): используется для операций в ближнем поле, но склонен к большому количеству ложных тревог.
* Радар среднего радиуса действия (MRR): подходит для обнаружения автомобилей на соседних полосах движения, но ограничен в сценариях движения на высокой скорости.
* Радар дальнего действия (LRR): подходит для дорожных условий, но обеспечивает более низкое разрешение данных.
* Фронтальная камера дальнего действия: имеет данные с высоким разрешением и подходит для интенсивных задач, но производительность ухудшается в неблагоприятных погодных условиях, а поле обзора ограничено.
*Твердотельный лидар: более компактный и надежный, имеет более низкую стоимость и подходит для массового производства, но может быть ограничен полем зрения и разрешением.
Рисунок 3. Различные автомобильные датчики, используемые в типичной системе восприятия, в одномодальных или мультимодальных условиях.
Создание набора данных
Записанные ультразвуковые данные состоят из амплитуд эха от двенадцати ультразвуковых датчиков на переднем и заднем бамперах автомобиля. Поскольку областью нашего интереса является поле зрения задней камеры «рыбий глаз», мы используем только данные шести задних ультразвуковых датчиков, см. рисунок 2(а), на котором показаны ультразвуковые датчики и задняя камера «рыбий глаз» на автомобиле. . Пример места установки.
Сбор данных
Здесь мы узнаем больше о процессе записи ультразвуковых волн, которые состоят из амплитуд эха от двенадцати ультразвуковых датчиков на переднем и заднем бамперах автомобиля. Благодаря нам сосредоточьтесь На поле зрения задней камеры типа «рыбий глаз» мы использовали только шесть задних ультразвуковых датчиков данных. Установка датчиков на бампере машины приведет к перекрытию поля зрения шести ультразвуковых датчиков, так что в любой момент времени вся ближняя зона задней камеры «рыбий глаз» окажется в поле зрения нескольких ультразвуковых сигналов. как показано на рисунке 5. Ультразвуковые датчики распознают окружающие объекты, активно и пассивно прислушиваясь к эху. Узнали об ограничениях поля зрения ультразвуковых датчиков и Сбор Есть две проблемы с данными: данные ультразвука и данные изображения «рыбий глаз» находятся в разных полях, и частота их сбора различна.
Рисунок 5: Предполагаемое поле зрения ультразвуковой сенсорной системы. Фактическое поле зрения также зависит от наблюдаемого объекта. Эхо наиболее сильное на оси датчика и становится слабее для объектов, находящихся вне оси.
предварительная обработка
Вот шаги для предварительной обработки данных.,Чтобы гарантировать, что данные ультразвука и данные изображения «рыбий глаз» могут быть объединены в пространстве признаков. Выберите «Перспектива с высоты птичьего полета» в качестве общей области,Ультразвуковые данные преобразуются в представление поля через сеточную структуру. Амплитуда эхо-сигнала данных ультразвуковой волны распределяется по сетке с помощью таких методов, как интерполяция и угловое затухание. Чтобы синхронизировать две разные области данных,Экспортируем УЗИ с высоты птичьего полета для каждого кадра изображения камеры.,И используйте информацию одометра, чтобы компенсировать движение автомобиля между сбором ультразвука и записью изображения «рыбий глаз». Данные изображения «рыбий глаз», записанные с помощью камеры Panorama Camera System (SVS) с разрешением 2 мегапикселя.,30 кадров в секунду,Ультразвуковые измерения системы заднего бампера проводятся с неравномерными интервалами от 34 до 85 миллисекунд. Существует два основных способа распространения.,40 миллисекунд и 80 миллисекунд соответственно,Как показано на рисунке 6. Эти две части вместе образуют подготовительный этап набора данных.,Решена проблема интеграции ультразвука и визуализации в единую систему.
Рисунок 6: Гистограмма различий между временными метками последовательных ультразвуковых пакетов в примерном сценарии. Два основных режима составляют около 40 мс и 80 мс, что обусловлено интервалами измерения, превышающими период обновления 40 мс.
Статистика набора данных
Набор данных этого исследования содержит в общей сложности 35 сцен, охватывающих обширную информацию о транспортном средстве, включая данные с камер «рыбий глаз» и ультразвуковых датчиков, а также их семантические аннотации с достоверностью с высоты птичьего полета. Посредством представления гистограмм и тепловых карт мы подробно проанализировали распределение расстояний между препятствиями и автомобилем, подчеркнув повсеместное распространение близких препятствий. Результаты наблюдения тепловой карты показывают, что захваченные препятствия не только концентрируются вблизи автомобиля, но и охватывают несколько зон поля зрения автомобиля.
Гистограмма, представленная на рисунке 7, (а), показывает, что большинство препятствий сосредоточены в диапазоне 0–2 метра, что подчеркивает повсеместное распространение препятствий на близком расстоянии. (б) показано пространственное распределение воспринимаемых препятствий в пространстве с высоты птичьего полета.
Разделение набора данных
Набор данных содержит 15 928 кадров, включая изображения RGB «рыбий глаз», ультразвуковые изображения с высоты птичьего полета и маски сегментации наземных данных в BEV. Семантическая аннотация препятствий в наборе данных выполняется с высоты птичьего полета, включая в общей сложности около 8 различных категорий препятствий. Набор данных разделен на обучающий набор (24 сцены), набор проверки (3 сцены) и тестовый набор (8 сцен), при этом особое внимание уделяется сбалансированному распределению сцен в помещении и на открытом воздухе. Такое систематическое разделение обеспечивает достаточную базу данных для обучения и оценки моделей.
Обзор метода
Принципиальная схема предлагаемого метода показана на рисунке 9. Для извлечения признаков независимо от каждой модальности используются два отдельных одномодовых кодировщика. Используя видимый спектр, полученные одномодовые характеристики преобразуются в пространство с высоты птичьего полета. Впоследствии модуль CamFuse используется для объединения этих функций с функциями ультразвукового энкодера. Окончательные мультимодальные характеристики вида с высоты птичьего полета обрабатываются посредством двухэтапного глубокого семантического декодера занятости. Это итеративное декодирование оптимизирует объединенные функции и повышает точность прогнозирования препятствий для каждой сетки. Этот метод основан на базовой работе Роддика и др.
Рисунок 8. Примеры мультимодальных изображений и аннотаций из нашего пользовательского набора данных. Изображения «рыбий глаз», полученные с камеры заднего вида (первый и четвертый столбцы), соответствующие ультразвуковые виды с высоты птичьего полета показаны в третьем и шестом столбцах, маски сегментации препятствий в проекции с высоты птичьего полета видны во втором и шестом столбцах.
Одномодовый кодер: чтобы справиться со значительными различиями в семантическом представлении различных типов препятствий в видимом спектре, ResNeXt-50 используется в качестве одномодового кодера (Ev) для видимого спектра, а другой экземпляр (Ebev u) используется. изучить специфические характеристики BEV Ultrasound. Сеть пирамидных объектов используется для преобразования перспективных объектов в BEV, а также серии остаточных блоков и операций повышения дискретизации для извлечения и настройки многомасштабных функций.
Рисунок 1. Пример метода сопоставления графов на основе семантики.
Проекция с высоты птичьего полета: вертикальное обрезка блоков пирамид на определенных расстояниях в BEV гарантирует, что определенная область сетки в пространстве мировых координат будет точно представлена, когда карта объектов соответствующего блока пирамиды повторно проецируется обратно. Камера «рыбий глаз», основанная на модели камеры Канналы-Брандта, используется для сопоставления карты объектов с ортогональным пространством обзора с высоты птичьего полета посредством расширенной свертки и определенных преобразований.
Расширение с учетом содержимого и мультимодальное объединение функций (CaMFuse). Пространство ультразвуковых функций BEV обрабатывается посредством свертки расширения с учетом содержимого для адаптации к его разреженности. Модуль CaMFuse синтезирует функции, не зависящие от модальности, путем объединения функций «рыбий глаз» и ультразвукового BEV, решая проблемы, которые могут быть вызваны различными представлениями модальностей восприятия и несовпадением датчиков.
Семантическое предсказание занятости: предлагается двухэтапный многомасштабный декодер семантической занятости для прогнозирования вероятности занятости препятствия в сетке BEV путем обработки карты объектов BEV, сгенерированной CaMFuse. Декодер включает в себя последовательные остаточные блоки, предназначенные для сохранения пространственных характеристик и использования контекста автомобильной сцены для улучшения изучения предшествующей геометрии для различных типов препятствий.
эксперимент
Количественные исследования
Эта работа является первой попыткой создать мультисенсорное решение, объединяющее камеры «рыбий глаз» и ультразвуковые датчики для обнаружения препятствий заднего вида. Поскольку прямого сравнения предыдущих работ не существует, а также учитывая, что ни один набор данных не является общедоступным для нашего конкретного случая использования, мы полагаемся на наш собственный набор данных для представления и обсуждения полученных результатов.
Роль окружающей среды. Окружающая среда играет жизненно важную роль в любом алгоритме компьютерного зрения из-за различных условий освещения, существующих между разными сценами, как показано на рисунке 4. В Таблице I мы представляем сравнительный анализ предлагаемого нами метода в сценариях внутри и снаружи помещения. Наша оценка включает в себя производительность одномодальных и мультимодальных моделей. Наши результаты показывают, что модели, обученные с использованием мультимодальных данных, работают лучше по всем показателям оценки. Однако, поскольку задача определена как задача регрессии, модель, обученная с использованием только входных данных ультразвука, не подходит для отзыва, оценки Дайса, точности и IoU.
Типы препятствий. Наш набор данных охватывает различные типы препятствий, как показано в Таблице III, с учетом препятствий, часто регистрируемых в различных отчетах. Неоднородные геометрические и семантические характеристики различных препятствий подчеркивают важность комплексной оценки каждого класса объектов. Этот подход дает ценную информацию о поведении модели и выявляет случаи сбоев. Сводка результатов, представленная в таблице, показывает, что мультимодальная модель превосходит унимодальную альтернативу при преодолении всех типов препятствий. Эта превосходная производительность не ограничивается простым распознаванием наличия препятствий, но также распространяется и на точную локализацию, о чем свидетельствуют такие показатели, как нормализованное расстояние и евклидово расстояние.
Местоположение препятствия. Местоположение препятствия — это еще один аспект, который подтверждает способность модели к обобщению, поскольку семантическое представление камеры «рыбий глаз» и реакция ультразвукового датчика различаются в зависимости от местоположения объекта. В нашем наборе данных мы распределяем расположение препятствий по трем различным категориям: угловые (две крайние конечные точки), центральные (точно посередине) и эксцентричные (где угодно, кроме углов и центра), как показано на рисунке 10.
Рисунок 10: Пример, показывающий различные местоположения препятствий: угол (слева), центр (посередине), не по центру (справа). Вверху: изображение «рыбий глаз» внизу: ультразвуковая карта BEV;
Оценки для каждой категории местоположения препятствий представлены в Таблице IV, где мультимодальные модели оказываются более точными в обнаружении препятствий, чем одномодальные предложения, как показывает евклидово расстояние.
Расстояние до препятствий. Расстояние до препятствий играет ключевую роль в оценке точности восприятия модели препятствия. В Таблице V показан полный набор показателей, охватывающий четыре различные дистанции препятствий. Наши результаты показывают, что мультимодальная модель работает сравнительно лучше по всем измеренным параметрам.
Скорость самостоятельного транспортного средства. Скорость собственного транспортного средства напрямую влияет на стек восприятия всех датчиков, поскольку движение самостоятельного транспортного средства вызывает размытие видимого спектра. Чтобы проверить производительность нашей мультимодальной модели во время движения автомобиля, мы указываем тот же набор показателей в таблице VI. В целом, мультимодальная модель демонстрирует (а) превосходство среди всех предложений, (б) равную эффективность на всех скоростях автомобиля и (в) демонстрирует высокую надежность в условиях движения, будучи очень точным в обнаружении препятствий.
качественные исследования
На рисунке 12 показаны качественные результаты предложенного метода, а также модели, обученной с использованием одномодальных входных данных. Бывают случаи, когда одномодальная модель, основанная на входе RGB, вообще не может обнаружить препятствия, что можно увидеть в четвертой строке рисунка 12 и третьей строке шестого столбца. Стоит отметить, что в случаях, когда одномодальная модель успешно обнаруживает препятствия, она может непреднамеренно повлиять на потенциально опасное планирование самостоятельного движения транспортного средства из-за недостаточного покрытия выходных данных сегментации. Напротив, другая одномодальная модель, обученная с использованием только ультразвуковых карт BEV, может демонстрировать разумные характеристики локализации в первой строке и четвертом столбце этой статьи, но в других столбцах четвертой строки может наблюдаться противоположное поведение. Предлагаемая нами мультимодальная модель неизменно обеспечивает превосходную производительность в различных сценариях, типах препятствий и расстояниях, превосходя одномодальные модели (строки → третья и четвертая строки) по нормализованной ошибке и евклидову расстоянию. Производительность обеспечивает мощное решение для обнаружения препятствий на BEV. . Мультимодальные прогнозы вместе с соответствующими им основными истинами в BEV проецируются обратно во входное пространство изображений типа «рыбий глаз», чтобы обеспечить дальнейшую визуализацию, как показано в строках 7 и 8.
Рис. 12: Качественные результаты предлагаемого метода
Унимодальное и мультимодальное восприятие
Независимо от тестируемых сценариев и условий, мультимодальное зондирование, которое объединяет информацию от разных модальностей датчиков, всегда превосходит одномодальные модели по производительности. На рисунке 11 график совокупной абсолютной ошибки расстояния показывает, что 90% тестовых образцов демонстрируют абсолютную ошибку расстояния почти в ноль метров. Однако, учитывая модель, обученную с использованием только данных видимых датчиков, она показывает абсолютные ошибки расстояния в диапазоне 1-2 метров и 3-4 метров в одномодальной модели, обученной с использованием только данных ультразвука. Эта проверка подтверждает, что модели, специализирующиеся на конкретном датчике, не обладают необходимыми возможностями обобщения для последовательного обеспечения высокой производительности в различных сценариях, особенно по сравнению с мультимодальными моделями. Преимущества мультимодального восприятия двояки: оно расширяет способность системы обнаруживать и локализовать препятствия, а также значительно повышает надежность модели в различных условиях окружающей среды и движения.
Рис. 11: Сравнительный анализ моделей, обученных на мультимодальных, ультразвуковых и видимых данных.
Подвести итог
В этой статье представлена новая сквозная архитектура глубокого обучения.,Мультимодальное восприятие препятствий с высоты птичьего полета,Комбинированная камера «рыбий глаз» и ультразвуковой датчик. Проецируйте изображение с камеры «рыбий глаз» на вид с высоты птичьего полета.,Затем используйте модули расширения с учетом содержимого и мультимодальные функции объединения для объединения с ультразвуковыми датчиками.,чтобы уменьшить зазор между двумя датчиками. Мы предоставляем четкие инструкции по созданию аналогичных наборов мультисенсорных данных, стратегии сбора данных и детали предварительной обработки для конкретных датчиков. Мы также предлагаем две специальные метрики: абсолютную ошибку расстояния и нормализованное расстояние.,производительность для точной оценки восприятия препятствий с высоты птичьего полета. Показано тщательным экспериментальным исследованием нашей собственной коллекции данных.,Мультимодальная Модель значительно превосходит Унимодальное предложение по производительности. в будущей работе,Планируем ввести и другие автомобильные датчики,и соединить их с камерами «рыбий глаз» и ультразвуковыми датчиками,для выполнения других связанных задач,Внедрить полную систему кругового обзора.