В этой статье в основном рассказывается о применении радара миллиметрового диапазона для обнаружения роботов BEV. При создании автономных систем восприятия роботов исследователи и инженеры все больше внимания уделяют объединению датчиков для полного использования кросс-модальной информации. Однако для создания крупномасштабных роботизированных платформ нам также необходимо обратить внимание на стоимость автономных роботизированных платформ. Камеры и радары миллиметрового диапазона содержат дополнительную сенсорную информацию и могут быть использованы при разработке крупномасштабных автономных роботизированных платформ. Однако по сравнению с исследовательской работой по слиянию камер и лидаров, работ по слиянию видеолокаторов и радаров миллиметрового диапазона меньше.
В этой статье мы в основном знакомим с работой метода объединения радаров миллиметровых волн для системы обнаружения объектов BEV (голый электромобиль).
Во-первых, мы представляем исходную информацию, включая задачу обнаружения объектов, выбор датчика, настройку датчика, наборы эталонных данных и показатели оценки для систем восприятия роботов. Затем мы обсуждаем представление данных каждого модальности (камера и радар миллиметрового диапазона), а затем подробно описываем методы слияния датчиков на основе подгрупп, включая предварительное слияние, глубокое слияние и постслияние, чтобы облегчить понимание каждого из них. и недостатки метода. Наконец, мы предлагаем возможные будущие тенденции, которые вдохновят будущие исследования.
Регулярно обновляемое резюме можно найти по следующей ссылке:
https://github.com/ApoorvRoboticist/Vision-RadarFusion-BEV-Survey
01 Введение
SAE (Общество автомобильных инженеров) разделяет роль водителей и возможности автоматизации вождения на следующие уровни в зависимости от уровня возможностей автономного вождения: Уровень 0: отсутствие автоматизации вождения; Уровень 1: Помощь при вождении; Уровень 2: Частичная автоматизация вождения; Уровень 3: Условная автоматизация вождения; Уровень 4: Высокая степень автоматизации вождения. Уровень 5: Полная автоматизация вождения. Для автономного вождения на уровне 2 и выше обнаружение 3D-объектов является ключевой задачей. Однако для того, чтобы эти роботизированные платформы были широко внедрены, нам необходимо сосредоточиться на стоимости оборудования активной безопасности.
Установка камер и радиолокационных датчиков миллиметрового диапазона — это недорогой, высоконадежный и не требующий особого обслуживания вариант. Он может предоставлять богатую семантическую информацию через камеры; он может обеспечивать обнаружение на большом расстоянии с помощью радара миллиметрового диапазона и может адаптироваться к влиянию различного освещения и погодных условий. Для автомобилей уровня 4+ лидар является обычным выбором датчиков, однако для автомобилей уровней 2-L3 камеры и радары миллиметрового диапазона стали доминирующими и находятся в производстве в течение последнего десятилетия. В последнее время было опубликовано много интересных исследовательских работ, посвященных использованию комбинации камер и радара миллиметрового диапазона на более высоких уровнях автоматизации, например [1], [2] и [3].
В [5] представлены характеристики камер и радаров миллиметрового диапазона и их взаимодополняющие аспекты. Камеры, как правило, плохо обобщают прогнозирование BEV, поскольку получаемые ими входные данные ограничены 2D-пикселями. Однако они содержат очень богатую смысловую и граничную информацию. Данные радара миллиметрового диапазона представляют собой входное облако точек, которое уже содержит трехмерные данные и данные о скорости. Однако ему не хватает плотной семантической информации. Таким образом, комбинации камера-радар миллиметрового диапазона могут хорошо работать вместе, но данные, полученные этими датчиками, необходимо отображать в единой системе координат. Входные данные, которые они получают, можно визуализировать на рисунке 1.
Рисунок 1. Восприятие BEV с помощью камер, радара миллиметрового диапазона, карт HD и данных лидара. Источник: Мультимодальный набор данных nuScenes.
Предыдущее исследование [6] рассматривало только аспекты зрения и лидара. Ссылки [7] и [8] охватывают визуальный радар и радар миллиметрового диапазона, но не углубляются в популярные сегодня методы глубокого обучения. В этой статье мы планируем восполнить этот пробел, сначала представив основы обнаружения BEV и модальности датчиков, а затем углубившись в современную технологию синтеза радаров миллиметрового диапазона, уделяя больше внимания популярным в настоящее время методам на основе трансформаторов.
Как показано на рисунке 2, остальная часть этой статьи организована следующим образом:
Во второй части мы сначала представляем исходную информацию, необходимую для понимания восприятия роботом BEV, включая задачи обнаружения объектов, выбор датчиков, наборы контрольных данных, индикаторы оценки и т. д.
Затем, в части III, мы представляем форматы входных данных для камер и радаров миллиметрового диапазона.
В четвертой части мы подробно разберем технологии, задействованные в методе синтеза радиолокационной камеры миллиметрового диапазона. Мы также разобьем их на этапы, чтобы читателям было проще их понять.
В разделе V мы покажем, как обсуждаемые методы оцениваются на наборе эталонных данных для оценки камер и радаров nuScenes [4].
Затем, в разделе VI, мы исследуем возможные расширения, сосредоточимся на текущих тенденциях исследований и предложим последствия для будущих исследований.
Наконец, в разделе VII мы суммируем наши выводы.
Рисунок 2. Структура этой статьи.
02 Предыстория
2.1 Задача обнаружения объектов
Обнаружение 3D-объектов является важной задачей для роботов/платформ автономного вождения. Обнаружение объектов представляет собой комбинацию двух фундаментальных задач компьютерного зрения (т. е. классификации и локализации). Целью обнаружения объектов является обнаружение всех экземпляров предопределенной категории и предоставление их местоположения в пространстве изображения/BEV, обычно представленном с помощью прямоугольников, выровненных по осям. Это часто рассматривается как задача контролируемого обучения с использованием большого количества помеченных изображений. Некоторые ключевые проблемы в задачах обнаружения объектов включают в себя:
· BEV Коробка означает (Коробка BEV representation):камера Изображение в перспективе,Но последующие автономные задачи выполняются с высоты птичьего полета (BEV). поэтому,Нам нужен способ преобразования перспективной информации в ортогональное пространство (BEV). Потому что мы добавили новое измерение глубины,Следовательно, это вызовет проблему размытия информации о глубине.
· Богатая семантическая информация (Rich Semantic Information):иногда,Нам нужно различать очень похожие объекты.,Например, несколько близко расположенных друг к другу объектов, которые выглядят одинаково.,Или, может быть, пешеход на скейтборде. В последнем случае,Пешеходы, стоящие на скейтбордах, должны повторять движение модели велосипеда.,Но обнаружить этот атрибут пешеходов сложно. Чтобы идентифицировать эту детальную информацию,Нам необходимо встроить глубокую семантическую информацию в наши модели.
· Эффективность:Потому что мы строим большую、более глубокая паутина,Поэтому нам нужны дорогие вычислительные ресурсы для вывода о развертывании. Edge-устройства — распространенные платформы развертывания.,Но это легко может стать узким местом.
· Внеземные объекты (Out of domain objects):Категории, которые мы можем обучать с помощью сети, ограничены.。во время тестирования,Мы можем столкнуться с некоторыми категориями объектов, которые не видели во время обучения. Детекторам всегда не хватает некоторых возможностей обобщения.
2.2 Выбор датчика
Камеры и радар миллиметрового диапазона имеют взаимодополняющие характеристики восприятия, что делает их мощной комбинацией датчиков восприятия. Вклад камер в обнаружение в основном обусловлен богатой семантической информацией и точной информацией о границах. Камеры не очень точно предсказывают границы при объединении временных данных или в неблагоприятных погодных условиях. Однако радар миллиметрового диапазона может компенсировать недостаток камер. Радар миллиметрового диапазона способен очень точно предсказывать глубину и скорость объектов, используя эффект Доплера. В то же время данные радиолокации миллиметрового диапазона очень скудны, поэтому вычислительная нагрузка не является чрезмерной. По сравнению с другими лазерными датчиками, большая длина волны радара миллиметрового диапазона делает его единственным датчиком восприятия, производительность которого не ухудшается при неблагоприятных погодных условиях (таких как дождь, снег, пыль и т. д.). Эти характеристики хорошо суммированы на третьем рисунке [5].
Рисунок 3. Характеристики датчиков камеры, радара миллиметрового диапазона и лидара. Учитывая взаимодополняемость как пространственную, так и смысловую, объединение камер и радаров миллиметрового диапазона имеет большой потенциал.
Еще одна редко обсуждаемая проблема, с которой сталкивается радар миллиметрового диапазона, — это его неспособность обнаружить составляющую скорости специальных объектов в радиальном направлении, как показано на рисунке 5. Еще одно место, где радар миллиметрового диапазона и любой лазерный датчик не могут обнаружить черные объекты/автомобили, которые поглощают большую часть лазерного света. Камера является резервным датчиком, на который полагаются в таких особых ситуациях.
2.3 Конфигурация датчика
Автономные транспортные средства (AV) обычно оснащены набором датчиков, и точная конфигурация может варьироваться в зависимости от компании-производителя автономных транспортных средств. Обычно каждая машина оснащена 6–12 камерами и 3–6 радарами. Так много датчиков необходимо, чтобы охватить всю окружающую 3D-сцену. Мы можем использовать только камеры с нормальным полем зрения (FOV), иначе могут возникнуть неустранимые искажения изображения, например камеры типа «рыбий глаз» (широкий FOV), которые подходят только на расстоянии нескольких десятков метров. В nuScenes [4], одном из наиболее влиятельных наборов эталонных данных в области автономного вождения, мы можем увидеть конфигурацию датчиков, показанную на рисунке 4. По экономическим причинам индустрия AV/мобильной робототехники больше внимания уделяет использованию радаров и камер миллиметрового диапазона на серийных транспортных средствах, чем LiDAR. В этом примере мы видим, что имеется 5 радаров миллиметрового диапазона, 6 камер и только 1 лидар. Эти числа также представляют конфигурации других компаний-производителей автомобилей L3+.
Рисунок 4. Конфигурация датчика набора данных NuScenes.
2.4 Набор контрольных данных
nuScenes [4], KITTI [9] и Waymo Open Dataset (WOD) [10] — три наиболее часто используемые задачи обнаружения объектов 3D BEV. Помимо них, для задач обнаружения BEV также можно использовать H3D [11], Lyft L5 [12], BDD [13], STF [14] и Argoverse [15]. Подробную информацию об этих наборах данных можно просмотреть в Таблице 1.
Таблица 1. Информация о наборах эталонных данных для обнаружения объектов 3D BEV, обычно используемых в автономном вождении.
2.5 Показатели оценки
Детекторы 3D-объектов используют несколько критериев для измерения производительности детектора, включая точность и полноту. Однако средняя точность (mAP) является наиболее распространенным показателем оценки. Коэффициент пересечения по объединению (IoU) — это отношение области перекрытия к площади объединения между прогнозируемым блоком и основным блоком истинности. Порог IoU (обычно 0,5) используется для определения того, соответствует ли прогнозируемый блок конкретному блоку базовой истины. Если IoU превышает пороговое значение, прогноз считается истинно положительным (TP), в противном случае — ложным положительным (FP). Реальные объекты, которые не удается обнаружить с помощью какого-либо окна прогнозирования, считаются ложноотрицательными (FN). Точность — это отношение извлеченных экземпляров к релевантным экземплярам; полнота — это отношение извлеченных релевантных экземпляров к общему числу релевантных экземпляров.
На основе приведенного выше уравнения средняя точность рассчитывается отдельно для каждого класса. Для сравнения производительности разных детекторов используется mAP. Это средневзвешенное значение, основанное на количестве ящиков с наземной информацией для каждой категории.
Кроме того, существуют некоторые метрики, специфичные для набора данных, такие как KITTI, вводящий среднее сходство ориентации (AOS) для оценки качества оценки ориентации ящиков на плоскости земли. Индикатор mAP учитывает только трехмерное положение объекта и игнорирует влияние размера и ориентации. В этом контексте nuScenes вводит индикаторы TP, включая среднюю ошибку перевода (ATE), среднюю ошибку масштаба (ASE) и среднюю ошибку ориентации (AOE). WOD вводит средневзвешенную точность по направлению (APH) в качестве основного показателя. Этот индикатор также учитывает информацию о направлении. Кроме того, ввиду проблемы путаницы в глубине в 2D-датчиках, таких как камеры, WOD вводит систему средней точности 3D с устойчивостью к продольным ошибкам (LET-3D-AP), которая при прогнозировании уделяет больше внимания боковым ошибкам, а не продольным ошибкам.
03 Формат входных данных
В этом разделе мы описываем форматы необработанных данных, возвращаемых камерами и радарами миллиметрового диапазона, а также метаданные, используемые для преобразования этих данных в единую систему координат, то есть декартову систему координат с центром в транспортном средстве.
3.1 Камера
Изображение с камеры объемного звучания можно выразить как
. Здесь,
、
、
и
Это количество временных рамок、Количество просмотров、Высота и Ширина. данный
изображения камеры
, каждое изображение имеет матрицу внешних параметров
Внутренняя матрица параметров
, мы можем найти растровую карту объектов BEV на основе системы координат BEV, где
,в
、
и
Это глубина канала, высота и ширина карты BEV соответственно. Внешние параметры и матрицы внутренних параметров совместно определяют опорные координаты.
к локальным пиксельным координатам каждого вида камеры
картографии. На рис. 1 представлено изображение автономного транспортного средства.
Радар 3,2-миллиметрового диапазона
радар миллиметрового Датчик — это тип активного датчика, используемого в робототехнике, который воспринимает окружающую среду путем излучения радиоволн и измеряет отраженные волны, чтобы определить положение и скорость объектов. Необработанный выходной сигнал датчика имеет полярную форму и может быть легко преобразован в пространство BEV с помощью матрицы калибровки датчика. Однако зашумленные радиолокационные точки необходимо фильтровать, используя ту или иную форму кластеризации и временного отслеживания. Это временное отслеживание может быть достигнуто с помощью фильтра Калмана [16]. Фильтр Калмана — это рекурсивный алгоритм, который оценивает текущее состояние цели путем получения ранее наблюдаемых оценок целевого состояния и измерений текущего состояния. После внутренней фильтрации радар возвращает 2D-точку в BEV (исключая измерение высоты), предоставляя азимут и радиальное расстояние до объекта. Как в [3] рисунка. Как показано на рисунке 5, он также генерирует компонент вектора радиальной скорости каждой двумерной точки. Точки здесь можно рассматривать как обнаруженные объекты.
Рисунок 5 В документе [3] показана разница между фактической скоростью и радиальной скоростью. Для цели А скорость и радиальная скорость в системе координат аппарата одинаковы (
). Однако для цели B лучевая скорость, сообщаемая радаром (
) и фактическую скорость объекта в системе координат автомобиля (
)другой.
В современных исследованиях совмещения датчиков BEV результаты обнаружения радаров миллиметрового диапазона представляются трехмерными точками в трехмерной системе координат с центром в транспортном средстве. Эта трехмерная точка в облаке точек радара миллиметрового диапазона параметризуется как
,в
это положение объекта,
— радиальная скорость объекта в направлении xиy. Из-за высокой разреженности облаков точек радара.,Обычно мы объединяем 3–5 временных сканирований. Это добавляет временное измерение к представлению облака точек. Поскольку во многих методах,Головка обнаружения работает на панорамной сцене на 360°.,Мы все будем радар миллиметрового Карта Обнаруженные 3D точки объединяются в одно облако точек. nuScenes [4] Набор данных предоставляет параметры калибровки, необходимые для отображения системы координат радара миллиметрового диапазона в самоцентрированную систему координат. Обратитесь к рисунку 1, чтобы понять облако точек радара миллиметрового диапазона на автономном транспортном средстве.
04 Объединение камеры и радара миллиметрового диапазона
В зависимости от времени, когда мы объединяем информацию от двух датчиков,Эти методы можно разделить на три категории,Прямо сейчаспредварительное слияние, позднее слияние Глубокая интеграция. И раннее, и позднее слияние имеют только одну операцию взаимодействия с разными характеристиками, которая обрабатывается в начале или в конце модуля. Однако, Глубокая интеграция Взаимодействие с большим количеством различных функций. Эти три метода можно найти в Рисунок Удобно суммировать в 6.
Рисунок 6. Метод модального спондилодеза, а именно: A. передний спондилодез; B. глубокий спондилодез; C. поздний спондилодез;
4.1 Предварительное слияние
предварительное Слияние также известно как слияние уровней данных. Это один из наименее изученных вариантов из трех методов. При таком подходе информация от двух датчиков объединяется на очень ранней стадии (т. е. до расчета характеристик). Одной из основных проблем при таком подходе является синхронизация данных. У нас есть камерыдары из разных координатных пространств миллиметрового Свойства привязанных данных и данных также вполне ортогональны. Первый представляет собой плотный 2D-пиксель, а второй — разреженное облако точек BEV. У этого метода практически нет проблем с потерей данных, но не существует эффективного способа борьбы с потерей данных из камерырадара. миллиметрового Сложность оригинальной партии. В этой категории слияния общий поток работы обычно выполняется последовательно. Здесь мы сначала извлекаем область интереса (ROI) на основе радиолокационных точек, затем проецируем ее на камеру и используем некоторые эвристики для сбора характеристик камеры в регионе, как это сделано в литературе [17], [18]. Этот метод не очень надежен, поскольку радар миллиметрового диапазона Ключевые объекты в облаке точек имеют высокую вероятность быть предварительно отфильтрованными.,и из-за особенностей конструкции,Мы даже не будем искать эти объекты на изображении. Однако,Дополнительным преимуществом этого подхода является,Мы будем выполнять операцию свертки только для той части изображения, которая находится в пределах ROI.,Это экономит некоторые вычислительные ресурсы.
4.2 Пост-слияние
Постслияние является самым простым из трех методов и основано на камерах-радарах последних десяти лет. миллиметрового рука Fusion — наиболее распространенный метод обнаружения объектов. Основываясь на наших предыдущих рассуждениях, можно определить, что некоторые объекты и атрибуты лучше обрабатываются камерой, а другие объекты и атрибуты лучше обрабатываются радаром. миллиметрового Группа справляется лучше. Этот метод позволяет отдельным датчикам отдельно обнаруживать объекты, с которыми они хорошо справляются, и объединять два набора результатов обнаружения в один набор, используя простые методы корреляции данных [19]. Однако этот подход страдает тем фактом, что характеристики одного детектора не могут быть улучшены функциями другого детектора. Например, камера обычно хорошо определяет границы, а радар миллиметрового Датчики могут определять скорость с высокой степенью достоверности. Работу в этом процессе можно разделить еще на две части:
1) Метод, основанный на вероятностных рассуждениях:В этом методе,Байесовские методы отслеживания используют плотность вероятности для отслеживания нескольких режимов многоагентных целей. Он аппроксимирует каждую моду плотностью вероятности ее компонентов. Байесовский алгоритм и фильтр частиц (PF) имеют дело с нелинейностью и негауссовой оценкой. Это итерационный алгоритм,Рекурсивно оценить состояние нескольких целей,и определить текущее целевое количество, используя максимальное правдоподобие. Ссылка на [20] и [21] позволяет узнать о представителе Работа.
2) Метод на основе фильтра Калмана:В этом методе,Мы оцениваем текущее состояние цели, получая ранее наблюдаемые оценки состояния цели и измерения текущего состояния.,Как описано в [16]. Простой фильтр Калмана не может точно обрабатывать нелинейные системы. Однако,Расширенный фильтр Калмана (EKF) и фильтр Калмана без запаха (UKF) — более сложные системы.,Может обрабатывать нелинейности в системе. EKF линеаризует нелинейные задачи,иUKFИспользуйте методы статистической линеаризации для линеаризации нелинейных функций случайных величин через точки выборки.。SORT [22]иDeep-SORT [23] является основополагающей статьей в этой категории. SORT использует венгерское сопоставление для задач отслеживания нескольких целей, связанных с данными, и использует фильтр Калмана для оценки модели движения с постоянной скоростью. Глубокий SORT является дальнейшим развитием этой работы, и авторы также добавили в алгоритм информацию о внешнем виде в виде особенностей изображения. Оба алгоритма очень просты и могут легко обрабатываться периферийными устройствами. МХТ [24] — еще один метод отслеживания, основанный на обнаружении, который поддерживает небольшой набор основных гипотез, чему могут способствовать доступные в настоящее время точные детекторы объектов.
Метод постслияние может использовать независимо разработанные готовые алгоритмы обнаружения в качестве модульных компонентов. Однако стратегии объединения на поздней стадии, основанные на эвристике и методах постобработки, должны учитывать надежность производительности, когда два датчика несовместимы.
4.3 Глубокая интеграция
Глубокая интеграция также известна как слияние на уровне функций. В этом подходе мы объединяем информацию от двух датчиков в виде признаков и поэтому считаем его промежуточным шагом по сравнению с ранее обсуждавшимися методами. Согласно текущему исследованию Работа, этот метод имеет наибольший потенциал в будущем. Это подход, основанный на обучении, камерарадар. миллиметрового Характеристики группы могут рассчитываться параллельно, а затем мягко коррелировать. Этот подход можно разделить на три части:
1) На основе радара миллиметрового Создание изображения:для того, чтобырадар миллиметрового преобразуем информацию в виде изображений, извлекаем и радар миллиметрового Характеристики конфигурации преобразуются в матричную информацию об изображении. Это называется радар миллиметрового разные изображения. Эти радары миллиметрового Каналы изображения представляют собой изображения с радара. миллиметрового Информация, представленная парными точками, например физические величины (например, расстояние, скорость и т. д.). Документы [25], [26], [27], [28] и др. Работают в этом направлении. Однако поскольку радар миллиметрового диапазона Природная разреженность облаков точек,Этот метод не увенчался успехом,Потому что они плохо переводятся в матрицы изображений в виде пикселей.
2) Метод на основе CNN:Исследования в этом направлении в основномсосредоточиться на использует сверточную нейронную сеть (CNN) для объединения признаков двух разных модальностей датчиков. Еще два года назад детекторы на основе CNN были самыми современными методами, пока Трансформеры не начали вносить свой вклад в космос. В ветке CNN в одном из репрезентативных документов Работа [29] используется нейронная сеть на базе RentinaNet [30] и магистральной сети VGG [31]. он использует радар миллиметрового Канал настройки для улучшения информации об изображении. Эта модель упрощает задачу, оценивая 2D-бокс. Как называет это автор [29], радар миллиметрового Количество информации, закодированной точкой, отличается от количества информации, закодированной пикселем. Мы не можем просто поместить эту другую информацию в предварительное. слияние。Лучшее решение находится вCNNслияние глубоких,Потому что информация в этих слоях более сжата и содержит более релевантную информацию. Поскольку абстрактно сложно определить, какая глубина является наиболее подходящей глубиной сращения.,Автор разработал сеть,Чтобы он мог самостоятельно изучить стратегию слияния. Эти авторы также представили технику под названием BlackIn [32], в которой они использовали стратегию отбрасывания,Но на уровне сенсоров, а не на уровне нейронов. Это помогает более полно использовать разреженную информацию о точках радара, которую легко затенить плотными пикселями.
CenterFusion [3] — еще одна современная Работа,Он обнаруживает объекты на основе системы обнаружения центральной точки [33]. Они решили ключевую проблему корреляции данных, используя новый подход, основанный на усеченной пирамиде.,Сопоставьте радарные обнаружения с соответствующими центрами объектов. Соответствующие результаты обнаружения радаров используются для создания карт объектов на основе радаров.,для дополнения функций изображения,и вернуть свойства объекта,Такие как глубина, вращение и скорость. они утверждают,Только добавив радарный вход,Может значительно улучшить оценку скорости,Никакой сложной информации о времени не требуется. Основная проблема этой работы заключается в том, что она рассматривает основной датчик как камеру.,А просто воспринимаемые радаром результаты обнаружения сразу отбрасываются. У нас также есть еще одна проблема с этим подходом.,Он производит выборку радиолокационных точек в режиме BEV (вид с высоты птичьего полета) на основе центра изображения. Однако,Поскольку входные данные в сеть изображений представляют собой двумерный перспективный вид.,Нет никакой гарантии, что имиджевая сеть сможет предсказать хорошие центры BEV.
3) Трансформаторный метод:Этот тип метода обычно используетTransformerмодуль,например перекрестное внимание,Кроссовер разных модальностейсосредоточиться на объектах и сформировать более точное представление объекта. В КРАФТЕ [5]середина,Представитель Работа заключается в том, чтобы связать предложения изображений с радиолокационными точками в полярных координатах.,Эффективно обрабатывать различия между системами координат и пространственными атрибутами. Затем на втором этапе,Они используют последовательные слои объединения объектов на основе перекрестного внимания для обмена информацией о пространственном контексте между радарами камер. Эта статья является одним из самых продвинутых методов в текущем рейтинговом списке [4]. MT-DETR — еще один метод,Он использует аналогичную структуру перекрестного внимания для объединения кросс-модальных функций.
05 эксперимент
nuScenes [4] — это набор данных, широко используемый в литературе с настройкой датчика, такой как Рисунок. показано 4,Включает 6 калиброванных камер и 5 радаров.,Может охватить всю сцену на 360°. На тестовом наборе nuScenes,Результаты для классического метода приведены в таблице II.,Результаты фильтруются после камеры радиолокационного слежения.
Основные пояснения сокращений, используемых для измерений, следующие:
mAP: средняя точность; mATE: средняя ошибка перевода; mASE: средняя ошибка масштаба; mAOE: средняя ошибка направления; mAAE: средняя ошибка определения nuScenes.
Таблица 2. Результаты тестов по обнаружению трехмерных объектов с использованием метода объединения камер и радаров миллиметрового диапазона. Сокращения определены в разделе V.
06 дальнейшее расширение
Основываясь на новейших разработках многодоменной технологии обнаружения BEV (электромобилей с аккумуляторной батареей), мы сосредоточимся на возможных направлениях будущих исследований.
6.1 Расширение трансформатора
от Контрольный набор Судя по динамике данных, очевидно, что сеть на основе трансформатора может обеспечить правильное моделирование между визуальными и радиолокационными данными для получения хорошего представления объединенных функций. Даже среди методов, основанных на зрении, Transformer опережает сверточные нейронные сети. Как во II DETR3D [34]иBEVFormer Как подчеркивается в [35], запросы можно легко инициализировать из облаков точек радара. Можно добавить новый слой перекрестного внимания для перекрестного внимания к радиолокационным изображениям, а не только к визуальным особенностям.
6.2 Совместное зондирование
Относительно новой областью является использование мультиагентных и мультимодальных трансформеров для достижения совместного зондирования. Эта установка требует минимальной инфраструктуры для обеспечения бесперебойной связи между различными автономными транспортными средствами на дороге. CoBEVT [36] демонстрирует предварительные доказательства того, как связь между транспортными средствами может обеспечить превосходные характеристики восприятия. Они протестировали свою производительность на наборе эталонных данных зондирования V2V OPV2V [37].
07 в заключение
Обнаружение 3D-объектов — одна из ключевых задач, которую нам необходимо решить для обеспечения надежности восприятия беспилотных транспортных средств. На самом деле, в реальной жизни эта проблема становится сложнее. Нам нужны недорогие датчики, чтобы вывести эту технологию на массовый рынок, продемонстрировав, что автономные транспортные средства имеют более низкие затраты в течение жизненного цикла, чем такси/транспортные средства, управляемые водителем.
Для достижения этой цели радар камеры является ключевым датчиком, который мы можем использовать.
в этой статье,Сначала мы представляем исходную информацию,Понять, почему использование радара-камеры для обнаружения объектов BEV является как технически, так и коммерчески обоснованным. Затем,Мы рассмотрим представление входных данных радара камеры более подробно. затем,Мы представляем в группах новейшие технологии, используемые в литературе и промышленности для слияния камер и радаров.,Чтобы читатели могли легко следить за ними. Мы надеемся, что наша Работа вдохновит на будущие исследования в области совмещения камеры и радара для обнаружения трехмерных объектов.
——Замечательная рекомендация——
1. Использование Transformer для создания BEV на просторечии Обнаружение 3D-объектов
2. Fast-BEV: простая и быстрая платформа BEV.
3. Скачать книгу-"Автономное Глубокое обучение и компьютерное зрение в вождении》
4. Зрение Обнаружение 3D-объекты, от визуальной геометрии до обнаружения BEV