Технологические достижения и инновации максимально улучшают повседневную жизнь авторов, но все еще существует значительная часть общества, которая не может пользоваться этими преимуществами из-за физических недостатков. Чтобы по-настоящему воспользоваться преимуществами и сделать эти инновации доступными для более широкого сообщества, люди с особыми талантами и дарованиями также должны иметь беспрепятственный доступ к этим инновациям. Многие приложения, разрабатываемые сегодня, решают эти проблемы, но местные сообщества и другие группы с ограниченным знанием языка могут столкнуться с трудностями в их использовании. Малаялам — дравидийский язык, на котором говорят в индийском штате Керала, и один из двадцати двух официально признанных языков Индии. В последние годы наблюдается распространение инструментов разработки и применения систем малаялам, адаптированных к потребностям штата Керала, но многие из них не предназначены для удовлетворения потребностей людей с нарушениями слуха. Одной из основных проблем является ограниченность или отсутствие данных о языке жестов малаялам и недостаточные усилия в этом отношении. С этой целью в данной статье предлагается метод распознавания языка жестов малаялам с использованием передовых методов глубокого обучения и компьютерного зрения. Авторы начали с разработки размеченного набора данных малаяламского алфавита и использовали передовые методы глубокого обучения, такие как YOLOv8 и компьютерное зрение, для распознавания. Экспериментальные результаты показывают, что точность распознавания сравнима с другими системами распознавания языка жестов. Другие исследователи в области распознавания языка жестов могут использовать эту модель в качестве основы для разработки более продвинутых моделей.
В современном контексте технологических инноваций достижения в различных областях изменили способ существования людей: от образования (Abulibdeh et al., 2024) и здравоохранения (Younis et al., 2024) до развлечений (Takale et al., 2024) и общения. (Голами и Аль Абдвани, 2024 г.). Несмотря на эти преобразующие достижения, некоторые сообщества по-прежнему сталкиваются с барьерами, которые не позволяют им получить доступ к основным привилегиям.
Общение является важным аспектом человеческого взаимодействия, а для людей с нарушениями слуха или речи язык жестов является жизненно важным способом выражения мыслей и идей (Almufareh et al., 2024).
До недавнего времени пользователи языка жестов в Керале сталкивались с проблемой использования более широкого спектра жестовых языков, таких как индийский язык жестов (ISL), американский язык жестов (ASL) или другие региональные языки жестов для эффективного общения (Ренджит и Манажы, 2024; Прия и Сандеш, 2024). Отсутствие языка жестов, специально разработанного с учетом языковых и культурных особенностей Кералы, создает препятствие для налаживания общения среди глухих в регионе.
Национальный институт речевого слуха (NISH) 1 в Тируванантапураме, который занимается обучением и реабилитацией людей с нарушениями речи и слуха, в сентябре 2021 года запустил язык жестов малаялам (MSL), что является огромным шагом вперед в инклюзивность и доступность. Этот проект направлен на расширение прав и возможностей людей с нарушениями слуха и слабослышащих в Керале путем внедрения сложной модели распознавания языка жестов.
Основная цель этого исследования — разработать надежную модель искусственного интеллекта, способную распознавать статические жесты, характерные для языка жестов малаялам, на видео в реальном времени. Используя расширенные возможности компьютерного зрения, модель генерирует соответствующие подписи, которые предоставляют расширенные средства общения для людей с нарушениями слуха и речи. Язык жестов малаялам был запущен в Керале в сентябре 2021 года, что принесло долгожданные улучшения для людей с нарушениями слуха или речи. Исаак и др. (2023) подробно останавливаются на этом и представляют систему распознавания языка жестов в реальном времени с использованием TensorFlow для трансферного обучения.
Он использует веб-камеру для обнаружения и интерпретации символов малаялам на языке MSL и предназначен для улучшения общения людей с нарушениями речи. Пранил и др. (2023) также обсудили ту же проблему и предложили систему распознавания жестов, использующую модифицированную модель Inception V4 для точного распознавания девяти символов малаялам в общении MSL. Система превосходит другие современные методы, достигая коэффициента ошибок Top-1 17,7% и коэффициента ошибок Top-5 3,8%. Салим и др. (2023) также используют трансферное обучение для интерпретации символов MSL. Предложенный ими метод использует ResNet50 для классификации статических изображений алфавита языка жестов с точностью обучения 97%.
62%, а точность проверки 92,35%. YOLO — это современный алгоритм обнаружения объектов, популярный благодаря своим возможностям обработки в реальном времени, способный точно идентифицировать и локализовать несколько объектов на изображении или видео за один проход (Redmon et al., 2016). YOLOv8 является последней моделью в этом семействе моделей и предлагает улучшения в точности, скорости и универсальности по сравнению с более ранними версиями. Тьяги и др. (2023) исследуют применение этих моделей для обнаружения жестов американского языка жестов (ASL). Он сравнивает различные версии YOLO, подчеркивая преимущества YOLOv8 с точки зрения точности и средней точности (mAP). Модель была обучена и протестирована на наборе данных алфавита американского языка жестов и достигла точности 95 %, запоминаемости 97 % и mAP@0,5 96 %. Цзя и Ли предложили усовершенствованную сеть SLR-YOLO для эффективного распознавания языка жестов.
В ответ на проблемы традиционных методов эта модель улучшена на основе YOLOv8, например, заменен модуль SPPF на модуль RFB для улучшения извлечения признаков, а также внедрены модули BiFPN и Ghost для улучшения объединения функций и уменьшения веса сети. Благодаря использованию метода выреза в процессе обучения для повышения способности к обобщению данных точность проверочного набора повышается: точность букв американского языка жестов составляет 90,6%, а точность букв бенгальского языка жестов - 98,5%, что превышает исполнение оригинального YOLOv8.
Улучшенная модель позволила повысить точность на 1,3%, уменьшить параметры на 11,31% и снизить количество FLOP на 11,58%. Видхьясагар и др. (2023) сосредоточены на быстром росте исследований в области распознавания языка жестов.
Используя набор данных Roboflow и трансферное обучение YOLOv8, исследование предлагает систему для транскрипции жестов ASL (от A до Z) в режиме реального времени во время живых встреч или видеоконференций. Модель обеспечивает эффективное общение, извлекая ключевые компоненты из входных видеокадров и классифицируя жесты на основе сравнения нейронных сетей. В этой статье предлагается модель, которая распознает символы малайского языка жестов в видео и упрощает их интерпретацию. Основные положения данной статьи резюмируются следующим образом:
Ниже находится начало раздела «Материалы и методы».
Roboflow, доступный по адресу https://roobflow.com/, представляет собой платформу компьютерного зрения, которая позволяет пользователям эффективно создавать модели, предоставляя улучшенные методы сбора, предварительной обработки и обучения моделей данных. Это чрезвычайно полезный инструмент для исследователей и разработчиков компьютерного зрения, которые хотят упростить и улучшить утомительный процесс предварительной обработки и манипулирования данными. Управление наборами данных для моделей машинного обучения и их подготовка — сложная задача, и именно в этом вся суть Roboflow.
Одной из его выдающихся особенностей является простота интеграции с известными платформами компьютерного зрения, такими как TensorFlow, PyTorch и YOLO. Предоставляя пользователям возможность использовать различные модельные архитектуры и платформы, эта интеграция способствует инновациям и адаптируемости в быстро развивающейся области компьютерного зрения. Увеличение и предварительная обработка данных — ключевые процессы повышения качества и разнообразия наборов данных, которые напрямую влияют на производительность моделей машинного обучения.
Roboflow преуспевает в этих областях, предоставляя богатый набор стратегий расширения для обогащения наборов данных.
Удобный интерфейс платформы позволяет пользователям легко применять преобразования, изменение размера изображения и другие процедуры предварительной обработки, экономя драгоценное время в рабочем процессе подготовки данных. Roboflow — это модель эффективности в сложной области компьютерного зрения. Это лучший выбор среди ученых и разработчиков благодаря своим возможностям интеграции, инструментам управления наборами данных и стремлению улучшить качество данных посредством улучшения и предварительной обработки. Поскольку технологии развиваются, а приложения машинного обучения становятся все более сложными, Roboflow продолжает служить надежным партнером, позволяя пользователям уверенно и легко справляться со сложностями подготовки данных.
Ultralytics, доступный по адресу https://www.ultralytics.com/, представляет собой универсальный набор инструментов для компьютерного зрения, совместимый с популярными платформами, такими как PyTorch и TensorFlow. Он упрощает разработку и обучение моделей благодаря удобному интерфейсу и поддерживает различные архитектуры моделей для удовлетворения различных потребностей проекта. Ultralytics YOLOv8 (https://www.ultralytics.com/yolo), усовершенствованная модель обнаружения объектов, является ключевым компонентом набора инструментов и известна своей эффективностью в реальном времени и высокой точностью. YOLOv8, органично интегрированный с экосистемой Ultralytics, отличается своей универсальностью и адаптируется к разнообразным задачам обнаружения объектов в таких областях, как автономное вождение, наблюдение и промышленная автоматизация. Модель имеет улучшенную архитектуру, включающую такие элементы, как магистральная сеть CSPDarknet53 и PANet, для улучшения извлечения признаков, тем самым повышая точность и надежность. Благодаря технологии оптимизации в наборе инструментов Ultralytics, YOLOv8 использует обучение смешанной точности и распределенное обучение для достижения более быстрой сходимости обучения и эффективного использования ресурсов даже на больших наборах данных. Его успех в реальных приложениях демонстрирует его эффективность в обнаружении целей в различных областях. YOLOv8 имеет удобный интерфейс, который соответствует стремлению Ultralytics к простоте, не жертвуя при этом глубиной модели для сложных задач компьютерного зрения. Активное взаимодействие модели с сообществом Ultralytics обеспечивает постоянное совершенствование, отражая ее отказоустойчивость и удобство для пользователя. Таким образом, Ultralytics YOLOv8 делает важный шаг вперед в моделях обнаружения объектов, предоставляя мощный инструмент для изучения и разработки пешеходов в разнообразных и сложных сценариях реального мира.
YOLOv8 — это модель обнаружения объектов и сегментации изображений в реальном времени, основанная на передовых достижениях в области глубокого обучения и компьютерного зрения, обеспечивающая превосходную скорость и точность. Его упрощенная архитектура подходит для широкого спектра приложений и легко масштабируется на различные аппаратные платформы, от периферийных устройств до облачных API.
Вот разбивка его ключевых компонентов:
YOLOv8 использует точечную модель без привязки и разделительную головку для независимого решения задач объективности, классификации и регрессии. Такая конструкция позволяет каждому филиалу сосредоточиться на своей задаче и повышает общую точность модели. В выходном слое YOLOv8 сигмовидная функция используется в качестве функции активации оценки объективности, указывая вероятность того, что ограничивающий прямоугольник содержит объект.
Он использует функцию softmax для представления вероятности принадлежности элемента к каждой возможной категории. YOLOv8 использует функции потерь CIoU [68] и DFL [108] для потери ограничивающего прямоугольника и двоичную кросс-энтропию для потери классификации. Эти потери улучшают эффективность обнаружения объектов, особенно небольших объектов. В отличие от типичной архитектуры YOLO Neck, магистральная сеть представляет собой экстрактор функций CSPDarknet53, за которым следует модуль C2f. За модулем C2f идут две головки сегментации, которые учатся предсказывать семантическую маску сегментации входного изображения. Модель имеет головку обнаружения, аналогичную YOLOv8, включающую пять модулей обнаружения и уровень прогнозирования. Модель YOLOv8-Seg обеспечивает высочайшую производительность в различных тестах распознавания объектов и семантической сегментации, оставаясь при этом быстрой и эффективной.
Набор данных содержит изображения, извлеченные из видеокадров, на которых запечатлены статические знаки малайского языка жестов в 20 различных жестах. Видео были преобразованы в кадры со скоростью 60 кадров в секунду, в результате чего было получено 100 фотографий каждого жеста. На этапе предварительной обработки были изменены размеры изображений, введен 5%-ный шум и при увеличении данных применен диапазон поворота в десять градусов. После предварительной обработки набор данных содержит 5900 точек данных, включая положительные и отрицательные вращения, что повышает разнообразие и надежность набора данных для эффективного обучения модели. Автор использует Roboflow для процесса аннотирования и форматирует данные в формат YOLO.
В этом разделе подробно описан метод, предложенный автором, который использует сверточные нейронные сети и YOLOv8 для автоматического обнаружения транспортных средств и распознавания номерных знаков. Общий рабочий процесс предлагаемого метода показан на рисунке 4.
Чтобы обеспечить большую точность, авторы разработали специальный набор данных для проекта. 20 жестов были собраны у 20 разных людей путем записи видео со скоростью 60 кадров в секунду и разрешением 4К. Каждый жест содержит примерно 300 кадров, а весь набор данных состоит из 5900 точек данных. На этапе предварительной обработки размер изображений был изменен до 432 x 256 пикселей, чтобы уменьшить размер набора данных и упростить расчеты. Увеличение данных — это метод, используемый в глубоком обучении для улучшения качества данных, используемых для обучения модели. Это достигается путем добавления небольших изменений в существующие выборки данных.
Это помогает предотвратить переобучение модели и повышает ее точность. Авторы использовали два метода улучшения: шум, который добавляет случайный шум к изображению жеста, и вращение, которое поворачивает изображение вправо или влево на заданный угол.
Используя предварительно обученные веса из модели YOLOV8, он реализует трансферное обучение, ускоряет сходимость модели и улучшает возможности обобщения. Эта инициализация помогает модели YOLOv8 изучить общие шаблоны, уменьшая необходимость в больших итерациях обучения.
В частности, в архитектуре YOLOv8 загрузка предварительно обученных весов позволяет модели использовать информацию из более широкого спектра задач по обнаружению объектов, тем самым улучшая ее способность идентифицировать и распознавать объекты на определенном изображении.
Предварительно инициализированные веса обеспечивают надежную отправную точку и значительно сокращают время обучения по сравнению со случайной инициализацией. Унаследованные знания часто приводят к созданию новых моделей с большей точностью, поскольку они используют уже обнаруженные функции и взаимосвязи.
Новая модель наследует способность предварительно обученной модели обобщать новые данные, не встречавшиеся во время ее собственного обучения. Это приводит к повышению производительности при выполнении различных задач и ситуаций. Теперь тренируйтесь с предварительно обученной моделью YOLOv8, используя расширенный набор данных в формате YOLOv8. Процесс обучения, инициируемый позже, корректирует циклы и оценивает производительность модели.
Этот проект был выполнен в системе Windows 11, работающей на системе, оснащенной процессором Intel Core i5. Код выполняется в Google Colab с поддержкой графического процессора. Первоначально автор собрал около 2000 изображений 20 различных жестов 20 разных людей, как упоминалось в разделе 2. Впоследствии автор изменил размер изображения до 432x256 пикселей. Следующий шаг предполагает увеличение данных.
Процесс преобразования набора обучающих данных в новые синтетические образцы данных путем добавления небольших возмущений называется увеличением данных. Это достигается за счет применения шумовой инъекции и вращения. Это делается для того, чтобы сделать модель инвариантной к этим возмущениям и улучшить ее способность к обобщению. В этом наборе данных авторы добавили к набору данных 5% шума и поворот на плюс-минус 10 градусов (см. раздел ??).
Ultralytics YOLOv8 — это платформа глубокого обучения с открытым исходным кодом, предназначенная для обнаружения объектов и решения более сложных задач. Основанный на архитектуре YOLO, YOLOv8 от Ultralytics известен своей эффективностью и скоростью обнаружения объектов в реальном времени. Он включает в себя достижения в области архитектуры моделей, стратегий обучения и вариантов развертывания, что делает его популярным выбором для приложений компьютерного зрения. Платформа реализована с использованием PyTorch и предоставляет удобный интерфейс, который позволяет исследователям и разработчикам легко обучать и развертывать модели обнаружения объектов с высокой точностью и производительностью.
Первоначально автор загружает предварительно обученную модель YOLOv8. Впоследствии автор ввел пользовательский набор данных в модель предварительного обучения и начал процесс обучения модели обнаружения целей YOLOv8. Цель «модель», предположительно являющаяся экземпляром YOLOv8, вызывается с помощью метода «train». Параметр data указывает на файл YAML, который может содержать сведения о конфигурации набора данных, такие как пути к файлам и метки категорий.
Обучение рассчитано на 100 эпох с использованием значения терпения, равного 10 эпохам, для ранней остановки. Подробные настройки указывают детали прогресса обучения, включая значения потерь и метрики. Папка «best.pt» автоматически создается YOLO, и хранящиеся в ней веса располагаются по пути «runs/train/weights». Лучшие веса сохраняются под именем «best.pt». Предварительно обученные веса «best.pt» выбираются на основе заранее определенных показателей (таких как точность или потери), достигнутых в наборе проверки. Выбирая этот предварительно обученный вес для развертывания, код гарантирует, что модель, используемая в рабочей среде, является наиболее эффективной версией, что определяется ее производительностью на невидимых данных.
На рисунке 5 показана матрица путаницы для классификации 20 категорий/флагов с использованием YOLOv8 для данных проверки.
Прогнозируемый класс находится на вертикальной оси, а основная истина — на горизонтальной оси. Можно заметить, что большинство категорий правильно классифицируются YOLOv8, за исключением категории «va», значение которой составляет 0,97. На тепловой карте диагональные ячейки от верхнего левого угла до нижнего правого угла представляют правильные прогнозы.
Чем темнее эти ячейки, тем лучше работает модель. Очевидно, что все диагональные ячейки матрицы путаницы темнее других ячеек, что означает, что модель работает хорошо и дает точные прогнозы.
Первоначально, в первую эпоху, потери при обучении относительно невелики. Это связано с тем, что модель еще не усвоила какие-либо закономерности в данных. По мере продолжения обучения (от эпохи 2 до эпохи 8) потери обучения быстро увеличиваются и начинают уменьшаться с эпохи 9. Это указывает на то, что модель улучшает соответствие обучающим данным и становится более умелой в выявлении в них закономерностей.
Аналогично, потери при проверке также начинаются с более низкого значения в эпоху 1, поскольку модель еще не подвергалась воздействию данных проверки. Однако по мере продолжения обучения (от эпохи 2 до эпохи 8) потери при проверке сначала увеличиваются, а затем уменьшаются. Это положительный признак того, что модель хорошо обобщает невидимые данные. В то же время плавная нисходящая линия тренда указывает на то, что модель обучается и совершенствуется.
Это означает, что ошибка между его предсказаниями и реальностью со временем уменьшается. Средняя точность (mAP) — это показатель, используемый для оценки моделей обнаружения объектов. Он взвешивает точность и полноту, принимая во внимание ложноположительные и ложноотрицательные результаты. Это свойство делает mAP подходящим показателем для большинства приложений обнаружения. Как показано на рисунке **??**, mAP по-прежнему значительно и последовательно повышается на протяжении всего тренировочного процесса, несмотря на периодические колебания.
Модель достигла значения mAP примерно 83,9%.
На рисунке 7 показаны соответствующие метки ориентиров в данных проверки, представленные ограничивающими рамками, а на рисунке 8 показана вероятность правильного предсказания ориентиров. Большинство вероятностей находятся в диапазоне от 0,8 до 0,9, что указывает на высокую точность модели.
Целью этого исследования является создание усовершенствованной системы распознавания языка жестов малаялам, предназначенной для эффективного обнаружения статических жестов. Система не просто переводит эти жесты в субтитры, она делает это в реальном времени, используя возможности компьютерного зрения и глубокого обучения для достижения удовлетворительной точности. Что касается будущих возможностей, запланированные усилия по расширению включают расширение функциональности системы для поддержки динамических жестов.
Потенциальные применения этой модели широки и далеко идущие. Помимо своей непосредственной полезности, система может быть интегрирована в системы реагирования на чрезвычайные ситуации, обеспечивая жизненно важный инструмент связи в критические моменты. Кроме того, внедрение видеозвонков может способствовать инклюзивному общению и устранить препятствия для людей с нарушениями слуха.
Адаптивность модели также распространяется на образовательные учреждения, обеспечивая инклюзивную среду обучения для сообществ, говорящих на языке жестов малаялам. Кроме того, он также может сыграть ключевую роль в разработке инновационных технологий, адаптированных к уникальным коммуникационным потребностям сообщества жестового языка малаялам.
[1].Malayalam Sign Language Identification using Finetuned YOLOv8 and Computer Vision Techniques.