Раскройте тайную технологию речевого перевода и бросьте вызов Международному конкурсу устного перевода
Раскройте тайную технологию речевого перевода и бросьте вызов Международному конкурсу устного перевода

Сердце машины выпущено

Команда машинного перевода Bytedance AI Lab

Автор: Дун Цяньцянь

Язык является одним из наиболее естественных и эффективных способов общения в человеческом обществе и основным инструментом культурной интеграции людей и распространения информации. С приходом глобализации и информационного века международный обмен и распространение информации пережили взрывной рост. Для человеческого общества стала острой потребностью позволить компьютерам понимать разные языки и осуществлять автоматический перевод между языками.

Речь, как естественная, удобная и насыщенная информацией языковая форма, является идеальным способом взаимодействия человека с машиной.

В романе «Автостопом по Галактике» Дуглас Адамс упомянул волшебное существо под названием «Вавилонская рыбка»: оно очень маленькое и живет за счет приема мозговых волн. Люди могут нести его, который поглощает духовные частоты из волн мозга, преобразует их в питательные вещества и излучает телепатический сигнал в разум носителя. Если бы у каждого была вавилонская рыбка в ушах, это позволило бы понять любой иностранный язык и достичь безбарьерного общения.

Технология «Вавилонская рыбка» на самом деле — автоматический перевод речи в речь означает, что машина автоматически завершает процесс перевода речевого сигнала одного языка в речевой сигнал другого языка, как, например, показан перевод с английского на китайский. ниже демо:

Оригинальное английское аудио: (огромное чувство удивления, спонтанности, воображения и творчества.)

Целевое китайское аудио: (Огромное чувство удивления, спонтанности, воображения и творчества.)

Исходное английское звучание: (теперь идея свободы неразрывно связана с понятием автономии.)

Целевое китайское аудио: (Теперь концепция свободы неотделима от концепции автономии.)

Эта технология имеет широкий спектр сценариев применения, таких как зарубежное видео, обмен мгновенными сообщениями, международная торговля и т. д. Она может помочь людям преодолеть языковые барьеры и более эффективно общаться. Вообще говоря, задачи перевода требуют обеспечения точности переведенного контента. Для задач перевода речи в речь, если выходной звук может иметь постоянный тембр, эмоции, ритм и стиль, это может сделать работу более удобной для пользователя. Вот некоторые эффекты перевода с более высоким потенциалом применения:

Тот же тембр:

Оригинальный китайский звук: (Рыбаки не работают и выглядят уставшими и разочарованными.)

Целевой английский звук: (Рыбаки бездействуют, устали и разочарованы.)

Постоянный ритм: (возьмем стресс в качестве примера)

Оригинальное английское аудио: (Сделал he buy or borrow the book?)

Целевой французский звук: (A-t-il acheté ou emprunté le livre)

Последовательный стиль:

Оригинальный китайский звук: (Мастер, я буду с ним соревноваться прямо сейчас!)

Целевой английский звук: (Учитель, я разберусь с ним прямо сейчас!)

Набор данных для перевода речи в речь

В настоящее время имеется относительно мало данных аннотаций для согласования всего процесса перевода речи в речь. По мере того, как парадигма сквозных исследований становится все более популярной, будет создаваться все больше и больше наборов данных. Вот краткое описание существующих наборов данных, которые можно использовать для обучения или тестирования.

Традиционный каскадный метод

Автоматический перевод речи в речь обычно реализуется двумя способами. Традиционные системы искусственного интеллекта реализуются через несколько отдельных модулей, соединенных последовательно, в основном включая распознавание речи, машинный перевод и синтез речи. Типичная ссылка показана на рисунке ниже.

В каскадной системе из-за несоответствия между выходом вышестоящего модуля и входом нижестоящего модуля в системе будут накапливаться ошибки. По мере добавления все большего и большего числа каскадных модулей будет накапливаться больше ошибок в нисходящем направлении, что в конечном итоге приведет к возникновению всей ошибки. ссылка станет недоступной. Поэтому, чтобы повысить удобство использования всей системы ИИ, между двумя подключенными модулями добавляются некоторые модули промежуточного программного обеспечения. Если взять в качестве примера промежуточное программное обеспечение для распознавания речи и машинного перевода, то наиболее распространенные модули обработки включают ITN (обратную нормализацию текста), автоматическую сегментацию предложений, автоматическую пунктуацию, нормализацию разговорного языка и т. д. Кроме того, каждый модуль обычно реализует некоторые стратегии улучшения традиционной модели, чтобы адаптироваться к ошибкам, вносимым вышестоящим модулем, и адаптироваться к входному формату нижестоящего модуля. Если взять в качестве примера машинный перевод, типичные стратегии улучшения включают надежный машинный перевод, контекстно-ориентированный перевод, управляемый машинный перевод и т. д.

сквозной подход

В последние годы стала популярна парадигма сквозного моделирования, то есть непосредственное преобразование речевого сигнала исходного языка в речевой сигнал целевого языка посредством единой модели. Сквозная система имеет меньшую задержку и может облегчить проблему распространения ошибок, возникающую из-за независимых модулей каскадной системы. Она также имеет значительные преимущества в сохранении акустической и просодической информации звука исходного языка. Кроме того, сквозной перевод может использоваться для перевода языков, не имеющих письменности, например некоторых китайских диалектов.

В настоящее время исследования сквозного перевода речи в речь делятся на методы, основанные на непрерывных признаках, и методы, основанные на дискретных единицах, основанных на используемых промежуточных акустических признаках. К методам, основанным на непрерывных признаках, в основном относятся транслатотрон [13] и транслатотрон2 [14]. Транслатотрон состоит из кодера речи, кодера динамика, спектрального декодера и двух вспомогательных задач прогнозирования фонем. Транслатотрон2 включает в себя кодер речи, декодер языка, акустический синтезатор и модуль внимания, соединяющий первые три. Этот отдельный модуль внимания может одновременно предоставлять акустическую информацию из исходной речи и лингвистическую информацию целевого текста, а также сохранять детальную нелингвистическую информацию в процессе перевода. Методы, основанные на дискретных единицах [15-17], обычно сначала используют предварительно обученную акустическую модель (например, Hubert [18]) для выполнения процесса Speech2Unit, преобразуют ее в дискретные единицы, а затем используют вокодер на основе единиц для генерации звука. . Этот дискретный блок может в определенной степени отделять акустическую информацию от языковой информации.

В последние годы методы сквозного моделирования постепенно привлекли внимание научных кругов и промышленности из-за больших перспектив их применения. Однако сквозное обучение требует относительно больших данных, а недостаток данных для обучения является одной из основных проблем текущих исследований в этой области. Методы увеличения данных, основанные на технологии псевдоаннотаций [19-22], могут эффективно решить эту проблему. Распространенным подходом является использование механизма машинного перевода для получения псевдоаннотированных меток перевода или использование механизма синтеза речи для получения псевдоаннотаций. аудио метки и т.п. .

Сквозная оценка перевода речи в речь в последнее время также является популярной темой исследований. Оценки обычно включают два аспекта: качество перевода и качество синтезированного звука. Вообще говоря, ручные методы оценки более надежны. Однако ручная оценка требует больших трудовых и экономических затрат. Создание сквозных надежных индикаторов автоматической оценки также требует быстрой итерации модели. Наиболее распространенным методом автоматической оценки качества перевода является ASR-BLEU, который требует использования модели ASR целевого языка для идентификации транскрибированного текста синтетического аудио, а затем вычисляет ее на основе транскрибированного текста и справочного текста (или транскрибированного текста). текст ссылки на аудио) BLEU. Этот процесс приведет к ошибке идентификации модели ASR. В то же время результаты индикатора зависят от используемой модели ASR, и значения не могут быть напрямую сопоставлены между различными исследовательскими работами. Недавно компания Meta предложила независимый от текста индекс оценки перевода речи BLASER [23], который может напрямую рассчитывать оценки перевода для межъязыкового аудио.

Перспективы и резюме

С ростом популярности AIGC перевод аудио и видео также станет новой тенденцией в машинном переводе. Он может внедрять инновации во множество различных игровых процессов, а также создавать различные формы продуктов. Ожидается, что в условиях взрывного роста данных и столь же значительного роста вычислительных мощностей метод сквозного моделирования станет новым решением для реализации. Будь то в академических кругах или в промышленности, новые исследовательские парадигмы — это новые пути, а также означают новые проблемы и возможности. В будущем машинный перевод больше не будет просто взаимодействовать с текстом, чтобы лучше служить людям.

Международная конференция по переводу разговорной речи (IWSLT) — одно из самых влиятельных соревнований по оценке устного машинного перевода в мире. Она в основном посвящена решению задач и проблем, существующих в практическом применении технологий перевода речи. 20-й оценочный конкурс стартует в январе 2023 года, а окончательные результаты оценки будут представлены в апреле. Официальная конференция пройдет одновременно с ACL 2023 в Торонто, Канада, 13-14 июля 2023 года и примет форму гибридной онлайн- и офлайн-конференции. Адрес регистрации оценки: https://iwslt.org/2023/#registration. Подробную информацию о IWSLT 2023 можно посмотреть на официальном сайте оценки: https://iwslt.org/2023/. Оргкомитет также предоставляет оценочный форум для получения информации о конкурсе: iwslt-evaluation-campaign@googlegroups.com. Команда переводчиков Volcano ByteDance AI Lab отвечает за организацию оценочного курса англо-китайского речевого перевода и предоставит данные для обучения и базовые показатели.

Ссылки:

[1] An Approach to Corpus-based Interpreting Studies: Developing EPIC (European Parliament Interpreting Corpus)

[2] CIAIR Simultaneous Interpretation Corpus

[3] Large-Scale English-Japanese Simultaneous Interpretation Corpus: Construction and Analyses with Sentence-Aligned Data

[4] The EMIME Bilingual Database

[5] Design of A Speech Corpus for Research on Cross-lingual Prosody Sransfer

[6] Improved Speech-to-text Translation with the Fisher and Callhome Spanish-English Speech Translation Corpus

[7] LibriS2S: A German-English Speech-to-Speech Translation Corpus

[8] Mass: A Large and Clean Multilingual Corpus of Sentence-aligned Spoken Utterances Extracted from The Bible

[9] Voxpopuli: A large-scale Multilingual Speech Corpus for Representation Learning, Semi-supervised Learning and Interpretation

[10] CVSS Corpus and Massively Multilingual Speech-to-Speech Translation

[11] FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech

[12] SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations

[13] Direct Speech-to-Speech Translation with A Sequence-to-Sequence Model

[14] Translatotron 2: High-quality Direct Speech-to-Speech Translation with Voice Preservation

[15] Direct Speech-To-Speech Translation With Discrete Units

[16] UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units

[17] Textless Direct Speech-to-Speech Translation with Discrete Speech Representation

[18] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

[19] Leveraging Unsupervised and Weakly-supervised Data to Improve Direct Speech-to-Speech Translation

[20] Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation

[21] Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation

[22] Improving Speech-to-Speech Translation Through Unlabeled Text

[23] A Text-Free Speech-to-Speech Translation Evaluation Metric

© THE END 

Пожалуйста, свяжитесь с этим общедоступным аккаунтом, чтобы получить разрешение на перепечатку.

Публикуйте статьи или ищите освещение: content@jiqizhixin.com

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose