Сердце машины выпущено
Команда машинного перевода Bytedance AI Lab
Автор: Дун Цяньцянь
Язык является одним из наиболее естественных и эффективных способов общения в человеческом обществе и основным инструментом культурной интеграции людей и распространения информации. С приходом глобализации и информационного века международный обмен и распространение информации пережили взрывной рост. Для человеческого общества стала острой потребностью позволить компьютерам понимать разные языки и осуществлять автоматический перевод между языками.
Речь, как естественная, удобная и насыщенная информацией языковая форма, является идеальным способом взаимодействия человека с машиной.
В романе «Автостопом по Галактике» Дуглас Адамс упомянул волшебное существо под названием «Вавилонская рыбка»: оно очень маленькое и живет за счет приема мозговых волн. Люди могут нести его, который поглощает духовные частоты из волн мозга, преобразует их в питательные вещества и излучает телепатический сигнал в разум носителя. Если бы у каждого была вавилонская рыбка в ушах, это позволило бы понять любой иностранный язык и достичь безбарьерного общения.
Технология «Вавилонская рыбка» на самом деле — автоматический перевод речи в речь означает, что машина автоматически завершает процесс перевода речевого сигнала одного языка в речевой сигнал другого языка, как, например, показан перевод с английского на китайский. ниже демо:
Оригинальное английское аудио: (огромное чувство удивления, спонтанности, воображения и творчества.)
Целевое китайское аудио: (Огромное чувство удивления, спонтанности, воображения и творчества.)
Исходное английское звучание: (теперь идея свободы неразрывно связана с понятием автономии.)
Целевое китайское аудио: (Теперь концепция свободы неотделима от концепции автономии.)
Эта технология имеет широкий спектр сценариев применения, таких как зарубежное видео, обмен мгновенными сообщениями, международная торговля и т. д. Она может помочь людям преодолеть языковые барьеры и более эффективно общаться. Вообще говоря, задачи перевода требуют обеспечения точности переведенного контента. Для задач перевода речи в речь, если выходной звук может иметь постоянный тембр, эмоции, ритм и стиль, это может сделать работу более удобной для пользователя. Вот некоторые эффекты перевода с более высоким потенциалом применения:
Тот же тембр:
Оригинальный китайский звук: (Рыбаки не работают и выглядят уставшими и разочарованными.)
Целевой английский звук: (Рыбаки бездействуют, устали и разочарованы.)
Постоянный ритм: (возьмем стресс в качестве примера)
Оригинальное английское аудио: (Сделал he buy or borrow the book?)
Целевой французский звук: (A-t-il acheté ou emprunté le livre)
Последовательный стиль:
Оригинальный китайский звук: (Мастер, я буду с ним соревноваться прямо сейчас!)
Целевой английский звук: (Учитель, я разберусь с ним прямо сейчас!)
В настоящее время имеется относительно мало данных аннотаций для согласования всего процесса перевода речи в речь. По мере того, как парадигма сквозных исследований становится все более популярной, будет создаваться все больше и больше наборов данных. Вот краткое описание существующих наборов данных, которые можно использовать для обучения или тестирования.
Традиционный каскадный метод
Автоматический перевод речи в речь обычно реализуется двумя способами. Традиционные системы искусственного интеллекта реализуются через несколько отдельных модулей, соединенных последовательно, в основном включая распознавание речи, машинный перевод и синтез речи. Типичная ссылка показана на рисунке ниже.
В каскадной системе из-за несоответствия между выходом вышестоящего модуля и входом нижестоящего модуля в системе будут накапливаться ошибки. По мере добавления все большего и большего числа каскадных модулей будет накапливаться больше ошибок в нисходящем направлении, что в конечном итоге приведет к возникновению всей ошибки. ссылка станет недоступной. Поэтому, чтобы повысить удобство использования всей системы ИИ, между двумя подключенными модулями добавляются некоторые модули промежуточного программного обеспечения. Если взять в качестве примера промежуточное программное обеспечение для распознавания речи и машинного перевода, то наиболее распространенные модули обработки включают ITN (обратную нормализацию текста), автоматическую сегментацию предложений, автоматическую пунктуацию, нормализацию разговорного языка и т. д. Кроме того, каждый модуль обычно реализует некоторые стратегии улучшения традиционной модели, чтобы адаптироваться к ошибкам, вносимым вышестоящим модулем, и адаптироваться к входному формату нижестоящего модуля. Если взять в качестве примера машинный перевод, типичные стратегии улучшения включают надежный машинный перевод, контекстно-ориентированный перевод, управляемый машинный перевод и т. д.
сквозной подход
В последние годы стала популярна парадигма сквозного моделирования, то есть непосредственное преобразование речевого сигнала исходного языка в речевой сигнал целевого языка посредством единой модели. Сквозная система имеет меньшую задержку и может облегчить проблему распространения ошибок, возникающую из-за независимых модулей каскадной системы. Она также имеет значительные преимущества в сохранении акустической и просодической информации звука исходного языка. Кроме того, сквозной перевод может использоваться для перевода языков, не имеющих письменности, например некоторых китайских диалектов.
В настоящее время исследования сквозного перевода речи в речь делятся на методы, основанные на непрерывных признаках, и методы, основанные на дискретных единицах, основанных на используемых промежуточных акустических признаках. К методам, основанным на непрерывных признаках, в основном относятся транслатотрон [13] и транслатотрон2 [14]. Транслатотрон состоит из кодера речи, кодера динамика, спектрального декодера и двух вспомогательных задач прогнозирования фонем. Транслатотрон2 включает в себя кодер речи, декодер языка, акустический синтезатор и модуль внимания, соединяющий первые три. Этот отдельный модуль внимания может одновременно предоставлять акустическую информацию из исходной речи и лингвистическую информацию целевого текста, а также сохранять детальную нелингвистическую информацию в процессе перевода. Методы, основанные на дискретных единицах [15-17], обычно сначала используют предварительно обученную акустическую модель (например, Hubert [18]) для выполнения процесса Speech2Unit, преобразуют ее в дискретные единицы, а затем используют вокодер на основе единиц для генерации звука. . Этот дискретный блок может в определенной степени отделять акустическую информацию от языковой информации.
В последние годы методы сквозного моделирования постепенно привлекли внимание научных кругов и промышленности из-за больших перспектив их применения. Однако сквозное обучение требует относительно больших данных, а недостаток данных для обучения является одной из основных проблем текущих исследований в этой области. Методы увеличения данных, основанные на технологии псевдоаннотаций [19-22], могут эффективно решить эту проблему. Распространенным подходом является использование механизма машинного перевода для получения псевдоаннотированных меток перевода или использование механизма синтеза речи для получения псевдоаннотаций. аудио метки и т.п. .
Сквозная оценка перевода речи в речь в последнее время также является популярной темой исследований. Оценки обычно включают два аспекта: качество перевода и качество синтезированного звука. Вообще говоря, ручные методы оценки более надежны. Однако ручная оценка требует больших трудовых и экономических затрат. Создание сквозных надежных индикаторов автоматической оценки также требует быстрой итерации модели. Наиболее распространенным методом автоматической оценки качества перевода является ASR-BLEU, который требует использования модели ASR целевого языка для идентификации транскрибированного текста синтетического аудио, а затем вычисляет ее на основе транскрибированного текста и справочного текста (или транскрибированного текста). текст ссылки на аудио) BLEU. Этот процесс приведет к ошибке идентификации модели ASR. В то же время результаты индикатора зависят от используемой модели ASR, и значения не могут быть напрямую сопоставлены между различными исследовательскими работами. Недавно компания Meta предложила независимый от текста индекс оценки перевода речи BLASER [23], который может напрямую рассчитывать оценки перевода для межъязыкового аудио.
Перспективы и резюме
С ростом популярности AIGC перевод аудио и видео также станет новой тенденцией в машинном переводе. Он может внедрять инновации во множество различных игровых процессов, а также создавать различные формы продуктов. Ожидается, что в условиях взрывного роста данных и столь же значительного роста вычислительных мощностей метод сквозного моделирования станет новым решением для реализации. Будь то в академических кругах или в промышленности, новые исследовательские парадигмы — это новые пути, а также означают новые проблемы и возможности. В будущем машинный перевод больше не будет просто взаимодействовать с текстом, чтобы лучше служить людям.
Международная конференция по переводу разговорной речи (IWSLT) — одно из самых влиятельных соревнований по оценке устного машинного перевода в мире. Она в основном посвящена решению задач и проблем, существующих в практическом применении технологий перевода речи. 20-й оценочный конкурс стартует в январе 2023 года, а окончательные результаты оценки будут представлены в апреле. Официальная конференция пройдет одновременно с ACL 2023 в Торонто, Канада, 13-14 июля 2023 года и примет форму гибридной онлайн- и офлайн-конференции. Адрес регистрации оценки: https://iwslt.org/2023/#registration. Подробную информацию о IWSLT 2023 можно посмотреть на официальном сайте оценки: https://iwslt.org/2023/. Оргкомитет также предоставляет оценочный форум для получения информации о конкурсе: iwslt-evaluation-campaign@googlegroups.com. Команда переводчиков Volcano ByteDance AI Lab отвечает за организацию оценочного курса англо-китайского речевого перевода и предоставит данные для обучения и базовые показатели.
Ссылки:
[1] An Approach to Corpus-based Interpreting Studies: Developing EPIC (European Parliament Interpreting Corpus)
[2] CIAIR Simultaneous Interpretation Corpus
[3] Large-Scale English-Japanese Simultaneous Interpretation Corpus: Construction and Analyses with Sentence-Aligned Data
[4] The EMIME Bilingual Database
[5] Design of A Speech Corpus for Research on Cross-lingual Prosody Sransfer
[6] Improved Speech-to-text Translation with the Fisher and Callhome Spanish-English Speech Translation Corpus
[7] LibriS2S: A German-English Speech-to-Speech Translation Corpus
[8] Mass: A Large and Clean Multilingual Corpus of Sentence-aligned Spoken Utterances Extracted from The Bible
[9] Voxpopuli: A large-scale Multilingual Speech Corpus for Representation Learning, Semi-supervised Learning and Interpretation
[10] CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
[11] FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech
[12] SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations
[13] Direct Speech-to-Speech Translation with A Sequence-to-Sequence Model
[14] Translatotron 2: High-quality Direct Speech-to-Speech Translation with Voice Preservation
[15] Direct Speech-To-Speech Translation With Discrete Units
[16] UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
[17] Textless Direct Speech-to-Speech Translation with Discrete Speech Representation
[18] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
[19] Leveraging Unsupervised and Weakly-supervised Data to Improve Direct Speech-to-Speech Translation
[20] Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation
[21] Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation
[22] Improving Speech-to-Speech Translation Through Unlabeled Text
[23] A Text-Free Speech-to-Speech Translation Evaluation Metric
© THE END
Пожалуйста, свяжитесь с этим общедоступным аккаунтом, чтобы получить разрешение на перепечатку.
Публикуйте статьи или ищите освещение: content@jiqizhixin.com