2023 год! 10 лучших предварительно обученных моделей обработки естественного языка (НЛП)
2023 год! 10 лучших предварительно обученных моделей обработки естественного языка (НЛП)

введение

Языковые модели являются ключом к созданию приложений НЛП. В настоящее время принято считать, что построение языковых моделей НЛП на основе предварительно обученных моделей является практичным и эффективным методом. Я считаю, что по мере того, как туман эпидемии рассеивается, технология НЛП продолжит проникать во многие отрасли. В этом процессе многие студенты обязательно будут использовать или изучать модели предварительного обучения НЛП. По этой причине автор собрал десять лучших моделей и статей по предварительному обучению НЛП в 2023 году. Эффекты моделей не расположены в определенном порядке.

Серверный ответ:Топ-10 предварительно обученных моделей Получите полный текст статьи

1. Модель БЕРТ

Модель BERT (представления двунаправленного кодировщика от Transformers) — это модель предварительного обучения НЛП, исследованная и выпущенная Google в 2018 году. После выпуска она была так же популярна, как ChatGPT.

Он использует уникальную архитектуру нейронной сети Transformer (которая, похоже, уже не нова) для понимания языка. Эта модель подходит для любых задач, таких как распознавание речи (ASR), преобразование текста в речь (TTS) и последовательность в последовательность (Sequence To Sequence). Модель BERT может эффективно справляться с 11 задачами НЛП. Поиск Google является лучшим примером использования модели BERT. Другие случаи применения Google, такие как документы Google, написание электронной почты Google и т. д., используют возможности прогнозирования текста модели BERT. .

2. Модель ГПТ-2.

Модель GPT-2 (Generative Pre-trained Transformer) — это модель с открытым исходным кодом, выпущенная OpenAI в феврале 2019 года, а полная версия языковой модели GPT-2 была выпущена в ноябре того же года (с 1,5 миллиардами параметров).

GPT-2 может достигать человеческого уровня в задачах НЛП, таких как перевод текста, вопросы и ответы для обеспечения качества, резюме статьи и генерация текста. Но при создании статей о росте они могут стать повторяющимися или бессмысленными. GPT-2 является общей моделью. Она не проходила специальной подготовки для вышеперечисленных задач. Это связано с ее уникальной способностью к расширению обобщения, то есть она может точно синтезировать следующий элемент в любой последовательности. GPT-2 — это «прямое расширение» модели GPT OpenAI 2018 года с десятикратным увеличением количества параметров и размера набора обучающих данных. Модель GPT также основана на Transformer. Она использует внимание для замены предыдущих архитектур RNN и CNN, позволяя модели выборочно фокусироваться на наиболее релевантных фрагментах входного текста, которые она прогнозирует.

3. Модель ГПТ-3

Модель GPT-3 (Генераторный предварительно обученный преобразователь) — это авторегрессионная языковая модель, выпущенная OpenAI в 2020 году. Она использует глубокое обучение для генерации текста, похожего на человеческий. То есть, учитывая исходный текст в качестве подсказки, он продолжит генерировать последующие тексты. Текст, сгенерированный GPT-3, настолько высокого качества, что сложно определить, был ли он написан человеком, что имеет как преимущества, так и риски. (Популярный сейчас чатGPT обучен на основе GPT-3.5)

Архитектура GPT-3 имеет только сеть Transformer декодера, которая имеет контекст длиной 2048 токенов и 175 миллиардов параметров, требующих 800 ГБ хранилища. Модель обучается с использованием генеративного предварительного обучения; после обучения она может предсказать, каким будет следующий токен, на основе предыдущего токена. Модель демонстрирует сильные способности к обучению при выполнении задач обучения с нулевой и малой вероятностью.

4、RoBERTa

Модель RoBERTa (надежно оптимизированный подход к предварительному обучению BERT) была выпущена Meta AI в июле 2019 года. Она оптимизирована на основе модели BERT. Модель строит свою языковую модель на основе стратегии языковой маскировки BERT путем изучения и прогнозирования намеренно замаскированных частей текста и обучается с использованием более крупных мини-пакетов и скорости обучения. Это позволяет RoBERTa улучшить цели моделирования языка в масках и повысить производительность последующих задач по сравнению с BERT.

RoBERTa — это предварительно обученная модель, которая хорошо работает при GLUE или оценке общего понимания языка.

5、ALBERT

Модель ALBERT (Маленький Берт) — это упрощенная версия модели BERT, выпущенная Google в начале 2020 года. Эта модель в основном используется для решения проблемы медленного времени обучения, вызванной увеличением размера модели. В этой языковой модели используются два метода упрощения параметров: внедрение факторов и совместное использование параметров между уровнями, то есть при факторизованном внедрении скрытый слой и внедрение словаря измеряются отдельно. Однако совместное использование параметров между уровнями предотвращает увеличение количества параметров по мере роста сети. Успех ALBERT демонстрирует важность выявления аспектов модели, которые дают мощные контекстуальные представления. Сосредоточив усилия по улучшению на этих аспектах архитектуры модели, можно значительно повысить эффективность и производительность модели при решении различных задач НЛП.

6、XLNet

XLNet — это модель, подобная BERT, а не совершенно другая модель. Короче говоря, XLNet — это общий авторегрессионный метод предварительного обучения. Это модель, выпущенная командами CMU и Google Brain в июне 2019 года. XLNet превзошла производительность BERT на 20 задачах и достигла лучших на данный момент результатов (современных) на 18 задачах, включая машинный ответ на вопросы, естественный. языковой вывод, анализ настроений и ранжирование документов.

Модель предварительного обучения модели BERT, основанная на автокодировщиках с шумоподавлением, может хорошо моделировать двунаправленную контекстную информацию, и ее производительность лучше, чем метод предварительного обучения, основанный на авторегрессионных языковых моделях. Однако из-за необходимости маскировать часть входных данных BERT игнорирует зависимость между замаскированными позициями, поэтому существует разница между эффектами предварительной тренировки и точной настройки (несоответствие предварительной настройки и точной настройки). На основе вышеуказанных проблем возникает обобщенная авторегрессия. появилась предтренировочная модель XLNet.

7、T5

Модель T5 (трансформатор преобразования текста в текст) — это мощная унифицированная модель, выпущенная Google в июле 2020 года. Она преобразует все задачи НЛП в задачи преобразования текста в текст, что позволяет легко оценить влияние различных структур модели. целевые функции предварительной подготовки, немаркированные наборы данных и т. д. для выполнения ряда задач НЛП, таких как понимание прочитанного, создание сводок и классификация текста.

Google предложил единый метод переноса обучения НЛП, создав новую ситуацию в этой области. Модель была обучена с использованием данных веб-скрапинга и достигла самых современных результатов в нескольких задачах НЛП.

8、ELECTRA

Модель ELECTRA (Эффективное обучение кодировщика, который точно классифицирует замены токенов), эта модель достигает эффекта RoBERTa с 1/4 вычислительной мощности. Эта модель опирается на идею состязательных сетей и обучает две модели нейронных сетей. Генератор случайным образом блокирует слова в исходном тексте и выполняет прогнозирующее обучение. это правда, ложь, если другое. Используется метод совместного обучения, но в отличие от состязательной сети параметры не передаются обратно в генераторе и дискриминаторе, а используется только встраивание. Размер встраивания соответствует скрытому слою дискриминатора.

9、DeBERTa

Модель DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) была выпущена Microsoft в начале 2021 года. В настоящее время модель фактически была повторена в трех версиях. Модель DeBERTa использует две новые технологии (механизм развязки внимания, улучшенный декодер маски) для улучшения моделей BERT и RoBERTa, а также представляет новый метод тонкой настройки (метод виртуального состязательного обучения) для улучшения общей производительности модели. . Результаты показывают, что вышеупомянутые технологии и методы повышают эффективность предварительного обучения модели и производительность последующих задач понимания естественного языка (NLU) и генерации естественного языка (NLG).

10、StructBERT

Модель StructBERT — это предварительно обученная языковая модель, модель предварительного обучения НЛП, предложенная Alibaba Damo Academy в 2019 году. Это усовершенствование, основанное на модели BERT. Самое большое отличие состоит в том, что StructBERT добавляет две задачи и цели предварительного обучения, которые могут максимально использовать порядок слов и предложений и использовать языковые структуры на уровне слов и предложений соответственно. Таким образом, новая модель подходит для разных уровней понимания языка, необходимых для последующих задач.

Рекомендуем к прочтению

[1] «Обработка естественного языка (НЛП)» Что вы должны знать “ Двенадцать ведущих международных конференций ” !

[2] Национальный университет Сингапура | Создайте надежную модель контроля качества (устойчивую к изменениям дистрибутива). & (Включая исходный код)

[3]В GPT-3 есть ошибка! Количественный анализ «робастности» крупномасштабных языковых моделей на базе Transformer

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose