В задачах обработки естественного языка из Интернета можно загрузить большой объем неразмеченных данных, но для конкретных задач очень мало размеченных данных. GPT — это полуконтролируемый метод обучения, который предназначен для использования большого количества неразмеченных данных. чтобы позволить модели учиться. «здравый смысл», чтобы облегчить проблему недостаточности информации в аннотациях. Конкретный метод заключается в предварительном обучении модели. Предварительное обучение с использованием неразмеченных данных перед обучением. Точная настройка помеченных данных и обеспечение того, чтобы два обучения имели одинаковую сетевую структуру. Нижний уровень GPT также основан на модели Transformer. Отличие от модели Transformer для задач перевода заключается в том, что он использует только несколько слоев Deocder.
На рисунке ниже показана структура модели GPT и показано, как использовать ее для адаптации к таким проблемам, как множественная классификация, текстовая импликация, сходство и множественный выбор, без изменения основной структуры модели.
Слева показана 12-слойная модель трансформера-декодера, соответствующая базовой модели трансформера. Справа видно, что в Fine-Tune различные задачи сначала объединяются через данные и подставляются в модель Трансформера, а затем к выводам данных базовой модели добавляется полносвязный слой (Линейный) для адаптации к формату модели. аннотированные данные.
Например, простейшая задача классификации, такая как задача определения эмоциональной окраски предложения, включает только одно предложение, и результатом является бинарная классификация. Следовательно, вам нужно только заменить предложения и добавить в конце полностью связный слой, поскольку между двумя предложениями нет связи, поэтому вам нужно добавить разделители, чтобы соединить два предложения в разном порядке соответственно; Введите модель, сгенерируйте различные данные скрытого слоя, а затем подставьте их в окончательный полностью связный слой.
В части предварительного обучения u используется для представления каждого токена (слова). Когда длина окна установлена равной k и предсказано i-е слово в предложении, используются k слов перед i-м словом, а также на основе гиперпараметров Θ, чтобы предсказать, каким скорее всего будет i-е слово. Короче говоря, предыдущие слова используются для предсказания следующих слов.
Конкретный метод заключается в замене модели Трансформера. Модель в следующей формуле состоит из L групп скрытых слоев. Исходные данные, вводимые в скрытый слой, представляют собой кодировку слова U, умноженную на параметр встраивания слова We плюс параметр положения Wp; позже он проходит через L слоев (как показано в левой части рисунка выше) группы Трансформаторов).
В части тонкой настройки контролируемого обучения, например, для определения эмоциональной окраски предложения (задача двух категорий), предложение содержит m слов x1... Введите параметр Wy связи между информацией x и целью y и, наконец, предсказать цель y.
Принимая во внимание L1 и L2 в приведенной выше формуле, добавьте весовой параметр λ, чтобы контролировать их соотношение, чтобы вычислить L3 в качестве основы для оптимизации.
Также GPT имеет следующие модификации по сравнению с базовым Трансформером:
GPT модифицирован на основе Transformer и обучен на корпусе из 800 миллионов слов. Он имеет 12 слоев декодера, 12 голов внимания, а размерность скрытого слоя составляет 768.
GPT превзошел предыдущие модели в различных оценках рассуждений на естественном языке, классификации, ответах на вопросы и сравнительном сходстве. И он хорошо работает как с небольшими наборами данных, такими как STS-B (около 5,7 тысяч экземпляров обучающих данных), так и с большими наборами данных (550 тысяч обучающих данных). Даже при предварительной тренировке можно выполнить некоторые задачи Zero-Shot. Однако, поскольку соответствие между немаркированными данными и конкретными задачами низкое, обучение происходит медленнее и требует больше вычислительной мощности.
Модели GPT можно использовать для создания текста на естественном языке. В практических приложениях модель GPT может применяться к нескольким сценариям. Ниже приведены некоторые распространенные сценарии применения.
Короче говоря, модель GPT может применяться к нескольким областям, включая генерацию естественного языка, понимание естественного языка, диалоговые системы, языковые модели и т. д. Благодаря постоянному развитию и применению технологий искусственного интеллекта сценарии применения модели GPT будут продолжать расширяться и углубляться.
GPT2 — это предварительно обученная языковая модель, выпущенная Open AI. Она демонстрирует потрясающую производительность при генерации текста. Генерируемый ею текст превосходит ожидания людей с точки зрения контекстуальной связности и эмоционального выражения. С точки зрения архитектуры модели, GPT-2 не имеет особенно новой архитектуры. GPT-2 продолжает использовать модель одностороннего трансформатора, первоначально использовавшуюся в GPT, и цель GPT-2 состоит в том, чтобы воспользоваться преимуществами односторонней архитектуры. Way Transformer, насколько это возможно. Создайте функцию, которая не может быть достигнута с помощью двустороннего преобразователя, используемого BERT, то есть сгенерируйте следующий текст из приведенного выше.
Структура GPT-2 аналогична модели GPT. Она по-прежнему использует модель одностороннего преобразователя и внесла лишь некоторые локальные изменения: например, переместила слой нормализации во входную позицию блока, добавив слой после последнего; блок самообслуживания Нормализация; увеличение словарного запаса и т. д. Схема структуры модели GPT2:
Структура декодера Transformer выглядит следующим образом:
Модель GPT-2 состоит из декодерной части многоуровневого одностороннего преобразователя. По сути, это авторегрессионная модель, то есть каждый раз, когда генерируется новое слово, новое слово добавляется в конец исходного ввода. предложение как новое входное предложение.
GPT-2 увеличивает количество слоев стека Transformer до 48, размерность скрытого слоя — 1600, а количество параметров достигает 1,5 миллиарда (Bert big — 340 миллионов). «Маленький» имеет 12 этажей, «Средний» — 24 этажа, «Большой» — 36 этажей, «Очень большой» — 48 этажей. GPT-2 обучил 4 набора моделей с разным количеством слоев и длиной вектора слов, как показано на рисунке:
GPT-2 исключает тонкую настройку обучения: есть только неконтролируемый этап предварительного обучения. Он больше не настраивает моделирование для различных задач. Вместо этого он не определяет, какие задачи должна выполнять модель. задачи нужно сделать. Для формирования набора данных собирается более широкий и крупный корпус. Набор данных содержит 8 миллионов веб-страниц и имеет размер 40 ГБ. Для GPT2 требуются данные с информацией о задачах. Предлагается новая парадигма НЛП, в которой особое внимание уделяется обучению высокопроизводительных языковых моделей с помощью более высококачественных обучающих данных для выполнения последующих многозадачных задач без присмотра. Попробуйте использовать метод общей языковой модели для решения большинства существующих задач НЛП.
Модель GPT-2 в основном используется для задач обработки естественного языка, таких как:
GPT3 (Генераторный предварительно обученный преобразователь 3) — это модель обработки естественного языка, разработанная OpenAI и в настоящее время признанная создательница больших языковых моделей. В серии GPT первое поколение GPT было выпущено в 2018 году и содержало 117 миллионов параметров. GPT2, выпущенный в 2019 году, содержит 1,5 миллиарда параметров. GPT3 же имеет 175 миллиардов параметров, что более чем в 100 раз больше, чем у его предшественницы и более чем в 10 раз больше, чем у аналогичных программ. GPT3 использует структуру нейронной сети Transformer в глубоком обучении и использует технологию предварительного обучения без учителя для автоматического решения различных задач на естественном языке, таких как генерация текста, вопросы и ответы, перевод и т. д.
GPT3 продолжает использовать собственный метод одностороннего обучения языковой модели, не только значительно увеличивая параметры модели, но и сосредотачиваясь на более общих моделях НЛП. Модель GPT3 хорошо работает в серии тестов производительности и задачах обработки естественного языка в конкретных областях (от). языковой перевод для генерации новостей) для достижения последних результатов SOTA. Для всех задач GPT3 не был доработан и взаимодействовал с моделью только посредством текста. То же, что и архитектура модели GPT2, как показано на рисунке ниже:
Однако по сравнению с GPT-2 функция генерации изображений GPT-3 более зрелая и может создавать полное изображение на основе неполных образцов изображений без точной настройки. GPT-3 означает, что скачок от одного поколения к трем поколениям достиг двух оборотов:
GPT3 обучается с использованием контекстного обучения для выполнения последующих задач. Контекстное обучение: учитывая несколько примеров задач или описание задачи, модель должна иметь возможность выполнять другие экземпляры задачи посредством простых прогнозов. Вот три метода ситуационного обучения:
![](https://course.openi.org.cn/api/attachments/5797342?type=image/png)
![](https://course.openi.org.cn/api/attachments/5797343?type=image/png)
![](https://course.openi.org.cn/api/attachments/5797344?type=image/png)
GPT-3 работает лучше, чем наборы данных языкового моделирования, такие как LAMBADA и Penn Tree Bank, в настройках с несколькими или нулевыми выстрелами. Что касается других наборов данных, он не может превзойти современные модели, но улучшает современную производительность при нулевом выстреле.
GPT-3 также довольно хорошо справляется с задачами НЛП, такими как ответы на вопросы закрытой книги, анализ шаблонов, перевод и т. д., часто превосходя самые современные методы или наравне с точно настроенными моделями. Для большинства задач модель работает лучше при настройке «несколько выстрелов», чем при настройках «один выстрел» и «нулевой выстрел».
Помимо оценки традиционных задач НЛП, GPT-3 также оценивается по комплексным задачам, таким как арифметическое сложение, интерпретация слов, генерация новостей, а также изучение и использование новых слов. Для этих задач производительность также увеличивается с увеличением количества параметров, и модель работает лучше при нескольких настройках, чем при однократных и нулевых настройках.
На рисунке ниже показано, как GPT-3 можно понимать как метаобучение. Модель изучает множество различных задач, и ее можно сравнить с процессом метаобучения, поэтому она имеет лучшее обобщение.
Хотя GPT-3 способен создавать высококачественный текст, он иногда начинает терять связность при формировании длинных предложений и многократном повторении текстовых последовательностей.
Ограничения GPT-3 включают сложный и дорогостоящий вывод модели из-за его тяжелой архитектуры, низкую интерпретируемость результатов, полученных с помощью языка и модели, а также неуверенность в том, что помогает модели достичь небольшого количества обучающих действий.
GPT-3 — очень мощная языковая модель, которую можно использовать во многих различных приложениях и областях:
Это лишь некоторые области применения GPT-3. С развитием технологий GPT-3 будет применяться во все большем количестве областей.
GPT3.5 — это модель чат-бота, разработанная OpenAI. Она может имитировать поведение человеческого языка и естественным образом взаимодействовать с пользователями. Его название происходит от используемой технологии — архитектуры GPT-3, третьего поколения генеративных языковых моделей. В то же время модель интеллектуального чат-бота ChatGPT была разработана на основе GPT3.5. GPT3.5 имитирует поведение человеческого языка, используя большой объем обучающих данных, и генерирует текст, понятный людям, посредством синтаксического и семантического анализа. Он может давать точные и соответствующие ответы в зависимости от контекста и контекста, а также имитировать различные эмоции и тона. Таким образом, пользователи могут получить более реальный и естественный опыт общения при взаимодействии с машиной.
Модель GPT3.5 не сильно изменилась по сравнению с предыдущей GPT-3. Основное изменение заключается в том, что изменилась стратегия обучения и было использовано обучение с подкреплением. На следующем рисунке показана структурная схема модели GPT3.5:
Стратегия обучения GPT3.5 использует для обучения модель вознаграждения. Цель модели вознаграждения (RM) — определить, хорошо ли результаты модели работают в глазах человека. То есть подсказка ввода (приглашение) текста, генерируемого моделью, выводит скалярное число, характеризующее качество текста.
Модель вознаграждения можно рассматривать как дискриминативную языковую модель, поэтому ее можно начать с предварительно обученной языковой модели, а затем точно настроить на аннотированном корпусе, состоящем из [x = подсказка, модельный ответ, y = человеческое удовлетворение], или его можно напрямую рандомизировать. Инициализировать и обучать непосредственно в корпусе.
GPT3.5 моделирует задачу тонкой настройки исходной языковой модели как задачу обучения с подкреплением (RL), поэтому необходимо определить основные элементы, такие как политика, пространство действий и функция вознаграждения.
Стратегия основана на языковой модели, получает подсказку в качестве входных данных, а затем выводит серию текста (или вероятностное распределение текста, а пространство действий представляет собой расположение и комбинацию всех токенов в словаре на всех выходных позициях (a); одна позиция обычно имеет около 50 тыс. кандидатов на токены); пространство наблюдения представляет собой возможную входную последовательность токенов (т. е. подсказку), которая представляет собой перестановку и комбинацию всех токенов в словаре во всех входных позициях, а функция вознаграждения основана на RM; модель, обученная на основе модели вознаграждения, с некоторыми ограничениями расчета вознаграждения на уровне политики.
Рассчитать вознаграждение:
GPT3.5, одна из важных технологий в области обработки естественного языка, имеет очень широкие перспективы применения и потенциал развития. С помощью технологии генерации диалогов можно реализовать различные сценарии применения, такие как интеллектуальное обслуживание клиентов, системы вопросов и ответов, а также генерация естественного языка, что значительно повышает эффективность и удобство взаимодействия человека с компьютером. Благодаря постоянному развитию компьютерных технологий и постоянному совершенствованию алгоритмов глубокого обучения области применения GPT3.5 будут продолжать расширяться и углубляться, предоставляя людям более совершенные, эффективные и интеллектуальные услуги по обработке естественного языка. На изображении ниже показаны выходные данные GPT3.5 для двух запросов.
1. Универсальность: GPT3.5 Может ответить на различные вопросы,Дарите творческое вдохновение,Поддерживает несколько функций ожидания распознавания голоса,Может применяться во многих областях,Такие как техническая поддержка, Интеллектуальное обслуживание клиентов、Генерация текста ждать.
2. обработка естественного языкаспособность:GPT3.5 Иметь сильную изообработку естественного языкаспособность,Может имитировать человеческую речь,выражать мысли и чувства,Давайте более естественные и плавные ответы.
3. Многоязычная поддержка: GPT3.5. Поддерживает несколько языков и может удовлетворить языковые потребности разных стран и регионов.
4. Интеллектуальное обучение: GPT3.5 может пройтиверно Обучение на больших объемах данных,Постоянно совершенствуйте свои способности к выражению эмоций и точность ответов.,Иметь определенные интеллектуальные способности к обучению.
5. Удобство: GPT3.5 Его можно использовать через стороннее приложение или веб-сайт OpenAI. Предоставить из API или ВОЗсуществовать OpenAI Он доступен на официальном сайте и очень удобен в использовании.
1. Возможная предвзятость: из-за GPT3.5 да получается путем обучения на большом объеме данных, и могут возникнуть проблемы с предвзятостью данных. Это может привести к GPT3.5 верно Определенные группы или Определенные мнения из Ответы носят предвзятый характер.
2. Безличный: Хотя GPT3.5 Может имитировать человеческую речь,Но ему все еще не хватает настоящих эмоций и человечности.,Неспособен к сложному мышлению и выражению эмоций, как настоящие люди.
3. Необходимо много данных: чтобы GPT3.5 Иметь более высокийиз Точность ответаи表达способность,Требуется большой объем обучающих данных.,Это требует много времени и ресурсов.
4. Могут возникнуть риски безопасности: при использовании модели GPT3.5.,Необходимо ввести определенное количество текстовых и голосовых данных.,Это может привести к утечке личной информации и риску.
GPT-4 (Генераторный предварительно обученный трансформатор 4) — это большая мультимодальная модель, которая принимает входные изображения и текст и выводит текст. GPT4 по-прежнему использует структуру модели Transformer, которая может обрабатывать изображения. Структура модели больше не предназначена только для декодера, но имеет кодировщик для завершения кодирования изображений. Как показано на изображении ниже, GPT4 отметил, что изображение большого и устаревшего порта VGA, подключенного к маленькому и современному порту для зарядки смартфона, нелепо.
Количество параметров модели GPT4 в несколько раз больше, чем у модели GPT3, а количество параметров модели может приближаться к уровню триллиона. Для обучения GPT4 OpenAI использует службу облачных вычислений Microsoft Azure, которая включает в себя тысячи. графических процессоров Nvidia A100 или графического процессора. GPT4 предлагает RBRMS (модель вознаграждения на основе правил) в стратегии обучения для решения проблем безопасности.
GPT-4 проделала большую работу для обеспечения безопасности модели. Во-первых, она наняла более 50 экспертов предметной области из разных направлений для проведения состязательного тестирования и тестирования красной команды. Во-вторых, она обучила модель вознаграждения, основанную на правилах (Rule). -Модели вознаграждения на основе), RBRM)+RLHF для помощи в обучении моделей.
RBRMS (модели вознаграждения на основе правил): цель состоит в том, чтобы направить обучение модели с помощью правильных вознаграждений, чтобы отклонять вредные запросы, а не отклонять безобидные запросы.
RLHF (обучение с подкреплением на основе обратной связи человека): использует методы обучения с подкреплением для непосредственной оптимизации языковых моделей с использованием сигналов обратной связи человека. Процесс обучения показан на рисунке ниже и может быть разбит на три основных этапа:
GPT-4 демонстрирует больше здравого смысла, чем предыдущие модели, как показано в примере ниже:
Мультимодальный и междисциплинарный состав: GPT-4 не только демонстрирует высокие знания в различных областях, таких как литература, медицина, право, математика, физика и программирование, но также свободно сочетает навыки и концепции из разных областей, демонстрируя впечатляющую способность понимать. сложные идеи. На рисунке ниже показан пример сравнения GPT-4 и ChatGPT при выполнении междисциплинарных задач:
Генерация кода: GPT-4 способен кодировать на очень высоком уровне, будь то написание кода на основе инструкций или понимание существующего кода, и может решать широкий спектр задач кодирования, от проблем кодирования до реальных приложений, от низкоуровневой сборки. до фреймворков высокого уровня, от простых структур данных до сложных программ, также могут рассуждать о выполнении кода, моделировать эффекты инструкций и интерпретировать результаты на естественном языке и даже выполнять псевдокод, который требует интерпретации не- вербальный код, недопустимый ни на одном языке программирования. Формальные и расплывчатые выражения. На следующем рисунке показан пример выполнения кода Python GPT-4:
Сценарии применения GPT4 в различных областях принесли человечеству инновационную мощь. Помимо вышеуказанных областей применения существуют также следующие области применения: