В связи с быстрой популярностью моделей-трансформеров, Self-Attention (механизм самообслуживания) и Multi-Head Внимание (механизм многоголового внимания) стало ключевым компонентом в области обработки естественного языка (НЛП). Эта статья начнется с Краткая работа, рабочий процесс, сравнение между двумятри аспекта,Проанализируйте эти два типа внимания.
Само-внимание (механизм само-внимания):Позволяет каждому элементу входной последовательностисосредоточиться наи взвесить остальные элементы во всей последовательности,Создать новое выходное представление,Не полагается на внешнюю информацию или исторические состояния.
Self-Attention
Multi-Head Attention (механизм многоголового внимания):Запуская несколько параллельноSelf-Attentionслои и объединить их результаты,Возможность одновременного захвата информации о входных последовательностях в разных подпространствах.,Тем самым усиливая выразительные возможности Модели.
Multi-Head Attention
Само-внимание (механизм само-внимания):Создать запрос по、ключивектор значений,Рассчитать и нормализовать показатели внимания,Наконец, вектор значений взвешивается,В результате получается взвешенное представление каждой позиции во входной последовательности.
Рабочий процесс самообслуживания
Шаг первый: запрос, генерация ключей и значений
вектор запросаИспользуется для обозначения текущего фокуса или информации, которую вы хотите получить.。 ключевой векторопределить ивектор запрос соответствующей информации. Сумка вектора стоимостисодержащий и соответствующийключ Фактическая информация, связанная с векторами。
Шаг первый: запрос, генерация ключей и значений
Шаг 2: Расчет матрицы внимания
Каждый элемент этой матрицы представляет показатель корреляции между вектором запроса и соответствующим вектором ключей. Дроби могут быть очень большими или очень маленькими из-за операций скалярного произведения.
Шаг 2: Расчет матрицы внимания
Шаг 3: Нормализованные оценки внимания
После нормализации сумма каждой строки равна 1, а каждая оценка представляет собой вес соответствующей информации о позиции. Перед применением softmax градиенты обычно стабилизируются путем деления на коэффициент масштабирования (например, квадратный корень из запроса или размерность ключевого вектора).
Шаг 3. Нормализуйте показатели внимания
Шаг 4: Вывод взвешенной суммы
Результатом взвешенного суммирования является выходной сигнал механизма самообслуживания, который содержит взвешенную информацию всех позиций во входной последовательности. Каждый элемент выходного вектора представляет собой взвешенную сумму входных векторов, а веса определяются механизмом внимания.
Шаг 4: Вывод взвешенной суммы
Multi-Head Attention (механизм многоголового внимания):Введя запрос、ключи Разделить матрицу значений на несколько голов,и рассчитывать внимание независимо в каждой голове,Затем выходы этих головок сращиваются и линейно преобразуются,Это обеспечивает одновременный захват и интеграцию множества интерактивных данных в разных подпространствах представления.,Улучшите выразительные способности Модели.
Рабочий процесс внимания нескольких голов
Основное отличие: внимание к себесосредоточиться на Важность каждой позиции в последовательности для всех остальных позиций.,иMulti-Head AttentionЗатем, вычислив внимание в нескольких подпространствах параллельно,Позволяет модели одновременно захватывать и интегрировать различные аспекты контекстной информации.,Это расширяет возможности моделирования внутренней структуры сложных данных.
Сравнение случаев:существовать“Я люблюAI”Пример,Self-Attention вычисляет вес каждого слова, связанный с другими словами.,иMulti-Head Внимание позволяет модели собирать более обширную контекстную информацию путем разделения пространства внедрения и параллельного вычисления этих весов в нескольких подпространствах.
Само-внимание (механизм само-внимания):
1. входить:последовательность“Я люблюAI”После встраивания слоя,Каждое слово (например, «Я») отображается в 512-мерный вектор. 2. Внимание расчет веса: Для слова «Я» механизм Само-Внимания вычисляет вес внимания между ним и всеми остальными словами в последовательности («любовь», «А», «Я»). Это означает, что для 512-мерного вектора внедрения «Я» мы вычисляем оценку внимания между ним и векторами внедрения «Любви», «А» и «Я». 3. Выход:Согласно расчетному весу внимания,Вычислите взвешенные векторы слов во входной последовательности,Получите выходной вектор, обработанный механизмом самообслуживания.
Multi-Head Attention (механизм многоголового внимания):
1. Разделение подпространства: Исходное 512-мерное пространство вложения разделено на несколько подпространств (например, 8 голов, каждое подпространство 64-мерное). Для слова «I» его 512-мерный вектор внедрения соответственно разбивается на восемь 64-мерных подвекторов. 2. независимый Внимание расчет веса: В каждом 64-мерном подпространстве веса внимания между «Я» и «любовью», «А» и «Я» рассчитываются независимо. Это означает, что в каждом подпространстве у нас есть независимый набор оценок внимания для расчета взвешенной суммы. 3. Объединение и преобразование результатов: Выходные данные внимания, рассчитанные для каждого подпространства, объединяются в более крупный вектор (в данном случае 8 64-мерных векторов объединяются в 512-мерный вектор). Через линейный слой этот склеенный вектор преобразуется обратно в исходное 512-мерное пространство для получения Multi-Head. Окончательный результат «Внимания».
Само-внимание (механизм само-внимания)
Предположим, вы играете с кучей игрушек. Некоторые игрушки дружат, и им нравится с ними играть. Например, игрушки-супергерои любят быть с другими супергероями, а игрушки-животные любят быть с другими животными. Когда вы играете с игрушкой, вы задаетесь вопросом, какие игрушки ее лучшие друзья? Механизм внимания к себе подобен помощи игрушкам найти своих лучших друзей. Таким образом, игрушки смогут лучше играть вместе, делая игру более увлекательной.
В мире компьютеров механизм самообслуживания помогает компьютерам определить, какие слова в предложении являются «хорошими друзьями», а какие слова необходимо понимать вместе. Это похоже на помощь игрушкам найти своих лучших друзей и делает всю историю более интересной.
Multi-Head Attention (механизм многоголового внимания)
Предположим, у вас есть группа разных детей, у каждого из которых есть своя любимая игрушка. Одному ребенку больше всего могут нравиться супергерои, другому — животные, а третьему — автомобили. Когда они играют вместе, каждый сосредотачивается на своей игрушке. Затем они вместе рассказывают истории о своей игре, образуя одну большую историю, в которой каждая игрушка имеет свой характер.
Многоголовый механизм внимания такой же, как у этих детей. Компьютер не просто видит проблему под одним углом, но, как и многие дети, он видит ее под разными углами. Таким образом, компьютер может узнать больше о вещах. Точно так же, как дети делятся своими историями, компьютер может объединить эти разные точки зрения, чтобы лучше понять проблему в целом.
Подвести итог
Таким образом, механизм самовнимания подобен помощи игрушкам в поиске хороших друзей, а механизм многоголового внимания похож на то, как многие дети играют с игрушками под разными углами, что делает историю богаче и интереснее. Компьютер использует эти методы, чтобы лучше понимать то, что мы ему говорим, словно играя в веселую игру!
Ссылка: Architect предлагает вам поиграть с ИИ.