введение
LSTM (Long Short-Term Memory) впервые возникла в 1990-х годах и внесла важный вклад в развитие искусственного интеллекта. Однако с появлением технологии Transformer LSTM постепенно исчез из поля зрения людей. Итак, если мы расширим LSTM до миллиардов параметров и воспользуемся технологией LLM, чтобы преодолеть ограничения LSTM, как далеко сможет зайти LSTM в языковом моделировании?
На основании этого вопроса,Автор статьи предлагаетxLSTM-архитектура,По сравнению с современной моделью трансформатора и пространства состояний (SSM),Значительные улучшения были достигнуты как в производительности, так и в масштабируемости.。LSTM приветствует вторую весну?
https://arxiv.org/pdf/2405.04517
Основная концепция долговременной краткосрочной памяти (LSTM) и ее важная роль в глубоком обучении. LSTM — это особый тип рекуррентной нейронной сети (Recurrent Neural Network, RNN), который решает проблему исчезновения градиента в традиционной RNN путем введения CEC вращения с постоянной ошибкой (Constant Error Rotation Carousel, CEC) и механизма стробирования (Gating).
ЦИК – это клеточное государство
(зеленый) путем добавления входного вентиля
управляющий вход
Для выполнения обновлений этот процесс регулируется сигмовидной решеткой (обычно обозначенной синим цветом), чтобы обновления были скромными. входные ворота
определяет приток новой информации и ворота забывания
Решите, сохранить или забыть старую информацию. выходные ворота
Управляет выводом блока памяти, то есть скрытым состоянием
, который определяет, как состояние устройства влияет на следующий вывод сети. через функцию активации
(обычно это функция гиперболического тангенса tanh), состояние единицы нормализуется или сжимается до меньшего диапазона для поддержания числовой стабильности.
Сеть долгосрочной краткосрочной памяти (LSTM) добилась замечательных успехов во многих областях с момента ее предложения в 1990-х годах, и до появления модели Transformer (2017) она была доминирующей технологией для задач последовательности, таких как генерация текста. LSTM продемонстрировал свои мощные возможности в различных задачах обработки последовательностей, включая генерацию текста, симуляцию рукописного ввода, построчный перевод, оценку компьютерных программ, генерацию субтитров изображений, генерацию исходного кода, моделирование стока осадков, гидрологическую модель предупреждения о наводнениях и т. д.
Особенно в области обучения с подкреплением LSTM имеет отличную производительность, например, модель OpenAI Five в Dota 2 и модель магнитного контроллера ядерного синтеза. Причина, по которой LSTM хорошо справляется с этими задачами, связана с его способностью к абстрактному обучению и способностью эффективно извлекать и хранить семантическую информацию. Например, с помощью LSTM можно наблюдать активность числовых, синтаксических, лингвистических и эмоциональных нейронов. Несмотря на преимущества моделей Transformer с точки зрения масштабирования и параллельной обработки, LSTM по-прежнему играют роль во многих важных приложениях и продолжают демонстрировать свою проверенную временем ценность.
Хотя сеть долговременной краткосрочной памяти (LSTM) добилась больших успехов в обработке данных последовательностей.,Но они сталкиваются с тремя основными ограничениями. первый,LSTMПри решении задачи поиска ближайшего соседаСложность пересмотра решений по хранению,Это ограничивает его способность динамически обновлять информацию. Во-вторых,LSTM имеет ограниченную емкость хранилища.,Это приводит к его плохой производительности при решении задач прогнозирования редких маркеров.,Потому что информация должна быть сжата в состояния скалярных единиц. наконец,Поскольку связь между скрытыми состояниями,В LSTM отсутствует возможность параллельной обработки.,Это влияет на его эффективность при крупномасштабной обработке данных.
Чтобы преодолеть эти ограничения, в статье предлагается модель xLSTM, в которой представлены новые технологии, такие как экспоненциальное вентилирование и матричная память, чтобы улучшить производительность LSTM и сделать ее сопоставимой с передовыми технологиями, такими как Transformer, в таких задачах, как языковое моделирование.
xLSTM (расширенная длинная краткосрочная память) — это расширение традиционного LSTM, целью которого является устранение некоторых ограничений, с которыми сталкивается LSTM при обработке больших моделей, как показано на следующем рисунке:
xLSTM расширяет возможности LSTM, вводя два основных улучшения: 1) введение экспоненциального вентилирования; 2) введение новых структур памяти;
「1) Экспоненциальное стробирование Gating)」:это правильноLSTMУсовершенствование традиционного механизма ворот в Китае.,Позволяет модели более эффективно обновлять свое внутреннее состояние. Экспоненциальное стробирование за счет введения соответствующих методов нормализации и стабилизации.,Позволяет LSTM лучше обрабатывать поток информации.,Особенно в сценариях, где решения по хранению необходимо пересмотреть.
«2) Новая структура памяти»:xLSTMПредставлены два новых блока памяти.,Они есть:「sLSTM、mLSTM」
Архитектура xLSTM за счет интеграции этих новых вариантов (sLSTM, mLSTM) в модуль остаточного блока.,Блок xLSTM формируется,Эти блоки затем конструируются остаточным способом в полную xLSTM-архитектуру.。Этот вид Архитектура Не только улучшает производительность,Он также имеет преимущества перед существующими Трансформаторами и Моделью пространства состояний с точки зрения масштаба.
Следующая таблица находится в длинном формате Range Результаты теста Arena эксперимента,предназначен для оценкиСпособность модели обрабатывать длинные последовательности。можно найтиxLSTMОтличная производительность во всех тестовых заданиях,Он показывает свою эффективность при решении проблем с длинным контекстом.
В таблице ниже показано,В наборе данных SlimPajama (300B),другой МодельразмерxLSTMс другими Модельв наборе проверкиСравнение недоумения и производительности последующих задач。можно найтиxLSTM在другой Модельменьше размера,Наименьшее недоумение на проверочном наборе,Продемонстрированы его преимущества в задачах моделирования языка.