Google | предлагает глубокий гибридный преобразователь для динамического распределения вычислительных ресурсов на 66 % быстрее оптимального базового уровня.
Google | предлагает глубокий гибридный преобразователь для динамического распределения вычислительных ресурсов на 66 % быстрее оптимального базового уровня.

введение

Это исследование демонстрирует новыйTransformerязык Модель:Mixture-of-Depths Transformer,Должен МодельможетДинамическое распределение вычислительных ресурсовв определенную позицию во входной последовательности,Вместо равномерного распределения вычислительных ресурсов, как в традиционной модели. Распределение посредством динамического расчета,Может значительно увеличить скорость модели, сохраняя при этом производительность.,На 66 % быстрее, чем оптимальная базовая модель isoFLOP.

https://arxiv.org/pdf/2404.02258.pdf

Предыстория

в жизни,Не все проблемы требуют одного и того же времени для решения. Также на языке Модель,Не все токены и последовательности требуют одинаковой вычислительной мощности для прогнозирования. Однако,Модель трансформатора тратит одинаковое количество вычислений для каждого токена при прямом распространении.,Для этой проблемы,Можем ли мы позволить Transformer сохранить эти ненужные вычисления?

Условные вычисления — это метод, который уменьшает общий объем вычислений, выполняя вычисления только при необходимости. Уже существует множество решений того, когда и в каком объеме необходим расчет. Однако эти алгоритмы не обязательно применимы к существующему оборудованию, поскольку они имеют тенденцию вводить динамические графы вычислений, в то время как существующее оборудование предпочитает использовать статические графы вычислений.

Чтобы преодолеть эту проблему,Автор этой статьи рассматривает моделирование языка в условиях статического вычислительного бюджета.,И этот статический бюджет может быть меньше, чем вычислительный бюджет, необходимый обычному Трансформатору.。в,Принятие решений по токену для каждого уровня,Нейронные сети должны научиться динамически распределять вычислительные ресурсы. В процессе реализации,Общие вычислительные усилия определяются пользователем.,И он неизменен до тренировки,а не функция сетевого динамического принятия решений. поэтому,Улучшение использования оборудования можно предсказать заранее на основе сокращения использования памяти и уменьшения количества FLOP на прямое распространение.

В этом документе используется подход, аналогичный преобразователю Mix of Experts (MoE), где решения по динамической маршрутизации на уровне токена принимаются по всей глубине сети. В отличие от MoE, в этой статье выбран вариант применения вычислений к токену (аналогично стандартному преобразователю) или прямое распространение через остаточные соединения. Кроме того, в этой статье этот метод маршрутизации также применяется для одновременной пересылки многоуровневых перцептронов (MLP) и механизмов внимания с несколькими головками. Следовательно, это также влияет на обработку ключей и запросов. Маршрутизация не только определяет, какие токены обновляются, но также определяет, какие токены используются для механизма внимания. В этой статье эта стратегия называется «Смешение глубин» (MoD).

реализация МО

Метод MoD Transformers устанавливает статический бюджет вычислений. Эта предустановленная сумма вычислений меньше, чем в традиционной модели Transformer.。Этот вычислительный бюджет может участвовать в самоинъекции, ограничивая его внутри заданного слоя.TokenВнимание и многослойные перцептроны(MLP)рассчитанныйTokenколичество для достижения。Этот подход использует послойныймаршрутизацияустройство, чтобы решить, какойToken应Должен参与计算,Какие из них следует обойти для вычислений через остаточные соединения,Это экономит вычислительные ресурсы.

Конкретные методы реализации:

«1. Определить бюджет расчета» То есть общий вычислительный бюджет обеспечивается за счет ограничения количества токенов в последовательности, которые могут участвовать в расчете. Чтобы эффективно управлять вычислительными ресурсами в модели Трансформера, автор использует концепцию «мощности» для ограничения количества входных Токенов для каждого расчета. Самообслуживание Традиционного Трансформатора и MLP используют все токены, в то время как MoE Transformer выделяет каждому эксперту меньше токенов, чтобы сбалансировать вычислительную нагрузку.

Распределение вычислительных ресурсов зависит от мощности токена даже в условных расчетах. Уменьшая вычислительную мощность, можно уменьшить вычислительные требования для каждого прямого прохода, но если не обработать их должным образом, это может повлиять на производительность модели. Автор считает, что не все токены требуют одинакового уровня обработки, поэтому модель может научиться определять, какие токены более важны. Таким образом, сеть может более эффективно использовать вычислительные ресурсы, сохраняя при этом производительность.

«2. Трассировка вокруг блока Трансформатора» Механизм маршрутизации позволяет модели решать, какие данные требуют интенсивных вычислений, а какие можно пропустить. Это достигается путем присвоения веса каждому элементу данных в последовательности. Элементы данных с высокими весами участвуют в полном процессе расчета, тогда как элементы с низкими весами проходят простой этап пропуска для экономии вычислительных ресурсов. Этот метод динамического выбора позволяет модели работать более эффективно, сохраняя при этом качество обработки. Настраивая этот механизм, модели могут найти наилучший баланс между скоростью и производительностью.

「3.План маршрутизации」 Стратегия, используемая для принятия решения о том, какие элементы данных участвуют в сложных вычислениях, а какие можно упростить для обработки. Существует два основных решения: 1) Маршрутизация на основе токенов: каждый элемент данных выбирает путь для участия в расчете на основе предпочтений, но это может привести к неравномерной обработке. 2) Маршрутизация на основе экспертов: каждый путь расчета выбирает определенное количество элементов данных для обеспечения сбалансированной обработки, но может привести к чрезмерной или недостаточной обработке некоторых элементов данных.

В этой статье в конечном итоге была выбрана схема маршрутизации на основе экспертов, поскольку она более эффективно балансирует вычислительные ресурсы и упрощает процесс реализации, как показано на рисунке выше. Благодаря этому методу модель может сократить объем вычислений и повысить эффективность работы при сохранении производительности.

«4. Отбор проб» В МО На этапе авторегрессионной выборки модели Transformer возникает проблема принятия эффективных решений о маршрутизации, не полагаясь на будущую информацию о токенах. Для решения этой проблемы в документе предлагаются две стратегии. Первый — ввести вспомогательные потери и настроить выходные данные маршрутизатора с помощью функции двоичной перекрестной энтропии потерь, чтобы модель могла принимать решения о причинной маршрутизации на основе текущей и прошлой информации о токене.

Вторая стратегия заключается в использовании вспомогательного предсказателя, который действует как небольшая вспомогательная сеть для прогнозирования того, должен ли каждый токен участвовать в вычислении, тем самым предоставляя необходимую информацию о маршрутизации во время процесса выборки. Оба метода позволяют избежать зависимости от будущих токенов и обеспечивают высокую производительность и эффективность модели при генерации последовательности.

«5. Модельное обучение»все Модель Все используют одну и ту же базовую конфигурацию гиперпараметров.(Например,128batch、2048 длина последовательности).

Результаты экспериментов

«Увеличение скорости» На рисунке ниже показаноMoDРезультаты тонкой настройки гиперпараметра,Включает сравнение производительности различных вариантов модели.,и кривая обучения,Описание модели при сохранении той же производительности,На 66 % быстрее, чем оптимальная базовая модель isoFLOP.

«изофлоп-анализ» Как показано на рисунке ниже, существуют некоторые варианты MoD, которые имеют более высокую скорость шага, чем оптимальная базовая модель isoFLOP, при этом обеспечивая меньшие потери при обучении. Эти результаты демонстрируют, что модель MoD способна достичь более высокой вычислительной эффективности при сохранении производительности.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose