| Введение За последние полтора года сообщество открытого исходного кода провело множество исследований в области больших моделей и обобщило много ценного опыта. Лама Метод, использованный в техническом отчете 3.1, можно считать основным в текущем сообществе открытого исходного кода. ламе 3.1 Интерпретация технического отчета может помочь нам понять, какая технология является наиболее зрелой и передовой для общественного обучения больших моделей, что имеет большое значение при фактическом обучении модели.
С начала прошлого года большие модели привлекли большое внимание в академических, промышленных и инвестиционных кругах благодаря своим удивительным эффектам, и они разрабатывались почти полтора года. Год назад было сказано, что OpenAI опережает сообщество открытого исходного кода в области технологий примерно на 18 месяцев (полтора года).
В этот момент, примерно через полтора года после того, как ChatGPT (GPT-3.5) вышел из круга, Llama, лидер сообщества открытого исходного кода, выпустил свою модель версии 3.1, которая превзошла GPT-3.5 во всех списках, а в некоторые случаи Список можно сравнить с GPT-4. С точки зрения использования опыт использования Llama 3.1 пока уступает GPT-4, но стабильно превосходит GPT-3.5.
За последние полтора года сообщество открытого исходного кода провело множество исследований в области больших моделей и обобщило много ценного опыта. Лама Метод, использованный в техническом отчете 3.1, можно считать основным в текущем сообществе открытого исходного кода. ламе 3.1 Интерпретация технического отчета может помочь нам понять, какая технология является наиболее зрелой и передовой для общественного обучения больших моделей, что имеет большое значение при фактическом обучении модели.
Аудитория:
Вкратце, LLama 3.1 имеет следующие уникальные особенности:
Позже технический отчет LLama 3.1 будет объяснен от начала до конца, перемежаясь объяснениями вышеупомянутых уникальных функций. Во время объяснения будут некоторые комментарии, которые будут выделены цветом фона.
В целом Llama 3.1 имеет следующие особенности модели:
В целом производительность модели значительно опережает модели с открытым исходным кодом того же уровня по сравнению с GPT-4, по некоторым показателям задачи ее можно сравнять с GPT-3.5, она уверенно опережает;
Из-за высокой стоимости предварительного обучения отказоустойчивости практически нет, и требуется как можно скорее добиться хороших результатов. В стеке технологий больших моделей предварительное обучение является связующим звеном с самым высоким порогом исследования и наибольшей потребностью в инженерном опыте. Качество предобученной модели напрямую определяет верхний предел постобучения (согласно техническому отчету Llama, соответствующему предыдущему раскладу).
Предварительная подготовка в основном решает следующие проблемы:
В ответ на вышеуказанные проблемы Llama 3.1 предлагает разумные решения, которые будут подробно описаны ниже.
Проблема с данными — это объем и качество данных.,Объем данных относительно инженерный,Для создания платформы обработки данных нужны отличные инженеры,Сканирование данных、собиратьждать。Нижеследующее в основном говорит о Качественная обработка данных,На данный момент,Качественная обработка данных в основном состоит из трех частей: фильтрация безопасности – фильтрация качества – дедупликация.,Фильтрация безопасности отфильтровывает личную и небезопасную информацию.,Запретить модели выводить такую информацию при применении качественной фильтрации – отфильтровывать информацию низкого качества;,Данные более высокого качества могут обучать модели более высокого качества. Дедупликация заключается в удалении повторяющейся информации в данных;,нормальное распределение данных,Имеет определенный длинный хвост,Данные с длинным хвостом приведут к смещению модели в сторону популярных распределений данных.,внести предвзятость,Разумная дедупликация полезна как для общих возможностей модели, так и для производительности данных с длинным хвостом.
Личная информация и фильтрация безопасности:Удаление большого количества личной информации(Например имя、Телефон、электронная почта и т. д.) данные、небезопасный контент、контент для взрослыхждать。Эта часть может быть достигнута с помощью стратегии правил,Это достигается за счет регулярного сопоставления.
Извлечение и очистка текстовой информации:Данные о спуске,Все в формате html,Текстовая информация неявно присутствует в html.,Для извлечения текстовой информации,Необходимо использовать парсер прибытияhtml,Хороший парсер может сделать текст качественнее,Llama Версия 3.1 оптимизирует парсер и обеспечивает лучшее качество данных. При этом сохраняется исходный формат кода, математических формул и т. д., а значение уценки удаляется для дальнейшего улучшения общего качества.
Чтобы удалить дубликаты:Дублирующаяся информация,Снизит эффективность обучения,И это недружелюбно к информации с длинным хвостом.,поэтому дедупликация стала ключевым процессом обработки данных. Лама 3.1 использует три метода обработки данных:
Фильтрация качества на основе правил:также известный как эвристическая фильтрация качества,В основном относится к поиску некоторых особенностей в тексте.,Способность выявлять данные низкого качества,Отфильтруйте эти данные. Например,В тексте много искаженных символов, специальных символов, необоснованная длина текста и т.п.,Все это можно использовать в качестве функций для качественной фильтрации. Правила использования ламы в техническом отчете 3.1:
Фильтрация качества на основе модели:Дайте оценку качеству документа,Обучите модель для прогнозирования качества текста,Фильтр на основе обученной модели. Распространенными методобучения являются: Считать, что текст Википедии более качественный.,Другие более низкого качества.,Модель обучения,Преимущество этого заключается в том, что нет необходимости в ручном аннотации, используется метод ручного аннотирования/аннотации модели;,Оцените качество документа,Модель обучения。
Во время вышеуказанной операции,Извлечение и очистка текста, Удалить дубликаты、правила Качественная фильтрация основанных, управляемых Сложность качественной фильтрации модели равна O(n),Оба могут обрабатывать огромные объемы данных. Первые четыре могут быть реализованы на процессоре.,Последний предполагает модель передвижения.,Необходимо реализовать с помощью графического процессора,Общая стоимость будет выше; дедупликация предполагает использование алгоритма хеширования.,По сравнению с работой нескольких других процессоров,Вычислительные затраты выше. Вообще говоря,Мы можем начать с менее затратного в вычислительном отношении подхода.,Фильтруйте данные по низкой цене,Затем используйте дорогостоящие операции,Чтобы снизить общую потребность в вычислительной мощности,Выполняйте быстрее. Рассмотрите возможность прибытия вычислительных затрат на вышеуказанные модули.,Данные могут обрабатываться в следующем порядке:Извлечение текстовой информациииубирать->Качественная фильтрация по правилам, основанным->Удалить дубликаты->управляемый Качественная фильтрация модели обеспечивает более высокую эффективность обработки данных.
На самом деле распределение данных по доменам неравномерно:
Решение проблемы дисбаланса в регионах,Необходимо разработать разумный верхний и нижний коэффициент выборки.,Лайдаприезжатьлучший Эффект。Поскольку невозможно проводить эксперименты по коэффициентам смешивания данных на больших моделях, эффективной стратегией является проведение соответствующих экспериментов на небольших наборах данных, а затем непосредственное применение их к большим наборам данных. Это основано на базовом предположении: оптимальное соотношение смешивания данных больших и малых моделей одинаково, что также является разумным предположением и прагматичным подходом. Но могут возникнуть и некоторые проблемы. Одна из возможных ситуаций заключается в том, что для разных моделей пропорция смешивания данных будет разной, и возникают проблемы, аналогичные масштабированию. Например, регулярность закона: более крупные модели обладают более сильными возможностями обучения и требуют более сложных данных. В ответ на эту гипотезу возможным подходом является проведение экспериментов на небольших моделях разных размеров, чтобы увидеть, можно ли суммировать правила в разных масштабах. Если да, то их можно обобщить на большие модели.
Чтобы определить наилучшие соотношения отбора проб и смешивания, Llama 3.1 провел больше экспериментов на небольших моделях и, наконец, дал некоторые рекомендуемые значения. Лама Рекомендуемое соотношение, указанное в 3.1, составляет: 50% общих данных на английском языке.、25% Математика и данные рассуждения、17%код данных、8%многоязычныйданные。Следует отметить, что,Это соотношение и оценка связаны с,Для предварительной подготовки по китайскому языку,Оптимальное соотношение будет варьироваться,Нужно повторить эксперимент.
То же, что и предыдущая версия LLama.,3.1 по-прежнему использует плотную модель,не так много изменений。Структура МО здесь не используется. Багуа означает, что МО команды LLama не прошел хорошую подготовку. Если Багуа верен, это отражает то, что стабильность обучения МО хуже, и любое обучение имеет очень высокий порог. , что лучше, чем у команды Ламы раньше. Без накопления МО тренировка не будет хорошей. Если слухи ложны, нужно задуматься, почему Ллама не выбрал архитектуру MoE. Они собрали группу самых умных людей в мире. Должен ли быть разумным выбор технологии? Имеет ли MoE заявленные преимущества по сравнению с существующей. Плотная модель, есть ли упущенные из виду недостатки, заслуживает дальнейшего размышления и экспериментальной проверки.
В частности, некоторые небольшие проекты LLama 3.1 включают в себя:
Закон масштабирования — это эмпирический закон, обобщенный на основе большого количества экспериментов. В прошлом он определял итеративное направление больших моделей. В основном он имеет три характеристики и применения:
Фактически, гиперпараметры обучения модели (в основном настройки скорости обучения и размера пакета) также связаны с законом масштабирования. В этой части вы можете обратиться к документу DeepSeek LLM «Масштабирование языковых моделей с открытым исходным кодом с долгосрочностью», в котором показана взаимосвязь между гиперпараметрами и законом масштабирования, а также даны предложения по настройке гиперпараметров, что имеет важное значение для предварительного обучения.
В техническом отчете Llama 3.1 для модели 405B был принят метод вычислительной оптимизации. Благодаря большому количеству мелкомасштабных экспериментов подгонка кривой была расширена до крупного масштаба модели и были получены оптимальная модель и масштаб данных. В частности, объем вычислений составляет от 6 × 10^{18} FLOP до 10^{22} FLOP, а размер модели — от 40M до 16B. Модели обучаются отдельно и рассчитываются потери. Каждый объем вычислений может иметь оптимальную комбинацию размера модели и обучающих данных, на основе которой может быть построена кривая, а затем можно получить оптимальный размер модели и размер данных при полном объеме вычислительных ресурсов. На этот раз для размера кластера Llama за подходящее время обучения он может обеспечить объем вычислений 3,8 × 10 ^ 25 флопов. Согласно ранее подобранной кривой, оптимальный размер модели и объем данных составляют 402B и 16,55T. Фактически используются данные 405B и 15T.
Основы аппаратного обеспечения
Эта часть не имеет ничего общего с алгоритмом. В этой статье не планируется вдаваться в подробности. Заинтересованные читатели могут обратиться к оригинальному техническому отчету Llama 3.1. Будь то команда (с таким количеством видеокарт) или инженеры (которые имеют глубокое понимание аппаратного обеспечения и алгоритмов), порог создания этой технологии чрезвычайно высок и не подходит для большинства команд и большинства людей. поймите, вот и все.
Стратегия распараллеливания
существовать Модель обученияизкогда,использоватьприезжать Понятно4DСтратегия распараллеливания,комбинация Понятно Тензорпараллельный(TP)、Параллелизм трубопроводов (ПП)、Контекстуальный параллелизм (CP)、данныепараллельный(DP)из Стратегия。4D-параллелизм в настоящее время также является стандартной конфигурацией для предварительного обучения крупномасштабных моделей. Разумная стратегия 4D-параллелизма может максимально эффективно использовать вычислительные ресурсы графического процессора. Например, TP предъявляет более высокие требования к связи, чем PP, поэтому его лучше использовать на видеокарте внутри одной машины, чтобы максимизировать преимущества, предоставляемые NVLink.
После реальных испытаний LLama 3.1из Стратегия распараллеливания,Способен достичь 40% пиковой нагрузки на графический процессор,Такого эффекта можно достичь на кластере 16 КБ.,Очень примечательно.
В настоящее время предварительная подготовка в основном разделена на две части:
Он разделен на два этапа, в основном для повышения эффективности обучения. Вычислительная сложность структуры Transformer увеличивается с увеличением квадрата длины модели. Использование длинного текстового обучения с самого начала требует большего внимания. уделяется эффективности и используется обучение коротким текстом. На втором этапе больше внимания уделяется эффекту длинного текста и обучение проводится с помощью длинного текста. Этот параметр теперь стал стандартной конфигурацией для предварительного обучения больших моделей.
Кроме того, в LLama 3.1 представлен третий этап предварительной подготовки:
3. Обучение отжигу:делатьиспользоватьвысокое качествоизданные,с маленькимизскорость обучения Модель обучения,Это позволяет модели лучше работать на этапе постобработки.
Ниже приведены некоторые конкретные конфигурации:
Начальная предварительная подготовка
скорость обучения:существовать405Bиз Модельначальство,Выбирать Использовал 8 × 10^{−5} Пиковая скорость обучения, разминка 8000 шагов, косинусное затухание скорости обучения, после 1 200 000 шагов обучения снижается до 8 × 10^{−7} 。
Batch size:начальный этап,делатьиспользоватьменьшеизbatch размер, затем увеличьте партию размер. В частности, на первом этапе используется длина последовательности 4k, 4M. партия жетонов размер, обученный 252М токены на втором этапе используйте длину последовательности 8k, 8M; пакет токенов размер, тренированный 2,87Т токен на третьем этапе используется длина последовательности 8k, 16M; пакет токенов размер, остальные данные для обучения. Эта стратегия предварительного обучения может обучать модель более стабильно.
смешивание данных:
LLama 3.1 использует несколько приемов: - Увеличить долю данных на неанглоязычных языках и улучшить многоязычные возможности модели; - Повышение дискретизации математических данных для улучшения способностей рассуждения; - На заключительном этапе добавьте больше обновляемых во времени данных, чтобы повысить эффективность модели; - Понижение качества данных более низкого качества.
Предварительное обучение с длительным контекстом
Когда Llama 3.1 увеличивает длину, она принимает прогрессивный план: за 6 этапов контекст постепенно расширяется с 8 КБ до 128 КБ. Каждый раз, когда вы расширяете контекст, вы должны убедиться в двух моментах:
На этом этапе обучения было использовано 800B токенов.
Обучение отжигу
На заключительном этапе обучения прошли обучение 40B. tokens,скорость обучение постепенно затухает приезжать0, сохраняя длину контекста 128k. Используйте низкую скорость для этой части обучения,и выбирать качественные данные для обучения,Убедитесь, что модель находится в лучшем состоянии с местными корректировками. После завершения обучения,Усредните все контрольные точки модели на этапе отжига,как окончательный результатизпредварительно Модель обучения。Этот вид операцииизрациональность:Стадия отжига, скорость обучения Низкий,Локальная корректировка модели,поэтомусредний инструментиметьрациональность,И эксперименты доказали, что Эффект лучше.
Пост-тренинг — это часто упоминавшаяся ранее технология выравнивания, включая SFT, DPO и тому подобное. В дополнение к аннотированным вручную данным, LLama 3.1 использует данные, сгенерированные с низкой стоимостью в больших масштабах, и их статус в алгоритме обучения даже превышает статус аннотированных данных. Это указывает на то, что модель обучения синтетических данных постепенно созрела и станет более зрелой. и что еще более важно, я расскажу о лежащей в основе этого логике позже.
В существующем общепринятом познании больших моделей предварительное обучение решает проблему знания модели, что может определить верхний предел модели. Последующее обучение решает проблему выравнивания модели, что может сделать возможности модели приобретенными в ходе предварительного обучения; лучше играй хорошо. Эффект постобучения напрямую определяет фактический эффект модели и потребляет меньше ресурсов. Большинство команд при обучении моделей на самом деле выполняют согласование на основе предварительно обученных моделей. Поэтому практикам следует сосредоточиться на этой части контента, включая идеи обучения, методы синтеза данных и т. д.
Общий процесс после обучения показан на рисунке:
В процессе выборки отклонений генерируются несколько данных с использованием модели DPO. Модель DPO предоставляет услуги вывода в качестве окончательной модели.
Вышеописанный процесс включает в себяприезжатьгенерироватьданные Модель обучения,Лучшая модель генерирует более качественные данные и упрощает обучение хорошей модели.,поэтому Вышеописанный процесс обучения,Будет повторяться 6 раз,существовать Итерироватьизв процессеоптимизация Модель、тем самым оптимизируя генерируемые данные、и продвигатьгенерироватьданныетренироваться得приезжать Модельиз Эффект。также,Поскольку это предполагает синтез данных о Выборх необходимо сделать модель различной, чтобы обеспечить различие генерируемых данных. Поэтому в каждом раунде для обучения нескольких моделей RM, SFT и DPO будут использоваться разные гиперпараметры. параметры и модели RM, SFT и DPO, прошедшие обучение на данных, усредняются в качестве окончательной модели.
Среди приведенных выше алгоритмов обучения по сравнению с данными SFT,Данные о предпочтениях занимает более важную часть, включая обучение модели RM для отбраковочной выборки и обучение модели DPO. Лама 3.1из Данные о «Выборх» — это подсказка, которая собирает информацию о прибытии и генерирует несколько результатов ответа с помощью модели, при этом ответы помечаются вручную и ранжируются по качеству. Выбор технологии здесь имеет множество значений:
Функция модели вознаграждения заключается в оценке качества контента, генерируемого моделью. Возможные варианты использования включают: в обучении с подкреплением в качестве моделирования окружающей среды для обеспечения модели обучения с обратной связью (PPO) при выборке с отклонением в качестве обучения данным выбора дискриминанта; модель в оценке модели, как стандарт оценки качества;
Поскольку обучение DPO легче объединить, LLama 3.1 Использует технологию обучения DPO для обучения. Награда. Основная функция модели — вынести суждение об отказной выборке и выбрать данные для обучения модели SFT.
Обучение Награда Конкретный метод модели: для подсказки имеется n ответов, качество ответов ранжируется по высокому и низкому уровню. Рейтинг используется в качестве метки для обучения модели. На практике, используя парные данные (выбранные, отклонено), эти данные синтезируются моделью в два данных ответа для ручной маркировки и сортировки. Затем я выберу его для модели или отредактирую, чтобы получить лучший ответ, и, наконец, получу edited > chosen > отклонено, обучите модель. Традиционная награда При обучении модели оценка будет рассчитана на основе запроса и каждого ответа. Имеется n строк данных, соответственно будет рассчитано n оценок, и будет разработана модель обучения с потерями. Лама Разница в версии 3.1 заключается в том, что подсказки и множественные ответы шифруются и объединяются вместе, а оценки всех данных рассчитываются одновременно для разработки модели обучения с потерями. Этот метод обучения более эффективен, LLama 3.1 провел эксперимент по удалению, это решение не приведет к потере производительности.
Данные SFT включают помощь Reward Модель генерирует данные, отклоняя выборку, аннотированные вручную данные и высококачественные синтетические данные на основе искусственных подсказок. Во время обучения используйте подсказку maskиз Стратегия,Посчитайте только потерю ответа,Потеря подсказки не рассчитывается,Основываясь на результатах многочисленных текущих статей и моих собственных экспериментальных результатах, подскажите маска по сравнению с отсутствием маскировки Есть небольшое преимущество.действительныйиспользовать1 * 10^{-5} Скорость обучения составляет 8,5–9 тысяч шагов. Эта экспериментальная установка относительно стабильна и может хорошо работать при различных сочетаниях данных.
Существует два типа ДПО:
Online Преимущество DPO заключается в том, что данные генерируются с использованием последней модели, поэтому полученные метки могут соответствовать текущей ситуации обучения модели (аналогично активной обучение), что делает обучение выборок более эффективным.
Согласно описанию Llama 3.1, принята стратегия онлайн-обучения DPO. После каждой итерации последняя модель используется для генерации данных, их маркировки и последующего обучения. Во время обучения использовалась скорость обучения 1 * 10^{-5}, гиперпараметр β был установлен равным 0,1, а в алгоритм DPO были внесены следующие улучшения:
Данные имеют решающее значение для оптимизации модели. У данных есть две стороны,Сбор данных, фильтрация качества данных. Во-первых, как получить Данные о предпочтениях,Данные о предпочтенияхиспользовать ПриходитьReward модель и модель DPO; затем, как получить данные SFT и как данные SFT используются для обучения модели SFT, наконец, мы поговорим о методах обработки данных и фильтрации качества данных;
В Ламе В отчете 3.1 данные о предпочтениях создаются с использованием модели, а затем аннотируются вручную. Используйте разные гиперпараметры и данные для обучения разных моделей, чтобы обеспечить разнообразие модели и данных, генерируемых ею. Входными данными всего процесса является сбор подсказок «приехать». Каждый раз выбираются две модели для генерации ответов на подсказки «приехать», а затем вручную отмечаются плюсы и минусы. Помимо обозначения порядка приоритета (выбранного > отклонено), также будет указан размер преимущества, разделенный на четыре уровня: значительно лучше, лучше, чуть лучше и почти то же самое. Затем выполните редактирование выбранных вручную или модели, отредактируйте и, наконец, отредактируйте. > chosen > отвергнутые данные.
Типы данных включают в себя: общий английский, вопросы и ответы на знания, следование инструкциям (около 80% из трех вышеперечисленных), код, многоязычность, рассуждения и использование инструментов (около 20% из последних четырех). Вопросы и ответы на знания, а также последующие инструкции предназначены для того, чтобы ответы были более точными и соответствовали ожиданиям людей. Данные представляют собой данные многораундового взаимодействия с относительно длинными вопросами и ответами для увеличения сложности вопросов.
Поскольку обучение включает в себя несколько раундов, последняя модель будет использоваться для регенерации и аннотирования данных в каждом раунде. Для обучения модели DPO для обучения модели вознаграждения используется только последний раунд аннотированных данных; для обучения модели используются все аннотированные данные; Интуитивно говоря (это немного вынужденное объяснение, я не совсем понимаю эту конструкцию), причина этого в том, что роль модели DPO заключается в предоставлении последующих услуг, что представляет собой итеративную оптимизацию процесса. быть согласованы с текущим статусом модели. Чем более значима оптимизация; модель вознаграждения используется для оценки качества данных и не чувствительна к выравниванию, поэтому использование большего количества данных поможет ей научиться оценивать качество.
Данные SFT состоят из трех частей:
Окончательные данные смешиваются примерно с 50 % общими английскими данными, 15 % кодовыми данными, 3 % многоязычными данными, 8 % данными экзаменов, 21 % данными рассуждений и инструментов и 0,11 % длинными текстовыми данными.
Обработка данных и качественная фильтрация
Поскольку данные генерируются, важна их качественная фильтрация. Для фильтрации качества используются два типа: на основе правил и на основе модели.
правила основаны:主要是由人Приходить看данные,Обобщить некоторые закономерности. Например, было обнаружено, что на ранних этапах обучения,Содержит больше данных эмодзи или восклицательных знаков (например, обычно это «Извините ххх»; «Прошу прощения ххх»).
управляемый моделью:Делайте суждения на основе моделей,Включать:
Фактически, сначала он будет основан на встроенной кластеризации RoBERTa, оценке и сортировке по качеству * сложности внутри класса и выборе данных сверху вниз. Во время выбора будут сохранены только данные с низким сходством с предыдущими данными. для обеспечения разнообразия данных.
Llama 3.1 фокусируется на нескольких функциях модели, включая: код, многоязычность, математику и рассуждения, длинный контекст, использование инструментов, вывод фактов, управляемость и т. д. У каждой функции есть свои особые задачи, Лама. 3.1Всеиметь Совместю этополеиз Характеристика перепискииз Разработка алгоритма,На уровне реализации очень важным моментом является привлечение экспертов предметной области и разработка правил генерации данных на основе характеристик предметной области. Чем лучше правила, разработанные экспертами, тем лучше и полезнее они для обучения. два соображения при разработке правил. Стоит учитывать: каковы особенности и трудности этого поля, что правила могут привнести в модель;Нижеследующее в основном говорит оодин разкодиз Решение。
кодполеиз Трудность в том,:по сравнению с естественным языком,Для понимания кода требуется высокий профессиональный опыт.,让Ручная аннотация需要大量израсходы;скрытыйсуществоватьиз Преимущество в том,:кодможно проанализироватьиосуществлятьиз。поэтому,используйте эти правила,Фильтр качества для синтетических данных,Качество хранения вышеизданные Модель обучения,это разумный метод.Llama 3 использует большое количество стратегий синтетических данных для создания моделей кода обучения данных SFT.
Поскольку код представляет собой относительно большое подразделение, специализированная экспертная модель кода обучается для поддержки процесса постобучения кода. В реальной обработке мы в основном фокусируемся на умении генерировать код, писать документацию, отлаживать и проверять.
Эксперт по коду:потому чтокодполеи Проходитьиспользоватьданныеиметь Большеизразница,И объёма данных в самом коде достаточно для поддержки и обучения,Продолжить здесьпредварительнотренироваться Эксперт по Модель кода для оптимизации - 1T выполнялась на данных, которые составляли 85% данных кода. токенов на последних 1 тыс. шагов используется 16 тыс. контекстов для обучения на уровне проекта. Затем на основе этой модели данные кода используются для обучения после кода для получения окончательной экспертной модели кода. Основная функция этой модели эксперта по коду заключается в синтезе данных и обучении основной модели, включая выборку отклонений подсказок кода, связанных с обучением основной модели. В конечном итоге способность эксперта по кодированию также будет интегрирована в основную модель. .
синтетические данныегенерировать:С помощью Эксперт по коду МодельиLLama 3.1 Основная модель выполняет синтез данных, а синтезированные данные используются для постобучения основной модели для улучшения возможностей кодирования основной модели. Всего здесь синтезируется 2,7 млн фрагментов данных. Поскольку это синтетические данные, объем данных велик. Содержит следующие идеи обработки:
Рекомендации по отклонению выборки:существовать Делатьотклонить образецизкогда,Существует более сложный оперативный контроль,Прямо сейчассуществоватьpromptруководство изкодчитабельность、Документация、Тщательность、Сделайте выборку с определенной точки зрения.
Фильтрация данных с использованием сигналов дискриминанта модели:существоватьотклонить образецсередина,По двум причинам: подсказки создаются из собранных подсказок.,Данные, генерируемые им, выше, чем подсказка, генерируемая моделью.,Используйте его максимально эффективно, когда пользователи используют LLM;,Не всегда ожидайте, что код будет правильным,Например, может быть сгенерирован псевдокод и даже скопирован неправильный код.,Просто внесите некоторые измененияиспользовать。поэтому,Отбраковочная выборка не использует статический/динамический анализ для фильтрации данных.,而是делатьиспользоватьLLama 3. Принимайте решения для фильтрации данных. В частности, пусть Лама 3. Определить конкурентоспособность кода и стиль кода. Для обучения модели останется только правильный и хорошо оформленный код. Однако этот метод позволяет отсеивать сложные данные, что приводит к снижению эффективности модели. Чтобы решить эту проблему, модель неоднократно модифицируется для модификации сложных выборок до тех пор, пока не будут выполнены вышеуказанные требования.
Прошло больше года с момента разработки большой модели. Глядя на текущий момент времени, хотя по-прежнему существует большой разрыв между отечественными большими моделями и сообществами открытого исходного кода по сравнению с openai, достижения отечественных технологий и сообществ открытого исходного кода намного превзошли всеобщие ожидания, когда openai впервые начала выпускать модели в прошлом году. Открытый исходный код во многом способствовал развитию крупных моделей. С одной стороны, можно обмениваться отличным и ценным опытом, что не позволяет различным командам идти одними и теми же обходными путями, что приводит к пустой трате социальных ресурсов, с другой стороны, люди, занимающиеся открытым исходным кодом. Источник карьеры потратит свои собственные деньги. Выводы, полученные в результате упорного труда, расскажут миру, и вы обретете более четкое видение и будете выполнять дела с более ответственным подходом. Выпуск LLama 3/3.1 означает, что сообщество открытого исходного кода смогло обучать модели чрезвычайно высокого качества, а детали обучения прозрачны и воспроизводимы. Можно предвидеть, что при дальнейшей оптимизации оборудования затраты на обучение будут еще больше сокращаться, а сила сообщества открытого исходного кода в будущем будет становиться все сильнее и сильнее.
По сравнению с вызовами API сама модель с открытым исходным кодом может быть приватизирована, точно настроена и развернута, а также имеет более безопасные и управляемые функции. В некоторых сценариях она имеет определенные преимущества со специальной настройкой и высокими требованиями к безопасности данных. Эти сценарии будут способствовать открытости. исходная модель дальнейшего применения и процветания. В то же время модель openai с закрытым исходным кодом собрала большое количество моделей оптимизации запросов пользователей. Это преимущество openai. Это преимущество, которое дает централизованная модель openai с закрытым исходным кодом. Для моделей с открытым исходным кодом преимущества пользовательских данных для оптимизации модели по-прежнему очень высоки. В LLama 3.1 разработаны разумные алгоритмы для использования этих данных. Для них будущее применение модели с открытым исходным кодом будет более ориентировано на сценарий децентрализованной приватизации. сценарии, как собирать данные, станет ценной темой для размышления.
Что включает в себя эта интерпретация:ПучокLLama 3.1технология Отчетиз Самая лучшая часть(LLMизпредварительнотренироватьсяиназадтренироваться)Все讲изотносительно тщательный Понятно,Конечно, некоторые главы еще не охвачены.,напримерДругие возможности методов синтеза данных после обучения, оценки, вывода, мультимодальной корреляции.изсодержание,На самом деле, из этого содержания можно многому научиться.,Вы можете продолжать делиться в будущем.