M3E, вероятно, самая мощная китайская модель встраивания с открытым исходным кодом.
M3E, вероятно, самая мощная китайская модель встраивания с открытым исходным кодом.
“ Представляем m3eОткрытый исходный код Китайский встроенный Модель,Что касается китайской производительности,ПревосходитьChatGPT。”
01
—
Недавно, когда я исследовал и развертывал LangChain + LLM (ChatGPT/ChatGLM) для создания корпоративной базы знаний, я наткнулся на две модели внедрения: text2vec и m3e-base.
Если вас интересуют развертывание моделей и проектов, а также учебные пособия, вы можете прочитать эти статьи:
Компьютер может обрабатывать только числа, но мы хотим, чтобы он мог понимать текст, изображения и другие формы данных. Это то, что делает встраивание. Он преобразует эти сложные данные в числовые представления, точно так же, как и маркирует их. Эти цифровые представления не только сохраняют важную информацию об исходных данных, но также упрощают их обработку и сравнение в компьютерном мире.
Вложения немного похожи на словари, преобразующие разные слова, изображения или объекты в уникальные числовые коды. Таким образом, мы можем использовать эти числа для выполнения расчетов, классификаций или прогнозов. Благодаря внедрению компьютер может стать умнее, поскольку он научится использовать числа для понимания и обработки широкого спектра данных.
Например, мы можем использовать трехмерный числовой вектор (x1, x2, x3...x300) для представления слова, где каждое число в определенном смысле является координатой слова.
Например, когда мы выражаем слово «кот», это может быть (1,0.8,-2,0,1.5...).
«Собака» может быть выражена как (0,5,1,1,-1,8,0,4,2,2...).
Затем мы можем вычислить, насколько близка семантическая связь между «кошкой» и «собакой» по расстоянию между этими числами. Потому что в каком-то количестве они будут ближе.
Расстояние вектора от «стола» будет дальше.
С помощью этого метода встраивание придает словам математическое представление, и компьютер может анализировать взаимосвязь между словами.
Почему это понятие называется embedding А как насчет (встроенного)?
Концепция вложения исходит из топологии. Вложение определяется на основе гомеоморфизма. f отображает X в Z, если f — гомеоморфизм, а Z — подпространство Y. f называется вложением из X в Y.
Как и в буквальном смысле, встраивание подчеркивает, что части X и Y имеют одинаковую структуру.
Если нейронная сеть используется для сопоставления входных данных с пространством меньшей размерности, основной акцент делается на сопоставлении.
Топологическое пространство относится к структуре, состоящей из множества и определенного набора открытых множеств, определенных в этом множестве. Отношение гомеоморфизма означает, что существует биекция (то есть взаимно однозначное соответствие) между двумя топологическими пространствами, и эта биекция и ее обратное отображение непрерывны.
Другими словами, если существуют два топологических пространства A и B, между ними существует биекция f: A → B, и это отображение f и его обратное отображение f^{-1}: B → A оба непрерывны, то мы скажем, A и B гомеоморфны. Это отношение гомеоморфизма означает, что A и B совершенно одинаковы с топологической точки зрения и имеют одинаковые топологические свойства и структуры.
M3E Models Его используют десятки миллионов раз. (2200w+) Китайские предложения для обучения на наборе данных Embedding Модель,существоватьКлассификация текст и Задачи по поиску текста превосходят openai-ada-002 Модель (ЧатGPT официальная модель)。
Наборы данных, модели, сценарии обучения и системы оценки M3E имеют открытый исходный код.
M3E — это аббревиатура Moka Massive Mixed Embedding.
Moka,Эта модель была обучена MokaAI.,Открытый исходный обзор кодов, обучающий скриптиспользование uniem , обзор BenchMark использовать MTEB-zh
Массивная, эта модель преодолела десятки миллионов (2200w+) Китайские предложения для Набора данные для обучения
Mixed,Эта модель поддерживает расчет сходства однородного текста на китайском и английском двуязычных языках.,Поиск гетерогенного текста и другие функции,Получение кода также будет поддерживаться в будущем.
Embedding,этот Модельдамодель внедрения текст, который может преобразовывать естественный язык в плотные векторы.
Сравнение моделей
проиллюстрировать:
s2s, Прямо сейчас sentence to sentence , представляет возможность встраивания однородных текстов, применимые задачи: сходство текста, обнаружение повторяющихся вопросов, классификация. текстаждать
s2p, Прямо сейчас sentence to passage , представляет возможность встраивания между разнородными текстами, применимые задачи: поиск текста, GPT Модуль памяти и т. д.
s2c, Прямо сейчас sentence to code , представляет возможность внедрения между естественным языком и языком программирования, применимая задача: извлечение кода.
Совместимость, представленная Моделью в Открытом исходный код Степень поддержки различных проектов в сообществе, благодаря m3e и text2vec можно передать напрямую sentence-transformers прямойиспользовать,таки openai Сопоставимо с точки зрения поддержки сообщества
ACC & ndcg@10,использовать MTEB Оценка структуры на китайском языке Embedding Модельиз BenchMark,Включать Классификация текста,Перекомпоновка текста,и такие задачи, как поиск текста.
Tips:
Сценарий использования в основном на китайском языке с небольшим количеством английского.предположениеиспользовать m3e Серия модели
Многоязычное использование сцен, предложения использовать openai-ada-002
Сценарий получения кода, рекомендуется использовать ada-002
Сценарий поиска текста, см. Модель с возможностями поиска текста, только в S2S модель на обучении внедрения текст, невозможно выполнить задачу извлечения текста
характеристика
Китайский тренировочный набор,M3E В крупномасштабных парах предложений Набор подготовка данных, включая китайскую энциклопедию, финансы, медицину, право, журналистику, академические и другие области в целом 2200W Образец пары предложений, Набор данных Посмотреть подробности M3E Набор данных
набор для обучения английскому языку,M3E использовать MEDI 145W Английский тройник данные для обучения, Набор данных Посмотреть подробности MEDI Набор данных,этот Набор данных Зависит от instructor team поставлять
набор данных инструкций,M3E использовать了 300W + Инструкция по тонкой настройке Набор данные, что делает M3E Вы можете следовать инструкциям при кодировании текста. Эта часть работы в основном вдохновлена. instructor-embedding
базовая модель,M3E использовать hfl лаборатория Roberta Серия Модель для тренировок, в настоящее время имеется small и base Две версии, вы можете выбрать в соответствии с вашими потребностями
ALL IN ONE,M3E Направлен на то, чтобы обеспечить одно ALL IN ONE измодель внедрения текста,Не только поддерживает суждение о сходстве однородных предложений,Также поддерживает поиск гетерогенного текста.,Вам нужна только одна модель, чтобы охватить все сценарии применения.,Получение кода также будет поддерживаться в будущем.
Классификация текста
Набор данныхвыбирать,выбирать Открытый исходный в существовать HuggingFace на 6 种Классификация текста Набор данные, включая новости, обзоры электронной коммерции, обзоры акций, длинные тексты и т. д.
Метод оценки,использовать MTEB способ оценки и отчета Accuracy。
Сортировка поиска
T2Ranking 1W
Набор данныхвыбирать,использовать T2Ranking Набор данных,Потому что набор данных T2Ranking слишком велик.,openai Затраты времени на оценку и api Стоимость была немного высокой, поэтому мы выбрали только T2Ranking спереди 10000 статьи
Метод оценки,использовать MTEB способ оценки и отчета map@1, map@10, mrr@1, mrr@10, ndcg@1, ndcg@10
Уведомление! Судя по результатам экспериментов и методам обучения, помимо M3E Модельи openai Модельснаружи,Остальные участники Модели не обучены выполнять поисковые задачи.,Поэтому результаты предназначены только для справки.
T2Ranking
Набор данныхвыбирать,использовать T2Рейтинг, устранить openai-ada-002 После Модели переходим к оставшимся трем Моделью. T2Ranking 10W и T2Ranking 50W обзор. (T2Рейтинг Обзор жрет слишком много памяти... 128G Ни один из них не работает)
Метод оценки,использовать MTEB способ оценки и отчета ndcg@10