Расшифровка подсказки. Серия 20. Агент LLM снова обсуждает оптимизацию разнообразия отзыва RAG.
Расшифровка подсказки. Серия 20. Агент LLM снова обсуждает оптимизацию разнообразия отзыва RAG.

Мы говорили несколько месяцев назадRAGклассическая схемаРасшифровка подсказок. Серия 14. Дизайн поискового приложения LLM Agent。Буквально на днях закончил смотретьopenAIсуществоватьDevDayПредставлено на закрытом заседанииRAGСоответствующий опыт,Некоторые новые идеи,Воспользуйтесь этой возможностью, чтобы разобраться во всем еще разRAGСопутствующие решения по оптимизации。Рекомендуется смотреть оригинальное видео напрямую.(Нужно посещать зарубежные сайты)A Survey of Techniques for Maximizing LLM Performance

На самом деле наиболее важной частью RAG является не LLM, а запоминание связанного контента. Как указано выше для рассуждений о большой модели, отличное запоминание контента должно соответствовать следующим условиям:

  • разнообразие и запоминаемость:Отозванный контент должен отвечать на вопрос,И содержательное богатство,Включите несколько точек зрения на одну и ту же проблему,несколько углов
  • Актуальность и точность:Содержание отзыва связано с проблемой,Вы не можете вспомнить только 2 из 100 статей, посвященных проблеме.
  • Последовательность и низкий уровень конфликтов:Согласованность мнений среди вспоминаемого контента высокая.
  • Более высокие требования: высокий период времени, власть, целостность взгляда, повторение контента.

Здесь мы могли бы также поучиться на предыдущем опыте,ссылкаОсновная структура поиска: понимание и расширение запросов -> Многократный отзыв -> сортировка слиянием -> Переставить и разбить。последние несколько месяцевRAGВ статье также, похоже, сочетаются традиционные поисковые решения.,использоватьLLMОбновление парадигмы происходило по очереди。В этой главе мы сначала сосредоточимся наРазнообразие содержания воспоминанийВсего несколько слов。

Непосредственное использование пользовательского запроса для векторного поиска часто приводит к невысокой скорости отзыва по следующим причинам:

  • Запрос короткий, а сама информация ограничена.
  • Эффект встраивания короткого текста плохой
  • Существуют различия в пространственном представлении между вектором короткого текста запроса и вектором длинного текста документа.
  • Пользователи не совсем понимают, о чем они хотят спросить
  • Для ответа на запрос пользователя может потребоваться агрегирование информации из нескольких направлений.

Вышеупомянутые проблемы на самом деле касаются двух моментов: разнообразия информации, содержащейся в самом Query, и разнообразия поисковых индексов. Ниже мы представим их соответственно на основе новых и старых статей, а также некоторых новых функций langchain~

1. Разнообразие запросов

2019 Query Expansion Techniques for Information Retrieval: a Survey

Расширение традиционного поискового запроса,Существуют похожие запросы, основанные на анализе журнала поиска пользователей.,Существуют похожие запросы, основанные на одной и той же ассоциации документов отзыва.,Еще есть Queryпереписать на базе SMT план。Это лучше соответствует эпохе больших моделей.из Конечнопереписать план,Поддержка LLM значительно снижает сложность переписывания запроса.,Это также предоставляет больше возможностей для перезаписи.

1.1 Подобное семантическое переписывание

Learning to Rewrite Запросы, Yahoo (2016) webcpm: Interactive Web Search for Chinese Long-form Question Отвечаю, Цинхуа (2023)

Еще в 2016 году Yahoo исследовала возможность переписывания запросов.,В то время это еще былseq2seqизLSTM。Затем следует вступление.изwebcpmСуществует такжеиспользоватьбольшая модельqueryПерепишите, чтобы улучшить запоминаемость контента。НедавноlangchainТакже интегрированMultiQueryRetrieverиз Похожие функции。Логика заключается в том, чтобы поместить пользователяизQueryПереписано на несколько семантически схожихизQuery,Используйте несколько запросов вместе для отзыва,следующее

1.2 Двунаправленная перезапись

Query2doc: Query Expansion with Large Language Модели, Microsoft (2023) Query Expansion by Prompting Large Language Models, Гугл (2023 г.)

Кроме того, существует альтернативное решение по переписыванию запроса, которое заключается в переписывании запроса в документ, как указано в Query2doc. В документе используется подсказка из 4 шагов, позволяющая LLM сначала сгенерировать псевдодокумент на основе запроса, а затем использовать сгенерированный ответ для вызова соответствующего контента. Эта адаптация имеет некоторые существенные преимущества.

  • Устранить проблему плохого эффекта векторизации короткого текстового запроса.
  • Устранение проблемы пространственных различий между векторами длинного текста документа и векторами короткого текста запроса.
  • Улучшите эффект извлечения дискретных индексов, таких как BM25. В конце концов, эффективные ключевые слова легче извлечь, если текст длиннее.

Конечно, недостатки также существенны. Один из них заключается в том, что в псевдодокументах может возникнуть семантический дрейф. В ответах-галлюцинациях будут вводиться неправильные ключевые слова, что снизит точность запоминания, и декодирование займет много времени ~

Здесь Query2Doc написан наоборот,Doc2Query — еще одно направление оптимизации.,Он заключается в создании N связанных запросов (псевдозапросов) для каждого документа.,Используйте вектор внедрения связанного запроса для представления документа.,и настоящийQueryВыполните расчеты сходства。langchainизMultiVector RetrieverТакже интегрированпохожийиз Функция。

Google также предпринял аналогичную попытку. Мы сравнили несколько схем перезаписи Query2Doc (Q2D), Query2Keyword (Q2E) и Query2COT, а также эффекты использования различных инструкций подсказок, таких как «нулевой», «несколько шагов» и улучшение документа отзыва. Среди них Query2Doc использует ту же инструкцию приглашения, что и Microsoft, описанную выше. Другие инструкции следующие.

Результаты показывают, что когда размер модели достаточно велик, Query2COT показывает значительно лучшие результаты. Даже за пределами схемы COT/PRF, которая включает соответствующую документацию выше. С одной стороны, COT выполнит многоэтапный демонтаж Query. С другой стороны, процесс мышления будет генерировать более эффективные ключевые слова, и отказ от использования связанных документов может более эффективно раскрыть способность воспоминания и креативность самой модели.

1.3 Адаптация обучения с подкреплением

ASK THE RIGHT QUESTIONS: ACTIVE QUESTION REFORMULATION WITH REINFORCEMENT ОБУЧЕНИЕ, Google (2018) Query Rewriting for Retrieval-Augmented Large Language Модели, Microsoft (2023)

Вышеупомянутый план переписывания был упомянут на закрытой встрече Openai. Он действительно может в определенной степени улучшить эффект RAG и может быть использован для первоначальных попыток. Однако этот вид переписывания является неконтролируемым, то есть он переписывается на основе аналогичной семантики, и нет никакой гарантии, что эффект поиска переписанного запроса будет лучше. Тогда мы могли бы также поставить цель целенаправленно оптимизировать эффект перезаписи.

В 2018 году Google попыталась использовать обучение с подкреплением для оптимизации модели переписывания, рассматривая поисковую систему как среду, а модель seq2seq сгенерировала несколько кандидатов на перезапись запросов в качестве действий. Содержимое отзыва исходного запроса и содержимое отзыва переписанного запроса отправляются в последующий модуль сортировки. Скорость возврата содержимого переписанного запроса в содержимом TopK модуля сортировки используется в качестве оценки вознаграждения для постепенного обновления. модель перезаписи. Максимальное преобразование скорости отзыва перезаписи. В конце концов, каким бы необычным ни было ваше переписывание, оно может эффективно улучшить запоминаемость контента. Более высокий уровень запоминаемости эксклюзивного контента — действительно полезная модель переписывания.

В эпоху больших моделей модуль переписывания был обновлен до LLM. В рамках перезаписывания переписывания, предложенная Microsoft, используя большие модели в качестве переписывания, Bing Search в качестве ретривера, Chatgpt в качестве читателя, попробуйте использовать PPO, чтобы точно настроить модель переписывания в задаче QA. и реальные ответы. Тем не менее, в реальной сцене этот вид стандартного ответа QA Q & A на самом деле очень маленький, и более открытый Q & A. Таким образом, на самом деле, традиционная схема вышеуказанной компиляции может использоваться для использования эталонной скорости рассуждений крупной модели в качестве целевого рисунка. В конце концов, какой из входов больших моделей разумный, принцип аналогичен принципам ** сущности **.

2. Расширение индекса

После разговора о расширении запросов давайте посмотрим на расширение индекса. В настоящее время большинство индексов отзыва RAG по-прежнему основаны на одной векторной модели внедрения, но один вектор в качестве индекса отзыва имеет следующие общие проблемы:

  • Существуют различные типы сходства текста: семантическое сходство, сходство грамматической структуры, сходство ключевых слов сущности и неотличимость по одному измерению.
  • Сходство текста имеет разную степень детализации: в некоторых сценариях требуется вспомнить точное совпадение содержимого, в то время как в других требуется нечеткое сопоставление, а большинство векторных моделей имеют ограниченную распознаваемость.
  • Подобные определения различаются в разных областях: В области утилизации существует проблема низкой пригодности векторной модели.
  • Подобные проблемы между длинным и коротким текстом: длинный и короткий текстовый вектор может быть не в векторном пространстве

Давайте посмотрим, какие еще типы индексов можно использовать в качестве дополнения к одному вектору.

2.1 Расширение дискретного индекса

Query Expansion by Prompting Large Language Models, Гугл (2023 г.) ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases

В традиционном поиске часто используется большое количество дискретных индексов, и они часто оказывают хорошее дополнение к векторному вызову при вызове контента во многих вертикальных полях. Точность восстановления некоторых дискретных индексов, таких как объекты, может быть значительно выше, чем векторных. отзывать. Некоторые общие представления Query о создании дискретных индексов включают:

  • Извлечение: сегментация слов, распознавание нграмм новых слов, распознавание частей речи, извлечение объектов, извлечение ключевых слов и т. д.
  • Классификация: классификация намерений, классификация тем, классификация концепций, классификация местоположения и т. д.
  • Многошаговый режим: связывание сущностей, расширение синонимов, запрос KG и т. д.

Первое, что приходит на ум, — это использование больших моделей для улучшения парадигм.,Все единодушно сосредоточили свое внимание насуществовать Понятнорасширение ключевого слова

Хотя эффект query2Keyword, опробованный в статье Google выше, не превзошел query2Doc и Query2COT. Но сама генерация ключевых слов не требует больших усилий и требует много времени.,И на самом деле он дает очень хорошие результаты в некоторых вертикальных областях. Например, ChatLaw — крупная модель в юридической сфере.,Просто используй этоLLM выполняет ассоциацию ключевых слов правовых положений。бумагаиспользоватьLLMОриентирован на пользователейQueryСоздайте ключевые слова, связанные с юридическими вопросами,ииспользоватьключевые словаизEnsemble Встраивание для напоминания соответствующих юридических терминов. Конечно, вы также можете использовать ключевые слова для прямого вызова. Этот дизайн на самом деле разработан для юридической сферы, где ключевые слова домена часто имеют значительно лучший эффект запоминаемости.

2.2 Постоянное расширение индекса

https://github.com/FlagOpen/FlagEmbedding https://github.com/shibing624/text2vec https://github.com/Embedding/Chinese-Word-Vectors AUGMENTED EMBEDDINGS FOR CUSTOM RETRIEVALS, Майкрософт 2023

При расширении векторных индексов первое, что приходит на ум, — это одновременное использование нескольких различных непрерывных векторных индексов, в том числе

  1. Наивный режим: различные модели внедрения, наиболее распространенными из которых являются серии Ada от OpenAI, BGE от Zhiyuan и Text2vec, используют многоканальные модели внедрения для одновременного вызова или используют решения взвешенного отзыва, чтобы учиться на сильных сторонах друг друга.
  2. Простой режим: используйте ключевые слова, извлеченные выше, и взвешивание вектора слов для запоминания. По сравнению с векторами текста, векторы слов, как правило, имеют более высокую скорость запоминания и дают хорошие результаты в некоторых вертикальных полях. Конечно, обратное состоит в том, что точность векторов слов может быть низкой, но этап вспоминания по своей сути заключается в забрасывании широкой сети, чтобы поймать больше рыбы.
  3. Сложный режим: Встраивание обучающего поля. Стоимость самая высокая, и ее можно будет опробовать в конце. Дело, упомянутое на openai devday, заключается в том, что модель предметной области имеет ограниченные улучшения по сравнению с общей моделью, а стоимость высока.

Однако недавно Microsoft предложила более легкое решение, чем модель внедрения, в области тонкой настройки. Она аналогична идее тонкой настройки Лора. Мы не перемещаем базовую модель, а настраиваем ее. адаптер на нем, чтобы оптимизировать эффект сопоставления запроса и документа.

Для адаптера изменения вектора в статье используется сложение векторов, которое заключается в добавлении остатка на основе выходных данных D-мерного встраивания исходной модели. Расчет остатка представляет собой ключ-значение. Функция поиска содержит две переменные K и v одинаковой формы. Например, векторный вывод для openai — D = 1536 размеров,residualвыберуh<<Dтрансформировать,Значение h находится между 16 и 128.,Тогда K и V — h*D-мерные матрицы соответственно.,То есть адаптерной части нужны только параметры обновления градиента порядка 2hD.,следующее

Функция точной настройки потерь использует Globa контрастного обучения. lNegative Loss,То есть каждый (запрос,содержание) пара — положительный образец,Все содержимое остальных образцов является отрицательными образцами.,Целями обучения являютсяqueryКазумаса Тономотоиз Сходство>和其余所有负样本Сходствоизмаксимальное значение。Кажется, он очень легкийизплан,Если будет возможность, попробую~

2.3 Отзыв гибридного индекса

https://learn.microsoft.com/en-us/azure/search/hybrid-search-ranking

Смешайте вызов дискретного индекса, например BM25, и непрерывный вызов индекса, например векторы внедрения, для гибридного вызова.,langchainизEnsemble RetrieverЭта функция интегрирована。Однако смешанный отзыв является крупнейшимиз Проблема в разных отзывахиз Рейтинг сложно отсортировать。Поэтому, когда содержимое многоканального смешанного отзыва велико,,Необходимо ввести модуль сортировки для дальнейшей фильтрации контента.,Мы поговорим об этом позже~


reference

  1. Применение понимания запроса и семантического отзыва в поиске Zhihu
  2. Понимание и запоминание поиска Meituan
  3. Приложение для понимания запросов в поиске Meituan
  4. Поиск электронной коммерции QP: запрос переписан
  5. Технология расширения запросов в поиске Dingxiangyuan
  6. Исследование и практика технологии переписывания запросов в Meituan Search

Я участвую в третьем этапе специального тренировочного лагеря Tencent Technology Creation 2023 с эссе, получившими приз, и сформирую команду, которая разделит приз!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose