Как следует тестировать искусственный интеллект? (8) Тестирование интеллектуального обслуживания клиентов на уровне предприятия RAG большой модели
Как следует тестировать искусственный интеллект? (8) Тестирование интеллектуального обслуживания клиентов на уровне предприятия RAG большой модели

Недостатки больших моделей – иллюзии

Связались GPT Все, кто изучает такие большие модели продуктов, должны знать силу больших моделей. Многие люди должныдразнитьПроходить GPT, следуйте GPT Много говорил. Как разговорный робот для общественности, GPT Это, очевидно, выдающийся игрок, и я не видел в мире никого, кто мог бы сравниться с ним. GPT Существование армрестлинга. Возможно, многие думают GPT Это очень мощный разговорный робот. Он предлагает насыщенные часы обучения и может отвечать на вопросы в любой области. Но на самом деле, как я сказал в своем последнем посте, Хотя кажется, что эта большая модель способна ответить на любой вопрос, на самом деле она не способна дать профессиональные и точные ответы в конкретных областях. Например, мы спрашиваем большую модель BMW. 5 На конструктивные детали двигателя системы невозможно получить правильный ответ. Даже если мы спросим большую модель, какова сегодня цена акций Apple, она не сможет ответить. Как показано ниже:

Почему это? Студенты, прочитавшие мои предыдущие уроки, знают, что искусственный интеллект — это то, какие результаты обучения вы ему даете на основе данных, которые вы ему предоставляете. Таким образом, большие модели могут выявлять закономерности между данными на основе массивных обучающих данных и делать выводы, которые нужны пользователям. Но объем знаний, включенных в этот ответ, не может быть отделен от основы обучающих данных. Другими словами, большая модель может определять привычки человеческого языка и методы организации контента на основе данных обучения. Он знает, какой контент выводить, чтобы его было легко понять людям. Но объём знаний, которыми он владеет, не может превышать объём обучающих данных. Таким образом, большие модели могут дать почти идеальные ответы на вопросы, возникающие у пользователей с ограниченным кругом знаний. Но за пределами этого диапазона он бессилен. Если это сцена, которую легче идентифицировать, она даст приведенный выше ответ, так что, по крайней мере, пользователь будет знать, что большая модель не может ответить на этот вопрос. Но большой может появиться и в других сценариях. модельизгаллюцинациявопрос。

галлюцинация Говоря простым языком, модельСделай этоответ。 Я, например, спрашиваю GPT Когда возникает вопрос о коде, на самом деле Вы обнаружите, что иногда это будетСделай этонекоторых не существуетизфункция выходит。Почему это происходит?вопрос, Это предполагает его принцип обучения. В предыдущем уроке я сказал, что любое обучение с учителем по сути не может избежать трех типов бинарной классификации, мультиклассификации и регрессии. Большую модель фактически можно разделить на модель мультиклассификации. Потому что фактический принцип заключается в том, что у нас есть словарь, который содержит большинство часто используемых слов на этом языке. Например, китайский словарь может содержать большинство китайских иероглифов. Когда модель фактически генерирует ответы, она использует вопросы пользователя, чтобы вычислить, каким словом должно быть сгенерированное первое слово. Для каждого слова в словаре будет рассчитана вероятность. Например, всего существует 1w слово, модель это рассчитает 1w Среди слов вероятность появления каждого слова в текущей позиции выводится с наибольшей вероятностью. Затем используйте модельвопрос + первое сгенерированное слово За основу заходим в список словаря для расчета второго слова и так далее. Таким образом, сама большая модель не знает, какой ответ является абсолютно правильным. Она просто выбирает слово с наибольшей вероятностью из словаря. Вот почему пользователи чувствуют, что большая модель всегда дает ответ.

Поговорим о распознавании намерений у разговорных роботов.

Иллюзия большой модели неизбежна, по крайней мере, сама большая модель не может избежать ее. Как упоминалось выше, она не знает реального ответа, она просто угадывает ответ, который, по ее мнению, является наиболее надежным для пользователя. Итак, возвращаясь к тому, что было упомянуто в предыдущей статье, разговорные роботы обычно ставят во главу угла модель мультиклассификации, называемую моделью распознавания намерений. Его обязанность — на основе вопроса пользователя рассчитать, какая подсистема должна ответить на вопрос пользователя. Это происходит именно потому, что мы знаем, что существует множество вопросов, на которые большие модели не могут ответить. Он не обладает профессиональными знаниями (например, если вы спрашиваете, как заменить двигатель BMW 5 серии, ему необходимо получить соответствующий документ из механизма знаний) или не может ответить на вопросы, которые меняются в реальном времени (например , какая сегодня цена акций Apple, это нужно отправить в поисковик) Получить ответы в движке). Поэтому, казалось бы, простой диалоговый робот службы поддержки клиентов на самом деле представляет собой очень большую систему, которая поддерживается множеством моделей подсистем. Тестировщики часто первыми тестируют модель распознавания намерений, чтобы увидеть, достигает ли ее эффект мультиклассификации достаточно высокого стандарта. Потому что, если распознавание намерений неверное, оно будет отправлено в неправильную подсистему, и ответ также будет потерян. Должно быть, это неправильно.

Большая модель RAG

После того, как мы поймем ограничения больших моделей, нам придется столкнуться с другой проблемой. Даже если ответы, полученные через подсистемы, такие как системы знаний или поисковые системы, возвращаются непосредственно пользователю, могут возникнуть проблемы. например:

  • Слишком много информации: мы можем получить большой объем релевантной информации из результатов поиска, и пользователям сложно отфильтровать наиболее точные и полезные части.
  • Неполная или неточная информация. Результаты поиска могут содержать только частичную информацию, либо возвращаемая информация может быть недостаточно точной из-за ограничений поисковой системы.
  • Отсутствие последовательности или несоответствие привычкам человеческого понимания: непосредственно возвращаемые результаты поиска могут представлять собой серию независимых фрагментов.,Отсутствие общей последовательности и логики.,Это повлияет на понимание и опыт пользователя.

Поэтому эксперты отрасли представили способ поиска ибольшую Решение, которое собрала модель, — «Большое». модель RAG (генерация поискового расширения). Краткое содержание одним предложением: RAG (по-китайски означает «генерация улучшений поиска») = Технология поиска + LLM намекать. Например, когда мы задаем вопрос большой модели, мы сначала извлекаем соответствующую информацию из различных источников данных и инкапсулируем полученную информацию и вопросы в prompt Введите его в большую модель и позвольте большой модели дать окончательный ответ. например:

Язык кода:bash
копировать
[Описание задачи]
Если вы профессиональный робот по обслуживанию клиентов, обратитесь к разделу [Базовые знания], чтобы дать профессиональный ответ.
【Справочные знания】
{content} // Соответствующий текст, полученный в результате поиска данных
【вопрос】
Как долго работает аккумулятор подметального робота P10 марки XX?

Ранее мы говорили, что недостатком больших моделей является отсутствие соответствующих знаний и информации в профессиональных областях и типах изменений в реальном времени. Вот почему у него проблемы с галлюцинациями. Теперь мы инкапсулируем эти профессиональные знания в подсказку, чтобы большая модель имела этот опыт знаний и могла более точно ответить на ответ, который хочет пользователь.

Фактически мы говорим, что разговорный робот — это относительно сложная система с множеством подсистем и множеством модельных сервисов. Но его основной процесс на самом деле заключается в использовании модели намерения, чтобы решить, какая подсистема должна справиться с проблемой, а затем инкапсулировать ответ подсистемы в подсказку, чтобы позволить большой модели дать окончательный ответ. Конечно, здесь задействовано множество процессов, таких как проверка безопасности, контроль частоты, черный список отказов и т. д. Сначала мы не будем вдаваться в подробности.

Тестировщики пользуются Большая модель RAG Оцените эффективность

Когда мы узнали о Большой модель RAG Поняв принцип, мы можем догадаться, что тестировщики также могут использовать этот метод для выполнения некоторой работы. В своей предыдущей статье я рассказал, что работа по оценке такой большой модели очень трудоемка. Один из очень трудоемких моментов заключается в том, что даже если у нас уже есть размеченные данные (то есть известны вопросы и ответы), нам сложно автоматизировать тестирование. Это связано главным образом с тем, что его сложно автоматизировать.из Сравните справочные ответы с фактическими ответамииз Степень соответствия,Потому что содержание ответа диалогового робота каждый раз может быть разным,Тот факт, что содержание ответа отличается, не означает, что ответ неправильный.,Язык – вещь глубокая (особенно китайский),Обычно разные описания выражают одно и то же значение.,напримерМеня зовут Сунь Гаофэй. и Сунь Гаофэй меня зовут На самом деле оно выражает почти тот же смысл. Следовательно, вы не можете просто использовать сопоставление строк для проверки правильности ответа. Распространенной идеей может быть введение алгоритма сходства текста, например векторизация двух текстов с последующим вычислением косинусного сходства. Таким образом, сходство двух текстов можно в определенной степени проанализировать с семантической точки зрения. Именно эффект алгоритма семантического сходства с открытым исходным кодом действительно нуждается в проверке на практике в проекте. Второй способ мышления заключается в том, что некоторые тестировщики привыкли позволять GPT закончить работу, Мы можем инкапсулировать связанные вопросы, справочные ответы и ответы, данные моделью, в подскажи, пусть gpt Чтобы оценить качество ответов, например:

Выбор GPT для участия в скоринге не только решает проблемы автоматизации, но и решает субъективные проблемы. На самом деле, этой проблемы сложно избежать в сценариях в области НЛП (обработки естественного языка). К одному и тому же тексту у всех разные чувства. Я уже упоминал ранее, что для оценки субъективных вопросов ручные методы обычно требуют арбитражной системы из трех человек или системы среднего балла из нескольких человек (представленной в предыдущих статьях). Если для проведения такой оценки нет специалистов, хорошим выбором будет ввести GPT и дать ей возможность набрать балл.

На самом деле, много раз я даю его GPT При подсчете баллов нет справочного ответа, поскольку высокая стоимость маркировки данных будет не по карману многим небольшим командам, поэтому мы даем его без справочных ответов. GPT Счет. Конечно, результаты оценки этого метода относительно неудовлетворительны в области профессиональных знаний. Но в некоторых сценариях общения и общих знаний GPT Ответ все еще имеет определенную степень достоверности. Поэтому в тесте мы также можем выбрать не приводить справочные ответы в этих сценариях, а давать справочные ответы в качестве фона в области профессиональных знаний. GPT。

Конечно, здесь необходимо пояснить, что использование этого метода для участия в оценке является целесообразной мерой, когда рабочей силы недостаточно для поддержки ручной оценки. Если вы хотите оценить точность модели оценки, ручная работа является наиболее точной. . В конце концов, у GPT все еще есть много неконтролируемых факторов.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose