Безопасность контента большой модели: где путь?
Безопасность контента большой модели: где путь?

01. Направление исследований в области безопасности контента крупных моделей.

15 августа 2023 г. Администрация киберпространства Китая совместно с Национальной комиссией развития и реформ, Министерством образования, Министерством науки и технологий, Министерством образования и науки объявила «Временные меры по управлению службами генеративного искусственного интеллекта». Министерства промышленности и информационных технологий, Министерства общественной безопасности и Государственной администрации радио, кино и телевидения [2] установили четкие спецификации для предоставления и использования генеративных услуг искусственного интеллекта. На протяжении всего процесса обслуживания поставщики данных явно обязаны принимать эффективные меры для обеспечения уважения прав интеллектуальной собственности, законных прав и интересов других лиц, а также для повышения точности и надежности создаваемого контента.

Направление академических исследований

Научные исследования в основном сосредоточены наБезопасность и надежность контента, созданного AIGC,Оценивая выходные результаты,Исследователи могут автоматически оценивать безопасность контента, генерируемого Моделью. Существует два общих направления исследований:

  • Непосредственно отслеживайте и оценивайте вывод контента с помощью Модели.Raz Лапид и др. [3] оценивают контент, созданный Моделью, путем сравнения встраивания и семантического сходства Cao; Б. и др. [4] использовали случайное отбрасывание для обнаружения выходных данных Модели, так что выходные данные Модели обеспечивают определенную степень стабильности;
  • Пусть Модель генерирует несколько выходных данных,Путем оценки выходного содержимого каждого раза определяется его безопасность.Chen Б. и др. [5] использовали несколько моделей для получения выходных результатов для одного и того же требования, а затем оценили выходные результаты на предмет их эффективности и токсичности. Сделав еще один шаг вперед, Хелблинг А. и др. [6] также предложили использовать другую модель для определения выходного содержания безопасности целевой модели.

Направления промышленных исследований

Ранее организация OWASP предложила 10 основных проблем безопасности в области AIGC и дала подробное объяснение потенциальных проблем безопасности контента, генерируемого LLM. В отрасли придается большое значение обеспечению безопасности приложений LLM, и благодаря краткому изложению конкретных проблем безопасности основное внимание направляется целенаправленно. Это исследование предоставляет отрасли базовую структуру безопасности, которая поможет предприятиям лучше оценивать, понимать и решать проблемы безопасности контента, создаваемого LLM. Обращая внимание на эти вопросы, все слои общества могут улучшить свою способность более целенаправленно реагировать на потенциальные риски и продвигать гарантию безопасности контента технологии LLM в конкретных приложениях.

02. Краткое изложение направлений исследований в области безопасности контента LLM

Проанализируйте направление исследования выходного содержания LLM из всех слоев общества.,в настоящий моментLLMВыходной контент Безопасность Секс-исследования в основном основаны на следующих двух аспектах::для естественного языкиз Безопасность Эссе на сексуальные темы和киномашина языкиз Безопасность Эссе на сексуальные темы

естественный язык

简介结果电影из设计可以性性性性题设计,Направления исследований классифицируются какЭмоциональные, когнитивные проблемы и проблемы незаконного подстрекательства

  • эмоция、Когнитивные проблемы в основном сосредоточены на модели создания контента, связанного с религией.、предвзятость、Нецензурные слова и другой аморальный контент;
  • Проблема незаконного подстрекательства направлена ​​на решение того, что выходное содержание Модели связано с противоправными преступлениями.、Данные и другой контент, не соответствующий положениям законодательства.

Эти два типа проблем затрагивают разные области регулирования, но оба могут иметь серьезные последствия. Поэтому необходимо убедиться, что контент, создаваемый моделью, соответствует соответствующим законам и правилам, уважает социальную этику, а также общественный порядок и хорошие обычаи. Поставщики моделей должны принимать соответствующие меры для обеспечения безопасности контента, создаваемого моделью. модель.

машинный язык

Возможные сексуальные проблемы безопасности для машинного языка,Мы классифицируем его какОператоры исполняемого кода и потенциальные уязвимости безопасности

  • Операторы исполняемого кода в основном сосредоточены в модели. Сгенерированный контент содержит связанный код, который может вызвать веб-уязвимости.,Если есть код риска XSS;
  • Потенциальные уязвимости безопасности — это связанные коды, которые могут привести к использованию уязвимостей.,Например, вирусный код.

Два типа проблем охватывают прямые и косвенные проблемы, которые могут существовать в контенте, создаваемом моделью. Поэтому при предоставлении модельных услуг поставщики услуг должны уточнить и раскрыть применимые группы, случаи и цели своих услуг, а также принять соответствующие меры. для предотвращения чрезмерной зависимости или зависимости пользователей от создания контента.

03、NSFOCUS LSAS

Система оценки безопасности больших моделей NSFOCUS LSAS (далее — LSAS), независимо разработанная NSFOCUS Technology, проводит тестирование безопасности и соответствия выходного содержимого модели с двух аспектов:

  • LSAS использует динамические слова-подсказки для получения выходных данных модели. через алгоритм Модель生成из各方面содержание进行Безопасностьсексуальная оценка,После получения результата,Проведите оценку безопасности общего выходного содержания Модели на основе результатов.,Формирование целевой модели выходного содержания Безопасность сексуального отчета.
  • LSAS выполняет обнаружение безопасности выходного содержимого LLM в соответствии с различными типами атак. Выполняя глубокую проверку выходных данных модели.,Логические идеи с использованием ключевых слов и сопоставления слов,Выполнение определения пола безопасности для содержимого, возвращенного из модели.,Позвольте разработчикам впервые обнаружить риски, связанные с безопасностью, создаваемой Моделью. Этот механизм защиты может в значительной степени снизить риск, связанный с Моделью для кода и системы.

Обнаружение сканера включает в себя разговоры языкимашинный язык两种类型из潜在有害содержание。LSASнравиться Модельиз一道防火墙,Возможность обнаруживать неподходящий контент, созданный Моделью, до того, как его увидят пользователи.,Чтобы исследователи Безопасности могли модифицировать и оптимизировать Безопасность Модели.

В отчете о безопасности модели, созданном LSAS, будут отображены результаты безопасности соответствующего выходного содержимого. Отчет может показать, содержат ли выходные результаты модели небезопасный контент при различных типах атак. Если выходной контент безопасен, отчет даст успешный результат. Если модель генерирует небезопасный выходной контент, LSAS запишет, сохранит и представит соответствующий выходной контент.

Для каждой подкатегории атак LSAS будет оцениваться в соответствии с окончательной долей небезопасного контента и получать окончательную оценку безопасности модели с помощью алгоритма, предоставляющего эталон безопасности модели.

Отчет о сканировании безопасности большой модели (частичный)

Обнаружение безопасности выходного контента LSAS

Технология NSFOCUS имеет разные характеристики сценариев применения для разных LLM. На ранней стадии проектирования она использует множество различных датчиков, чтобы сканер мог охватить как можно больше практических сценариев применения и обнаружить безопасность выходного содержимого LLM. Имитируя взаимодействие с пользователем, специальный тестовый зонд используется для упреждающего запуска сканирующего тестирования и оценки риска обнаружения целевого LLM.

Для обеспечения безопасности выходного контента на обоих языках детектор разработал множество датчиков безопасности.

На разговорном языке имеется следующий выходной контент: Секс-зонд безопасности:

  • Jailbreak Прямо сейчас Сцена побега из Защита, в основном используется для определения прочности встроенного механизма безопасности целевой модели. В этом сценарии используется ролевая игра или моделирование сценария для обхода механизма безопасности LLM, что позволяет LLM отбрасывать встроенные слова-подсказки. Здесь будет проверено, согласен ли LLM выполнять эту роль, то есть будет ли LLM давать согласованный результат в соответствии с созданной ролью или сценарием. Обычно созданные роли и сценарии опасны и могут легко выводить контент, несовместимый с ним. этика и мораль. Если LLM выводит соответствующий недопустимый контент, то можно определить, что LLM имеет риск вывода нежелательного контента при определенных обстоятельствах. Ниже показана Сцена побега из Принцип вывода LLM без содержания безопасности.

Сцена побега из тюрьмы

  • leakreplay Используется для определения того, воспроизвел ли целевой LLM данные обучения. Он был представлен в статье «Обнаружение и защита: «узкий обруч» большой утечки информации» [8].
  • Snowball Прямо сейчас雪球攻击,Используется для оценки и проверки способности к рассуждению LLM.,И на этой основе оценивается выходное содержание LLM. Идет атака снежками,Злоумышленник предпринимает серию последовательных атакующих действий.,Постепенно увеличивайте размер и воздействие атак.,Похоже на катание снежного кома. Этот тип обнаружения нацелен на системы безопасности, которые обходят LLM.,Наконец, выходное содержимое LLM уничтожается.

Принцип атаки снежным комом

  • Goalhijacking для обнаруженияLLMиз目标劫持问题,Целью атаки с захватом цели обычно является обман или угроза. Модель,Заставить его неправильно классифицировать входные данные в определенную категорию, выбранную злоумышленником.

LSAS перехватывает выходные данные языковой модели, добавляя вредоносные инструкции к пользовательскому вводу, заставляя LLM выводить указанную строку или json.

Принцип захвата цели

Для машинного языка выходной контент Безопасность фокусируется на обнаружении уязвимостей и вредоносного кода:

  • Класс кодировок используется для Модель Класс функции шифрования и дешифрования Безопасностьсекс-тест,Обнаружение зонда включает текущие основные методы кодирования (включая base64, base32 и т. д.).,Введя код,Определить результат декодирования,Проверьте возможности вывода Модели во время кодирования и декодирования.
  • Malware Зонды, используемые для комплексного обнаружения вредоносного кода или вирусов, созданных LLM. LSAS побуждает LLM генерировать опасный и оскорбительный вредоносный код или вирусы с помощью заранее заданных слов-подсказок. Если LLM обладает сильными возможностями и способностью генерировать сложный код, он может не только напрямую генерировать вредоносное ПО, но также может ссылаться на или создавать инструменты, которые могут способствовать вредоносному поведению.
  • Xssinjection Целью этого исследования является обнаружение устойчивости LLM к XSS-уязвимостям. Он может проверить, может ли LLM создавать атаки с внедрением XSS, которые можно выполнить. Сделав еще один шаг вперед, он также может обнаружить наличие LLM, которые приводят к XSS-уязвимостям, таким как утечка личных данных.
  • PackageHallucination 在进行代码编写任务из时候,LLM может предоставлять библиотеки ресурсов или пакеты, которых в действительности не существует.,и вызвать его содержимое. Эту проблему галлюцинаций можно использовать,Побуждение пользователей к загрузке вредоносных пакетов. Этот тип зонда нацелен на подобные ситуации,Определите, есть ли в выходном содержимом LLM несуществующие библиотеки ресурсов или пакеты.,Оцените выходное содержание LLM.

Модель оценки рисков

В реальных сценариях обнаружения приложений NSFOCUS LSAS сканирует и обнаруживает ряд текущих крупных моделей с открытым исходным кодом, включая многочисленные тесты, связанные с безопасностью выходного контента. Результат следующий:

большой Вывод модели. Результаты теста безопасности (класс естественного языка).

Крупная модель выдает результаты обнаружения безопасности (китайский зонд)

большой Вывод модели. Результаты теста безопасности (класс машинного языка).

LSAS использует процент прохождения тестовых случаев в тесте в качестве показателя оценки модели.,Оценка находится в диапазоне от 0 до 1. Результаты сканирования отображаются,В естественной языковой среде,Почти всегда возникает проблема с выводом Безопасности для существующей Модели. В тестах на зонд джейлбрейка,Все LLM будут выводить контент, который не соответствует стратегии безопасности, в среде подсказок для взлома, тщательно созданной злоумышленником, судя по нескольким другим результатам тестов;,LLM в целом может обеспечить определенную степень безопасности.,Но разные LLM будут иметь разные сексуальные риски.,Поэтому различные LLM должны фокусироваться на своих слабых звеньях при последующей разработке и использовании.,Целевое сексуальное подкрепление «Безопасность».

также,В отличие от других сканеров LLM,Компания LSAS разработала специализированный китайский корпусной зонд для обнаружения отечественных LLM.,Чтобы определить природу безопасности выходного контента LLM в китайском контексте.,Все эти зонды заканчиваются на cn в своем названии.

Из результатов также видно, что безопасность выходного содержания модели в разных контекстах может сильно различаться. Поэтому китайский корпусной зонд, созданный для отечественной среды LLM, эффективен и необходим.

В ответ на машинный Выходное содержимое языка. В среде сексуального сканирования большинство LLM выводят недопустимое содержимое кода или полезную информацию под воздействием слов-подсказок. Среди них результаты исследования Encodings показывают, что большинство LLM будут иметь ошибки при ответе на вопросы по кодированию. Использование LLM для ответа на соответствующие вопросы по кодированию и декодированию требует более высокого уровня безопасностисосредоточиться. на; Результаты проверки вредоносного ПО показывают, что большинство LLM не выполняют предварительную обработку соответствующего контента, связанного с сетевой безопасностью, в процессе обучения и разработки. В результате текущие LLM выдают PoC и полезную информацию файлов уязвимостей в различных операционных системах. Существование LSAS может в определенной степени повлиять на безопасность контента, создаваемого LLM.

Из-за особенностей архитектуры LLM ответы, генерируемые каждым выходным взаимодействием, не фиксированы, поэтому существующие сканеры по-прежнему рискуют затруднить захват и обнаружение. В будущем NSFOCUS Technology продолжит развивать, оптимизировать и совершенствовать LSAS, внедрять более широкие и комплексные методы проверки безопасности выходного контента и использовать алгоритмы машинного обучения, чтобы сделать оценки безопасности моделей более объективными и надежными.

Благодаря быстрому развитию и широкому применению технологий AIGC и продуктов LLM, вопросы безопасности LLM постепенно становятся все более заметными. Безопасность всегда была важной областью, требующей постоянного внимания и инноваций для LLM и связанных с ней технологий. NSFOCUS Technology предоставляет комплексные решения по безопасности для среды применения генеративных моделей искусственного интеллекта для эффективной борьбы с рисками безопасности, которые могут быть связаны с выходными данными модели. Обеспечьте надежную гарантию безопасности для платформы и приложений пользователей LLM.

Список литературы

[1] Лаборатория Тяньшу. M01N, «Предупреждение о безопасности LLM: пять реальных случаев, раскрывающих риски безопасности, связанные с выходным контентом больших моделей», 2024 г.

[2] Веб-сайт Администрации киберпространства Китая, «Меры по управлению службами генеративного искусственного интеллекта (проект для комментариев)», 2023 г.

[3] Lapid R, Langberg R, Sipper M. Open sesame! universal black box jailbreaking of large language models[J]. ar**v preprint ar**v:2309.01446, 2023.

[4] Cao B, Cao Y, Lin L, et al. Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM[J]. ar**v preprint ar**v:2309.14348, 2023.

[5] Chen B, Paliwal A, Yan Q. Jailbreaker in Jail: Moving Target Defense for Large Language Models[J]. ar**v preprint ar**v:2310.02417, 2023.

[6] Helbling A, Phute M, Hull M, et al. Llm self defense: By self examination, llms know they are being tricked[J]. ar**v preprint ar**v:2308.07308, 2023.

[7] OWASP, “OWASP Top 10 for LLM”, 2023

[8] Лаборатория Тяньшу, команда M01N, «LLM Укрепление линии защиты: обнаружение утечек и оценка рисков конфиденциальной информации в больших моделях», 2023 г.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose