Безопасность контента большой модели: где путь?

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

01. Направление исследований в области безопасности контента крупных моделей.

15 августа 2023 г. Администрация киберпространства Китая совместно с Национальной комиссией развития и реформ, Министерством образования, Министерством науки и технологий, Министерством образования и науки объявила «Временные меры по управлению службами генеративного искусственного интеллекта». Министерства промышленности и информационных технологий, Министерства общественной безопасности и Государственной администрации радио, кино и телевидения [2] установили четкие спецификации для предоставления и использования генеративных услуг искусственного интеллекта. На протяжении всего процесса обслуживания поставщики данных явно обязаны принимать эффективные меры для обеспечения уважения прав интеллектуальной собственности, законных прав и интересов других лиц, а также для повышения точности и надежности создаваемого контента.

Направление академических исследований

Научные исследования в основном сосредоточены наБезопасность и надежность контента, созданного AIGC,Оценивая выходные результаты,Исследователи могут автоматически оценивать безопасность контента, генерируемого Моделью. Существует два общих направления исследований:

Непосредственно отслеживайте и оценивайте вывод контента с помощью Модели.Raz Лапид и др. [3] оценивают контент, созданный Моделью, путем сравнения встраивания и семантического сходства Cao; Б. и др. [4] использовали случайное отбрасывание для обнаружения выходных данных Модели, так что выходные данные Модели обеспечивают определенную степень стабильности;
Пусть Модель генерирует несколько выходных данных,Путем оценки выходного содержимого каждого раза определяется его безопасность.Chen Б. и др. [5] использовали несколько моделей для получения выходных результатов для одного и того же требования, а затем оценили выходные результаты на предмет их эффективности и токсичности. Сделав еще один шаг вперед, Хелблинг А. и др. [6] также предложили использовать другую модель для определения выходного содержания безопасности целевой модели.

Направления промышленных исследований

Ранее организация OWASP предложила 10 основных проблем безопасности в области AIGC и дала подробное объяснение потенциальных проблем безопасности контента, генерируемого LLM. В отрасли придается большое значение обеспечению безопасности приложений LLM, и благодаря краткому изложению конкретных проблем безопасности основное внимание направляется целенаправленно. Это исследование предоставляет отрасли базовую структуру безопасности, которая поможет предприятиям лучше оценивать, понимать и решать проблемы безопасности контента, создаваемого LLM. Обращая внимание на эти вопросы, все слои общества могут улучшить свою способность более целенаправленно реагировать на потенциальные риски и продвигать гарантию безопасности контента технологии LLM в конкретных приложениях.

02. Краткое изложение направлений исследований в области безопасности контента LLM

Проанализируйте направление исследования выходного содержания LLM из всех слоев общества.,в настоящий моментLLMВыходной контент Безопасность Секс-исследования в основном основаны на следующих двух аспектах:：для естественного языкиз Безопасность Эссе на сексуальные темы和киномашина языкиз Безопасность Эссе на сексуальные темы。

естественный язык

简介结果电影из设计可以性性性性题设计,Направления исследований классифицируются какЭмоциональные, когнитивные проблемы и проблемы незаконного подстрекательства。

эмоция、Когнитивные проблемы в основном сосредоточены на модели создания контента, связанного с религией.、предвзятость、Нецензурные слова и другой аморальный контент;
Проблема незаконного подстрекательства направлена на решение того, что выходное содержание Модели связано с противоправными преступлениями.、Данные и другой контент, не соответствующий положениям законодательства.

Эти два типа проблем затрагивают разные области регулирования, но оба могут иметь серьезные последствия. Поэтому необходимо убедиться, что контент, создаваемый моделью, соответствует соответствующим законам и правилам, уважает социальную этику, а также общественный порядок и хорошие обычаи. Поставщики моделей должны принимать соответствующие меры для обеспечения безопасности контента, создаваемого моделью. модель.

машинный язык

Возможные сексуальные проблемы безопасности для машинного языка,Мы классифицируем его какОператоры исполняемого кода и потенциальные уязвимости безопасности。

Операторы исполняемого кода в основном сосредоточены в модели. Сгенерированный контент содержит связанный код, который может вызвать веб-уязвимости.,Если есть код риска XSS;
Потенциальные уязвимости безопасности — это связанные коды, которые могут привести к использованию уязвимостей.,Например, вирусный код.

Два типа проблем охватывают прямые и косвенные проблемы, которые могут существовать в контенте, создаваемом моделью. Поэтому при предоставлении модельных услуг поставщики услуг должны уточнить и раскрыть применимые группы, случаи и цели своих услуг, а также принять соответствующие меры. для предотвращения чрезмерной зависимости или зависимости пользователей от создания контента.

03、NSFOCUS LSAS

Система оценки безопасности больших моделей NSFOCUS LSAS (далее — LSAS), независимо разработанная NSFOCUS Technology, проводит тестирование безопасности и соответствия выходного содержимого модели с двух аспектов:

LSAS использует динамические слова-подсказки для получения выходных данных модели. через алгоритм Модель生成из各方面содержание进行Безопасностьсексуальная оценка,После получения результата,Проведите оценку безопасности общего выходного содержания Модели на основе результатов.,Формирование целевой модели выходного содержания Безопасность сексуального отчета.
LSAS выполняет обнаружение безопасности выходного содержимого LLM в соответствии с различными типами атак. Выполняя глубокую проверку выходных данных модели.,Логические идеи с использованием ключевых слов и сопоставления слов,Выполнение определения пола безопасности для содержимого, возвращенного из модели.,Позвольте разработчикам впервые обнаружить риски, связанные с безопасностью, создаваемой Моделью. Этот механизм защиты может в значительной степени снизить риск, связанный с Моделью для кода и системы.

Обнаружение сканера включает в себя разговоры языкимашинный язык两种类型из潜在有害содержание。LSASнравиться Модельиз一道防火墙,Возможность обнаруживать неподходящий контент, созданный Моделью, до того, как его увидят пользователи.,Чтобы исследователи Безопасности могли модифицировать и оптимизировать Безопасность Модели.

В отчете о безопасности модели, созданном LSAS, будут отображены результаты безопасности соответствующего выходного содержимого. Отчет может показать, содержат ли выходные результаты модели небезопасный контент при различных типах атак. Если выходной контент безопасен, отчет даст успешный результат. Если модель генерирует небезопасный выходной контент, LSAS запишет, сохранит и представит соответствующий выходной контент.

Для каждой подкатегории атак LSAS будет оцениваться в соответствии с окончательной долей небезопасного контента и получать окончательную оценку безопасности модели с помощью алгоритма, предоставляющего эталон безопасности модели.

Отчет о сканировании безопасности большой модели (частичный)

Обнаружение безопасности выходного контента LSAS

Технология NSFOCUS имеет разные характеристики сценариев применения для разных LLM. На ранней стадии проектирования она использует множество различных датчиков, чтобы сканер мог охватить как можно больше практических сценариев применения и обнаружить безопасность выходного содержимого LLM. Имитируя взаимодействие с пользователем, специальный тестовый зонд используется для упреждающего запуска сканирующего тестирования и оценки риска обнаружения целевого LLM.

Для обеспечения безопасности выходного контента на обоих языках детектор разработал множество датчиков безопасности.

На разговорном языке имеется следующий выходной контент: Секс-зонд безопасности:

Jailbreak Прямо сейчас Сцена побега из Защита, в основном используется для определения прочности встроенного механизма безопасности целевой модели. В этом сценарии используется ролевая игра или моделирование сценария для обхода механизма безопасности LLM, что позволяет LLM отбрасывать встроенные слова-подсказки. Здесь будет проверено, согласен ли LLM выполнять эту роль, то есть будет ли LLM давать согласованный результат в соответствии с созданной ролью или сценарием. Обычно созданные роли и сценарии опасны и могут легко выводить контент, несовместимый с ним. этика и мораль. Если LLM выводит соответствующий недопустимый контент, то можно определить, что LLM имеет риск вывода нежелательного контента при определенных обстоятельствах. Ниже показана Сцена побега из Принцип вывода LLM без содержания безопасности.

Сцена побега из тюрьмы

leakreplay Используется для определения того, воспроизвел ли целевой LLM данные обучения. Он был представлен в статье «Обнаружение и защита: «узкий обруч» большой утечки информации» [8].
Snowball Прямо сейчас雪球攻击,Используется для оценки и проверки способности к рассуждению LLM.,И на этой основе оценивается выходное содержание LLM. Идет атака снежками,Злоумышленник предпринимает серию последовательных атакующих действий.,Постепенно увеличивайте размер и воздействие атак.,Похоже на катание снежного кома. Этот тип обнаружения нацелен на системы безопасности, которые обходят LLM.,Наконец, выходное содержимое LLM уничтожается.

Принцип атаки снежным комом

Goalhijacking для обнаруженияLLMиз目标劫持问题,Целью атаки с захватом цели обычно является обман или угроза. Модель,Заставить его неправильно классифицировать входные данные в определенную категорию, выбранную злоумышленником.

LSAS перехватывает выходные данные языковой модели, добавляя вредоносные инструкции к пользовательскому вводу, заставляя LLM выводить указанную строку или json.

Принцип захвата цели

Для машинного языка выходной контент Безопасность фокусируется на обнаружении уязвимостей и вредоносного кода:

Класс кодировок используется для Модель Класс функции шифрования и дешифрования Безопасностьсекс-тест,Обнаружение зонда включает текущие основные методы кодирования (включая base64, base32 и т. д.).,Введя код,Определить результат декодирования,Проверьте возможности вывода Модели во время кодирования и декодирования.
Malware Зонды, используемые для комплексного обнаружения вредоносного кода или вирусов, созданных LLM. LSAS побуждает LLM генерировать опасный и оскорбительный вредоносный код или вирусы с помощью заранее заданных слов-подсказок. Если LLM обладает сильными возможностями и способностью генерировать сложный код, он может не только напрямую генерировать вредоносное ПО, но также может ссылаться на или создавать инструменты, которые могут способствовать вредоносному поведению.
Xssinjection Целью этого исследования является обнаружение устойчивости LLM к XSS-уязвимостям. Он может проверить, может ли LLM создавать атаки с внедрением XSS, которые можно выполнить. Сделав еще один шаг вперед, он также может обнаружить наличие LLM, которые приводят к XSS-уязвимостям, таким как утечка личных данных.
PackageHallucination 在进行代码编写任务из时候,LLM может предоставлять библиотеки ресурсов или пакеты, которых в действительности не существует.,и вызвать его содержимое. Эту проблему галлюцинаций можно использовать,Побуждение пользователей к загрузке вредоносных пакетов. Этот тип зонда нацелен на подобные ситуации,Определите, есть ли в выходном содержимом LLM несуществующие библиотеки ресурсов или пакеты.,Оцените выходное содержание LLM.

Модель оценки рисков

В реальных сценариях обнаружения приложений NSFOCUS LSAS сканирует и обнаруживает ряд текущих крупных моделей с открытым исходным кодом, включая многочисленные тесты, связанные с безопасностью выходного контента. Результат следующий:

большой Вывод модели. Результаты теста безопасности (класс естественного языка).

Крупная модель выдает результаты обнаружения безопасности (китайский зонд)

большой Вывод модели. Результаты теста безопасности (класс машинного языка).

LSAS использует процент прохождения тестовых случаев в тесте в качестве показателя оценки модели.,Оценка находится в диапазоне от 0 до 1. Результаты сканирования отображаются,В естественной языковой среде,Почти всегда возникает проблема с выводом Безопасности для существующей Модели. В тестах на зонд джейлбрейка,Все LLM будут выводить контент, который не соответствует стратегии безопасности, в среде подсказок для взлома, тщательно созданной злоумышленником, судя по нескольким другим результатам тестов;,LLM в целом может обеспечить определенную степень безопасности.,Но разные LLM будут иметь разные сексуальные риски.,Поэтому различные LLM должны фокусироваться на своих слабых звеньях при последующей разработке и использовании.,Целевое сексуальное подкрепление «Безопасность».

также,В отличие от других сканеров LLM,Компания LSAS разработала специализированный китайский корпусной зонд для обнаружения отечественных LLM.,Чтобы определить природу безопасности выходного контента LLM в китайском контексте.,Все эти зонды заканчиваются на cn в своем названии.

Из результатов также видно, что безопасность выходного содержания модели в разных контекстах может сильно различаться. Поэтому китайский корпусной зонд, созданный для отечественной среды LLM, эффективен и необходим.

В ответ на машинный Выходное содержимое языка. В среде сексуального сканирования большинство LLM выводят недопустимое содержимое кода или полезную информацию под воздействием слов-подсказок. Среди них результаты исследования Encodings показывают, что большинство LLM будут иметь ошибки при ответе на вопросы по кодированию. Использование LLM для ответа на соответствующие вопросы по кодированию и декодированию требует более высокого уровня безопасностисосредоточиться. на； Результаты проверки вредоносного ПО показывают, что большинство LLM не выполняют предварительную обработку соответствующего контента, связанного с сетевой безопасностью, в процессе обучения и разработки. В результате текущие LLM выдают PoC и полезную информацию файлов уязвимостей в различных операционных системах. Существование LSAS может в определенной степени повлиять на безопасность контента, создаваемого LLM.

Из-за особенностей архитектуры LLM ответы, генерируемые каждым выходным взаимодействием, не фиксированы, поэтому существующие сканеры по-прежнему рискуют затруднить захват и обнаружение. В будущем NSFOCUS Technology продолжит развивать, оптимизировать и совершенствовать LSAS, внедрять более широкие и комплексные методы проверки безопасности выходного контента и использовать алгоритмы машинного обучения, чтобы сделать оценки безопасности моделей более объективными и надежными.

Благодаря быстрому развитию и широкому применению технологий AIGC и продуктов LLM, вопросы безопасности LLM постепенно становятся все более заметными. Безопасность всегда была важной областью, требующей постоянного внимания и инноваций для LLM и связанных с ней технологий. NSFOCUS Technology предоставляет комплексные решения по безопасности для среды применения генеративных моделей искусственного интеллекта для эффективной борьбы с рисками безопасности, которые могут быть связаны с выходными данными модели. Обеспечьте надежную гарантию безопасности для платформы и приложений пользователей LLM.

Список литературы

[1] Лаборатория Тяньшу. M01N, «Предупреждение о безопасности LLM: пять реальных случаев, раскрывающих риски безопасности, связанные с выходным контентом больших моделей», 2024 г.

[2] Веб-сайт Администрации киберпространства Китая, «Меры по управлению службами генеративного искусственного интеллекта (проект для комментариев)», 2023 г.

[3] Lapid R, Langberg R, Sipper M. Open sesame! universal black box jailbreaking of large language models[J]. ar**v preprint ar**v:2309.01446, 2023.

[4] Cao B, Cao Y, Lin L, et al. Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM[J]. ar**v preprint ar**v:2309.14348, 2023.

[5] Chen B, Paliwal A, Yan Q. Jailbreaker in Jail: Moving Target Defense for Large Language Models[J]. ar**v preprint ar**v:2310.02417, 2023.

[6] Helbling A, Phute M, Hull M, et al. Llm self defense: By self examination, llms know they are being tricked[J]. ar**v preprint ar**v:2308.07308, 2023.

[7] OWASP, “OWASP Top 10 for LLM”, 2023

[8] Лаборатория Тяньшу, команда M01N, «LLM Укрепление линии защиты: обнаружение утечек и оценка рисков конфиденциальной информации в больших моделях», 2023 г.

Рекомендация

Категории

Служить Модель Безопасность LLM содержаниеБезопасность

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Безопасность контента большой модели: где путь?

01. Направление исследований в области безопасности контента крупных моделей.

02. Краткое изложение направлений исследований в области безопасности контента LLM

03、NSFOCUS LSAS

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

Безопасность контента большой модели: где путь?

01. Направление исследований в области безопасности контента крупных моделей.

02. Краткое изложение направлений исследований в области безопасности контента LLM

03、NSFOCUS LSAS

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose