15 августа 2023 г. Администрация киберпространства Китая совместно с Национальной комиссией развития и реформ, Министерством образования, Министерством науки и технологий, Министерством образования и науки объявила «Временные меры по управлению службами генеративного искусственного интеллекта». Министерства промышленности и информационных технологий, Министерства общественной безопасности и Государственной администрации радио, кино и телевидения [2] установили четкие спецификации для предоставления и использования генеративных услуг искусственного интеллекта. На протяжении всего процесса обслуживания поставщики данных явно обязаны принимать эффективные меры для обеспечения уважения прав интеллектуальной собственности, законных прав и интересов других лиц, а также для повышения точности и надежности создаваемого контента.
Направление академических исследований
Научные исследования в основном сосредоточены наБезопасность и надежность контента, созданного AIGC,Оценивая выходные результаты,Исследователи могут автоматически оценивать безопасность контента, генерируемого Моделью. Существует два общих направления исследований:
Направления промышленных исследований
Ранее организация OWASP предложила 10 основных проблем безопасности в области AIGC и дала подробное объяснение потенциальных проблем безопасности контента, генерируемого LLM. В отрасли придается большое значение обеспечению безопасности приложений LLM, и благодаря краткому изложению конкретных проблем безопасности основное внимание направляется целенаправленно. Это исследование предоставляет отрасли базовую структуру безопасности, которая поможет предприятиям лучше оценивать, понимать и решать проблемы безопасности контента, создаваемого LLM. Обращая внимание на эти вопросы, все слои общества могут улучшить свою способность более целенаправленно реагировать на потенциальные риски и продвигать гарантию безопасности контента технологии LLM в конкретных приложениях.
Проанализируйте направление исследования выходного содержания LLM из всех слоев общества.,в настоящий моментLLMВыходной контент Безопасность Секс-исследования в основном основаны на следующих двух аспектах::для естественного языкиз Безопасность Эссе на сексуальные темы和киномашина языкиз Безопасность Эссе на сексуальные темы。
естественный язык
简介结果电影из设计可以性性性性题设计,Направления исследований классифицируются какЭмоциональные, когнитивные проблемы и проблемы незаконного подстрекательства。
Эти два типа проблем затрагивают разные области регулирования, но оба могут иметь серьезные последствия. Поэтому необходимо убедиться, что контент, создаваемый моделью, соответствует соответствующим законам и правилам, уважает социальную этику, а также общественный порядок и хорошие обычаи. Поставщики моделей должны принимать соответствующие меры для обеспечения безопасности контента, создаваемого моделью. модель.
машинный язык
Возможные сексуальные проблемы безопасности для машинного языка,Мы классифицируем его какОператоры исполняемого кода и потенциальные уязвимости безопасности。
Два типа проблем охватывают прямые и косвенные проблемы, которые могут существовать в контенте, создаваемом моделью. Поэтому при предоставлении модельных услуг поставщики услуг должны уточнить и раскрыть применимые группы, случаи и цели своих услуг, а также принять соответствующие меры. для предотвращения чрезмерной зависимости или зависимости пользователей от создания контента.
Система оценки безопасности больших моделей NSFOCUS LSAS (далее — LSAS), независимо разработанная NSFOCUS Technology, проводит тестирование безопасности и соответствия выходного содержимого модели с двух аспектов:
Обнаружение сканера включает в себя разговоры языкимашинный язык两种类型из潜在有害содержание。LSASнравиться Модельиз一道防火墙,Возможность обнаруживать неподходящий контент, созданный Моделью, до того, как его увидят пользователи.,Чтобы исследователи Безопасности могли модифицировать и оптимизировать Безопасность Модели.
В отчете о безопасности модели, созданном LSAS, будут отображены результаты безопасности соответствующего выходного содержимого. Отчет может показать, содержат ли выходные результаты модели небезопасный контент при различных типах атак. Если выходной контент безопасен, отчет даст успешный результат. Если модель генерирует небезопасный выходной контент, LSAS запишет, сохранит и представит соответствующий выходной контент.
Для каждой подкатегории атак LSAS будет оцениваться в соответствии с окончательной долей небезопасного контента и получать окончательную оценку безопасности модели с помощью алгоритма, предоставляющего эталон безопасности модели.
Отчет о сканировании безопасности большой модели (частичный)
Обнаружение безопасности выходного контента LSAS
Технология NSFOCUS имеет разные характеристики сценариев применения для разных LLM. На ранней стадии проектирования она использует множество различных датчиков, чтобы сканер мог охватить как можно больше практических сценариев применения и обнаружить безопасность выходного содержимого LLM. Имитируя взаимодействие с пользователем, специальный тестовый зонд используется для упреждающего запуска сканирующего тестирования и оценки риска обнаружения целевого LLM.
Для обеспечения безопасности выходного контента на обоих языках детектор разработал множество датчиков безопасности.
На разговорном языке имеется следующий выходной контент: Секс-зонд безопасности:
Сцена побега из тюрьмы
Принцип атаки снежным комом
LSAS перехватывает выходные данные языковой модели, добавляя вредоносные инструкции к пользовательскому вводу, заставляя LLM выводить указанную строку или json.
Принцип захвата цели
Для машинного языка выходной контент Безопасность фокусируется на обнаружении уязвимостей и вредоносного кода:
Модель оценки рисков
В реальных сценариях обнаружения приложений NSFOCUS LSAS сканирует и обнаруживает ряд текущих крупных моделей с открытым исходным кодом, включая многочисленные тесты, связанные с безопасностью выходного контента. Результат следующий:
большой Вывод модели. Результаты теста безопасности (класс естественного языка).
Крупная модель выдает результаты обнаружения безопасности (китайский зонд)
большой Вывод модели. Результаты теста безопасности (класс машинного языка).
LSAS использует процент прохождения тестовых случаев в тесте в качестве показателя оценки модели.,Оценка находится в диапазоне от 0 до 1. Результаты сканирования отображаются,В естественной языковой среде,Почти всегда возникает проблема с выводом Безопасности для существующей Модели. В тестах на зонд джейлбрейка,Все LLM будут выводить контент, который не соответствует стратегии безопасности, в среде подсказок для взлома, тщательно созданной злоумышленником, судя по нескольким другим результатам тестов;,LLM в целом может обеспечить определенную степень безопасности.,Но разные LLM будут иметь разные сексуальные риски.,Поэтому различные LLM должны фокусироваться на своих слабых звеньях при последующей разработке и использовании.,Целевое сексуальное подкрепление «Безопасность».
также,В отличие от других сканеров LLM,Компания LSAS разработала специализированный китайский корпусной зонд для обнаружения отечественных LLM.,Чтобы определить природу безопасности выходного контента LLM в китайском контексте.,Все эти зонды заканчиваются на cn в своем названии.
Из результатов также видно, что безопасность выходного содержания модели в разных контекстах может сильно различаться. Поэтому китайский корпусной зонд, созданный для отечественной среды LLM, эффективен и необходим.
В ответ на машинный Выходное содержимое языка. В среде сексуального сканирования большинство LLM выводят недопустимое содержимое кода или полезную информацию под воздействием слов-подсказок. Среди них результаты исследования Encodings показывают, что большинство LLM будут иметь ошибки при ответе на вопросы по кодированию. Использование LLM для ответа на соответствующие вопросы по кодированию и декодированию требует более высокого уровня безопасностисосредоточиться. на; Результаты проверки вредоносного ПО показывают, что большинство LLM не выполняют предварительную обработку соответствующего контента, связанного с сетевой безопасностью, в процессе обучения и разработки. В результате текущие LLM выдают PoC и полезную информацию файлов уязвимостей в различных операционных системах. Существование LSAS может в определенной степени повлиять на безопасность контента, создаваемого LLM.
Из-за особенностей архитектуры LLM ответы, генерируемые каждым выходным взаимодействием, не фиксированы, поэтому существующие сканеры по-прежнему рискуют затруднить захват и обнаружение. В будущем NSFOCUS Technology продолжит развивать, оптимизировать и совершенствовать LSAS, внедрять более широкие и комплексные методы проверки безопасности выходного контента и использовать алгоритмы машинного обучения, чтобы сделать оценки безопасности моделей более объективными и надежными.
Благодаря быстрому развитию и широкому применению технологий AIGC и продуктов LLM, вопросы безопасности LLM постепенно становятся все более заметными. Безопасность всегда была важной областью, требующей постоянного внимания и инноваций для LLM и связанных с ней технологий. NSFOCUS Technology предоставляет комплексные решения по безопасности для среды применения генеративных моделей искусственного интеллекта для эффективной борьбы с рисками безопасности, которые могут быть связаны с выходными данными модели. Обеспечьте надежную гарантию безопасности для платформы и приложений пользователей LLM.
Список литературы
[1] Лаборатория Тяньшу. M01N, «Предупреждение о безопасности LLM: пять реальных случаев, раскрывающих риски безопасности, связанные с выходным контентом больших моделей», 2024 г.
[2] Веб-сайт Администрации киберпространства Китая, «Меры по управлению службами генеративного искусственного интеллекта (проект для комментариев)», 2023 г.
[3] Lapid R, Langberg R, Sipper M. Open sesame! universal black box jailbreaking of large language models[J]. ar**v preprint ar**v:2309.01446, 2023.
[4] Cao B, Cao Y, Lin L, et al. Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM[J]. ar**v preprint ar**v:2309.14348, 2023.
[5] Chen B, Paliwal A, Yan Q. Jailbreaker in Jail: Moving Target Defense for Large Language Models[J]. ar**v preprint ar**v:2310.02417, 2023.
[6] Helbling A, Phute M, Hull M, et al. Llm self defense: By self examination, llms know they are being tricked[J]. ar**v preprint ar**v:2308.07308, 2023.
[7] OWASP, “OWASP Top 10 for LLM”, 2023
[8] Лаборатория Тяньшу, команда M01N, «LLM Укрепление линии защиты: обнаружение утечек и оценка рисков конфиденциальной информации в больших моделях», 2023 г.