Выпущена SecBench, первая в Китае крупномасштабная платформа для оценки моделей сетевой безопасности.
Выпущена SecBench, первая в Китае крупномасштабная платформа для оценки моделей сетевой безопасности.

Автор | Тина

19 января 2024 года был официально выпущен SecBench, первая в отрасли платформа для оценки больших моделей сетевой безопасности. Платформа была разработана совместно Tencent Suzaku Lab и Tencent Security Cohen Lab совместно с Tencent Hunyuan Large Model и командой профессора Цзян Юна. /Профессор Ся Шутао из Университета Цинхуа, исследовательская группа профессора Луо Сяпу из Гонконгского политехнического университета, Шанхайская лаборатория искусственного интеллекта OpenCompass Совместная разработка команды в основном решает проблему оценки возможностей безопасности больших моделей с открытым исходным кодом в приложениях сетевой безопасности. Она направлена ​​на предоставление эталона для выбора базовых моделей для реализации больших моделей в области безопасности и ускорения внедрения. большие модели. В то же время, создавая эталон оценки большой модели безопасности, мы предоставляем справедливые, беспристрастные, объективные и комплексные возможности оценки для исследований и разработок крупных моделей безопасности, а также способствуем созданию больших моделей безопасности.

Дебют в отрасли, заполнивший пробел в оценке крупных моделей в области сетевой безопасности. С момента выпуска ChatGPT в ноябре 2022 года крупные модели искусственного интеллекта положили начало крупнейшей в истории волне искусственного интеллекта и процессу внедрения. большие модели также ускорились. Однако в приложениях сетевой безопасности вопрос о том, как разработчики больших моделей выбирают подходящие базовые модели и соответствуют ли возможности безопасности текущих больших моделей требованиям бизнес-приложений, стал неотложным вопросом, требующим решения. Платформа оценки больших моделей сетевой безопасности SecBench будет сосредоточена на оценке различных возможностей больших моделей в области сетевой безопасности по четырем параметрам: проверка способностей, языка, домена и сертификата безопасности, предоставляя эффективную и достоверную информацию разработчикам крупных моделей и академические исследователи, инструмент выбора модели пьедестала и справочник по исследованиям.

Рисунок 1. Общая архитектура оценки большой модели сетевой безопасности SecBench.

Рисунок 2. Результаты оценки GPT-4 по измерению возможностей, языковому измерению и возможностям поля безопасности.

Рисунок 3. Результаты оценки GPT-4 на различных экзаменах на сертификат безопасности (зеленый цвет означает сдачу экзамена)

Схема архитектуры проекта SecBench 1. Архитектура, запланированная на начальном этапе оценки большой модели сетевой безопасности SecBench, в основном построена на трех измерениях: во-первых, накопление уникальных для отрасли наборов данных оценки сетевой безопасности. Данные оценки являются основой для построения эталонных тестов и наиболее важной частью оценки возможностей большой модели. В настоящее время в отрасли не существует эталона/структуры оценки специально для крупных моделей в области сетевой безопасности. Основная причина также связана с отсутствием квитанций об оценке. Таким образом, основной целью создания эталонного теста для оценки большой модели сетевой безопасности является накопление уникального в отрасли набора данных для оценки сетевой безопасности, охватывающего несколько языков, несколько типов вопросов, несколько возможностей и несколько полей для всесторонней оценки возможностей безопасности большой модели. Во-вторых, создать удобную и быструю структуру оценки большой модели сетевой безопасности. В рамках «Битвы сотен моделей» большие модели представлены в разных формах, включая большие модели с открытым исходным кодом, которые постоянно появляются на HuggingFace, API-сервисы для больших моделей, такие как GPT-4, Tencent Hunyuan, Wenxin Yiyan и т. д., а также как самостоятельно разработанные и локально развернутые модели. Также имеет решающее значение то, как система оценки обеспечивает быстрый доступ и быструю оценку различных крупных моделей. Кроме того, разнообразие данных оценки также затрудняет гибкость системы оценки. Например, вопросы с несколькими вариантами ответов и вопросы викторины часто требуют разных подсказок и показателей оценки, а также способов быстрого сравнения различий между несколькими попытками и нулевыми попытками. Поэтому необходимо создать удобную и быструю структуру оценки больших моделей сетевой безопасности для поддержки гибкого доступа и быстрой оценки различных моделей, разных данных и разных показателей оценки. В-третьих, необходимо предоставить всеобъемлющие и четкие результаты оценки. На разных этапах разработки модели безопасности большой сети фактически существуют разные потребности в оценке. Например, на этапе выбора базовой модели на ранних этапах исследований и разработок обычно необходимо только понять рейтинг возможностей различных базовых моделей и сравнить различия в возможностях разных моделей на этапе разработки системы безопасности большой сети; моделей, необходимо понимать возможности каждой итерации изменения модели, тщательно анализировать результаты оценки и т. д. Таким образом, оценка большой модели сети должна выдавать полные и четкие результаты оценки, такие как списки оценок, сравнение возможностей, промежуточные результаты и т. д., чтобы удовлетворить потребности различных этапов исследований и разработок. Помимо достижения трех вышеуказанных целей, SecBench также разработал две уникальные возможности сетевой безопасности: оценку домена безопасности и оценку проверки сертификата безопасности. Оценка области безопасности оценивает способность крупных моделей в девяти областях безопасности с точки зрения вертикальной безопасности; оценка проверки сертификата безопасности поддерживает классическую оценку проверки сертификата и оценивает способность крупных моделей пройти проверку сертификата безопасности.

Структура оценки SecBench Среду оценки сетевой безопасности SecBench можно разделить на четыре части: доступ к данным, доступ к модели, оценка модели и вывод результатов. Путем настройки источника данных, модели оценки и индикаторов оценки через файл конфигурации получаются результаты оценки модели. можно быстро вывести. Доступ к данным: с точки зрения доступа к данным, SecBench поддерживает несколько типов доступа к данным, такие как вопросы с множественным выбором, вопросы «верно» и «неверно», вопросы викторины и т. д. Он также поддерживает индивидуальный доступ к данным и настройку шаблона подсказки для оценки. Доступ к модели: Что касается доступа к модели, SecBench также поддерживает модель с открытым исходным кодом HuggingFace, службу API для больших моделей, бесплатный доступ к локально развернутым большим моделям, а также поддерживает модели, определяемые пользователем. Оценка модели. Что касается оценки модели, SecBench поддерживает многозадачный параллелизм для ускорения оценки. Кроме того, SecBench имеет встроенные несколько индикаторов оценки для поддержки оценки результатов рутинных задач, а также поддерживает пользовательские индикаторы оценки для удовлетворения особых потребностей. Вывод результатов: Что касается вывода результатов, SecBench может не только отображать результаты оценки на интерфейсной странице, но также выводить промежуточные результаты оценки модели, такие как файлы конфигурации, входные и выходные данные, файлы результатов оценки и т. д. ., для поддержки потребностей анализа данных разработчиков крупных моделей сетевой безопасности.

Рисунок 4. Структура оценки большой модели сетевой безопасности SecBench

Трудно оценить способность SecBench оценивать модели безопасности больших сетей передачи данных. Одной из основных причин является отсутствие данных о безопасности вертикальных сетей. Чтобы решить эту проблему, SecBench в настоящее время собрал и систематизировал 12 наборов данных оценки безопасности, в общей сложности более 10 000 фрагментов данных. Языковой аспект: охватывает оценки на двух распространенных языках: китайском и английском. Измерение емкости: с точки зрения безопасности оно поддерживает оценку большой модели способности памяти знаний, способности логического рассуждения, а также способности понимания и выражения знаний безопасности. Доменное измерение: поддерживает оценку возможностей крупных моделей в различных областях безопасности, включая безопасность данных, безопасность приложений, безопасность конечных точек и хостов, безопасность сети и инфраструктуры, контроль идентификации и доступа, базовое программное обеспечение, оборудование и технологии, управление безопасностью и т. д. Сертификационный экзамен: SecBench также накопил различные тестовые вопросы по моделированию сертификатов безопасности, которые могут поддержать оценку экзамена на уровне сертификата безопасности большой модели.

Рисунок 5. Распределение данных оценки большой модели сетевой безопасности SecBench.

В настоящее время данные оценки SecBench все еще имеют такие проблемы, как недостаточное разнообразие и неравномерное распределение. В настоящее время данные оценки с несколькими типами вопросов, способностями и измерениями постоянно дополняются и конструируются.

Результаты оценки SecBench SecBench постепенно интегрирует крупные модели для оценки возможностей сетевой безопасности. В настоящее время он в основном выводит оценочные списки для классической модели GPT и небольших моделей с открытым исходным кодом. Отображает результаты модели в различных измерениях компетентности в области способностей, языка и безопасности, а также поддерживает вывод результатов проверки сертификата уровня безопасности. В будущем мы продолжим доступ к коммерческим большим моделям и большим моделям безопасности для поддержки сравнения возможностей моделей и других возможностей.

Рисунок 6. Список оценок большой модели сетевой безопасности SecBench

Поскольку применение больших моделей в области сетевой безопасности ускоряется, оценка больших моделей сетевой безопасности становится особенно важной. SecBecnch изначально создал возможности оценки в вертикальной области сетевой безопасности, чтобы лучше поддерживать разработку и внедрение крупных моделей сетевой безопасности. Кроме того, чтобы оценить производительность больших моделей в оперативной безопасности, лаборатория Tencent Zhuque Lab объединилась с Шэньчжэньской международной аспирантурой Университета Цинхуа, чтобы выпустить «Бенчмарк оценки безопасности больших языковых моделей (LLM)».

Перспективы будущего SecBecnch изначально установил возможности оценки в вертикальной области сетевой безопасности. Однако есть еще много областей, которые требуют оптимизации и итераций: во-первых, все еще необходимо продолжать дополнять и создавать высококачественные данные оценки сетевой безопасности, охватывающие их. несколько полей и типов вопросов, чтобы лучше поддерживать комплексную оценку моделей в области сетевой безопасности; во-вторых, быстро следить за оценкой крупных моделей и быстро выводить результаты оценки для недавно выпущенных крупных моделей; Целью является обогащение представления результатов модели и поддержка функций сравнения моделей, анализа результатов и т. д. для удовлетворения потребностей различных пользователей. SecBench также надеется привлечь больше партнеров, в том числе соответствующих практиков из научных кругов и промышленности, чтобы создать беспроигрышную ситуацию и совместно способствовать разработке моделей безопасности больших сетей.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose