Автор | Тина
19 января 2024 года был официально выпущен SecBench, первая в отрасли платформа для оценки больших моделей сетевой безопасности. Платформа была разработана совместно Tencent Suzaku Lab и Tencent Security Cohen Lab совместно с Tencent Hunyuan Large Model и командой профессора Цзян Юна. /Профессор Ся Шутао из Университета Цинхуа, исследовательская группа профессора Луо Сяпу из Гонконгского политехнического университета, Шанхайская лаборатория искусственного интеллекта OpenCompass Совместная разработка команды в основном решает проблему оценки возможностей безопасности больших моделей с открытым исходным кодом в приложениях сетевой безопасности. Она направлена на предоставление эталона для выбора базовых моделей для реализации больших моделей в области безопасности и ускорения внедрения. большие модели. В то же время, создавая эталон оценки большой модели безопасности, мы предоставляем справедливые, беспристрастные, объективные и комплексные возможности оценки для исследований и разработок крупных моделей безопасности, а также способствуем созданию больших моделей безопасности.
Дебют в отрасли, заполнивший пробел в оценке крупных моделей в области сетевой безопасности. С момента выпуска ChatGPT в ноябре 2022 года крупные модели искусственного интеллекта положили начало крупнейшей в истории волне искусственного интеллекта и процессу внедрения. большие модели также ускорились. Однако в приложениях сетевой безопасности вопрос о том, как разработчики больших моделей выбирают подходящие базовые модели и соответствуют ли возможности безопасности текущих больших моделей требованиям бизнес-приложений, стал неотложным вопросом, требующим решения. Платформа оценки больших моделей сетевой безопасности SecBench будет сосредоточена на оценке различных возможностей больших моделей в области сетевой безопасности по четырем параметрам: проверка способностей, языка, домена и сертификата безопасности, предоставляя эффективную и достоверную информацию разработчикам крупных моделей и академические исследователи, инструмент выбора модели пьедестала и справочник по исследованиям.
Рисунок 1. Общая архитектура оценки большой модели сетевой безопасности SecBench.
Рисунок 2. Результаты оценки GPT-4 по измерению возможностей, языковому измерению и возможностям поля безопасности.
Рисунок 3. Результаты оценки GPT-4 на различных экзаменах на сертификат безопасности (зеленый цвет означает сдачу экзамена)
Схема архитектуры проекта SecBench 1. Архитектура, запланированная на начальном этапе оценки большой модели сетевой безопасности SecBench, в основном построена на трех измерениях: во-первых, накопление уникальных для отрасли наборов данных оценки сетевой безопасности. Данные оценки являются основой для построения эталонных тестов и наиболее важной частью оценки возможностей большой модели. В настоящее время в отрасли не существует эталона/структуры оценки специально для крупных моделей в области сетевой безопасности. Основная причина также связана с отсутствием квитанций об оценке. Таким образом, основной целью создания эталонного теста для оценки большой модели сетевой безопасности является накопление уникального в отрасли набора данных для оценки сетевой безопасности, охватывающего несколько языков, несколько типов вопросов, несколько возможностей и несколько полей для всесторонней оценки возможностей безопасности большой модели. Во-вторых, создать удобную и быструю структуру оценки большой модели сетевой безопасности. В рамках «Битвы сотен моделей» большие модели представлены в разных формах, включая большие модели с открытым исходным кодом, которые постоянно появляются на HuggingFace, API-сервисы для больших моделей, такие как GPT-4, Tencent Hunyuan, Wenxin Yiyan и т. д., а также как самостоятельно разработанные и локально развернутые модели. Также имеет решающее значение то, как система оценки обеспечивает быстрый доступ и быструю оценку различных крупных моделей. Кроме того, разнообразие данных оценки также затрудняет гибкость системы оценки. Например, вопросы с несколькими вариантами ответов и вопросы викторины часто требуют разных подсказок и показателей оценки, а также способов быстрого сравнения различий между несколькими попытками и нулевыми попытками. Поэтому необходимо создать удобную и быструю структуру оценки больших моделей сетевой безопасности для поддержки гибкого доступа и быстрой оценки различных моделей, разных данных и разных показателей оценки. В-третьих, необходимо предоставить всеобъемлющие и четкие результаты оценки. На разных этапах разработки модели безопасности большой сети фактически существуют разные потребности в оценке. Например, на этапе выбора базовой модели на ранних этапах исследований и разработок обычно необходимо только понять рейтинг возможностей различных базовых моделей и сравнить различия в возможностях разных моделей на этапе разработки системы безопасности большой сети; моделей, необходимо понимать возможности каждой итерации изменения модели, тщательно анализировать результаты оценки и т. д. Таким образом, оценка большой модели сети должна выдавать полные и четкие результаты оценки, такие как списки оценок, сравнение возможностей, промежуточные результаты и т. д., чтобы удовлетворить потребности различных этапов исследований и разработок. Помимо достижения трех вышеуказанных целей, SecBench также разработал две уникальные возможности сетевой безопасности: оценку домена безопасности и оценку проверки сертификата безопасности. Оценка области безопасности оценивает способность крупных моделей в девяти областях безопасности с точки зрения вертикальной безопасности; оценка проверки сертификата безопасности поддерживает классическую оценку проверки сертификата и оценивает способность крупных моделей пройти проверку сертификата безопасности.
Структура оценки SecBench Среду оценки сетевой безопасности SecBench можно разделить на четыре части: доступ к данным, доступ к модели, оценка модели и вывод результатов. Путем настройки источника данных, модели оценки и индикаторов оценки через файл конфигурации получаются результаты оценки модели. можно быстро вывести. Доступ к данным: с точки зрения доступа к данным, SecBench поддерживает несколько типов доступа к данным, такие как вопросы с множественным выбором, вопросы «верно» и «неверно», вопросы викторины и т. д. Он также поддерживает индивидуальный доступ к данным и настройку шаблона подсказки для оценки. Доступ к модели: Что касается доступа к модели, SecBench также поддерживает модель с открытым исходным кодом HuggingFace, службу API для больших моделей, бесплатный доступ к локально развернутым большим моделям, а также поддерживает модели, определяемые пользователем. Оценка модели. Что касается оценки модели, SecBench поддерживает многозадачный параллелизм для ускорения оценки. Кроме того, SecBench имеет встроенные несколько индикаторов оценки для поддержки оценки результатов рутинных задач, а также поддерживает пользовательские индикаторы оценки для удовлетворения особых потребностей. Вывод результатов: Что касается вывода результатов, SecBench может не только отображать результаты оценки на интерфейсной странице, но также выводить промежуточные результаты оценки модели, такие как файлы конфигурации, входные и выходные данные, файлы результатов оценки и т. д. ., для поддержки потребностей анализа данных разработчиков крупных моделей сетевой безопасности.
Рисунок 4. Структура оценки большой модели сетевой безопасности SecBench
Трудно оценить способность SecBench оценивать модели безопасности больших сетей передачи данных. Одной из основных причин является отсутствие данных о безопасности вертикальных сетей. Чтобы решить эту проблему, SecBench в настоящее время собрал и систематизировал 12 наборов данных оценки безопасности, в общей сложности более 10 000 фрагментов данных. Языковой аспект: охватывает оценки на двух распространенных языках: китайском и английском. Измерение емкости: с точки зрения безопасности оно поддерживает оценку большой модели способности памяти знаний, способности логического рассуждения, а также способности понимания и выражения знаний безопасности. Доменное измерение: поддерживает оценку возможностей крупных моделей в различных областях безопасности, включая безопасность данных, безопасность приложений, безопасность конечных точек и хостов, безопасность сети и инфраструктуры, контроль идентификации и доступа, базовое программное обеспечение, оборудование и технологии, управление безопасностью и т. д. Сертификационный экзамен: SecBench также накопил различные тестовые вопросы по моделированию сертификатов безопасности, которые могут поддержать оценку экзамена на уровне сертификата безопасности большой модели.
Рисунок 5. Распределение данных оценки большой модели сетевой безопасности SecBench.
В настоящее время данные оценки SecBench все еще имеют такие проблемы, как недостаточное разнообразие и неравномерное распределение. В настоящее время данные оценки с несколькими типами вопросов, способностями и измерениями постоянно дополняются и конструируются.
Результаты оценки SecBench SecBench постепенно интегрирует крупные модели для оценки возможностей сетевой безопасности. В настоящее время он в основном выводит оценочные списки для классической модели GPT и небольших моделей с открытым исходным кодом. Отображает результаты модели в различных измерениях компетентности в области способностей, языка и безопасности, а также поддерживает вывод результатов проверки сертификата уровня безопасности. В будущем мы продолжим доступ к коммерческим большим моделям и большим моделям безопасности для поддержки сравнения возможностей моделей и других возможностей.
Рисунок 6. Список оценок большой модели сетевой безопасности SecBench
Поскольку применение больших моделей в области сетевой безопасности ускоряется, оценка больших моделей сетевой безопасности становится особенно важной. SecBecnch изначально создал возможности оценки в вертикальной области сетевой безопасности, чтобы лучше поддерживать разработку и внедрение крупных моделей сетевой безопасности. Кроме того, чтобы оценить производительность больших моделей в оперативной безопасности, лаборатория Tencent Zhuque Lab объединилась с Шэньчжэньской международной аспирантурой Университета Цинхуа, чтобы выпустить «Бенчмарк оценки безопасности больших языковых моделей (LLM)».
Перспективы будущего SecBecnch изначально установил возможности оценки в вертикальной области сетевой безопасности. Однако есть еще много областей, которые требуют оптимизации и итераций: во-первых, все еще необходимо продолжать дополнять и создавать высококачественные данные оценки сетевой безопасности, охватывающие их. несколько полей и типов вопросов, чтобы лучше поддерживать комплексную оценку моделей в области сетевой безопасности; во-вторых, быстро следить за оценкой крупных моделей и быстро выводить результаты оценки для недавно выпущенных крупных моделей; Целью является обогащение представления результатов модели и поддержка функций сравнения моделей, анализа результатов и т. д. для удовлетворения потребностей различных пользователей. SecBench также надеется привлечь больше партнеров, в том числе соответствующих практиков из научных кругов и промышленности, чтобы создать беспроигрышную ситуацию и совместно способствовать разработке моделей безопасности больших сетей.