Ваши рейтинги моделей построены на песке
Вы открываете статью, где GPT-5 обгоняет Claude 4 в задачах кибербезопасности на 15%. Авторы торжественно заявляют о прорыве. Вы верите? А зря. Потому что с вероятностью 80% этот результат – статистический артефакт, порожденный кривым датасетом.
В 2026 году мы наблюдаем взрывной рост LLM, но методология их оценки в нишевых областях, особенно в кибербезопасности, напоминает дикий запад. Каждый исследовательский коллектив, а иногда и отдельный энтузиаст, варит свой суп из устаревших CVE, синтетических эксплойтов и вопросов с форумов. Потом этим кормят модели, объявляют победителя, а индустрия кивает и делает вид, что все в порядке.
Проблема не в том, что модели плохие. Проблема в том, что мы не умеем их правильно мерить. И это дорого стоит – компании внедряют LLM для SOC или анализа уязвимостей, основываясь на искаженных данных.
Три греха современных бенчмарков
Давайте отбросим вежливость и назовем вещи своими именами. Вот что не так с большинством датасетов, которые вы видите.
1. Data Leakage как норма
Самое популярное преступление. Обучающие данные просачиваются в тестовый набор. Модель не решает задачу – она вспоминает ответ. В кибербезопасности это катастрофа, потому что типовых сценариев не так много.
Представьте датасет, где модель должна определить уязвимость по фрагменту кода. Если этот фрагмент был в обучающей выборке другой модели (а многие датасеты публичны), результат – фантом. Вы оцениваете не интеллект, а память. На эту тему есть отличный разбор в статье про Lexometrica Ground Truth, где проблема раскрыта на юридических данных, но суть та же.
2. Устаревший и синтетический контент
Большинство датасетов строят на CVE 2010-2022 годов. Атаки на цепи поставок, zero-day в облачных сервисах 2025 года, специфичные векторы для GenAI-приложений – этого просто нет. Мир меняется быстрее, чем академики успевают собрать данные.
Что делают? Генерируют синтетику с помощью других LLM. Получается эхо-камера: GPT-4 создает задачки, которые решает GPT-5. Цирк. Синтетика полезна, но без жесткой валидации реальными экспертами она создает иллюзию сложности.
3. Оторванные от жизни метрики
Accuracy, F1-score, BLEU. Это метрики для классических ML задач. Как они измеряют способность модели спланировать многоэтапную кибератаку (Red Teaming) или проанализировать лог на предмет аномалий? Никак.
Мы меряем линейкой то, что требует микрометра. Критику метрик хорошо раскрывает материал про ошибки в датасетах HLE и GPQA – там речь о 58% ошибок в разметке. В кибербезопасности процент может быть выше.
Идеального датасета не существует. Но можно приблизиться
Вместо поиска святого Грааля предлагаю прагматичный подход. Хороший бенчмарк для оценки LLM в кибербезопасности должен обладать тремя свойствами.
- Динамическое обновление: Автоматическое пополнение актуальными кейсами из открытых источников (GitHub advisories, трекеры CVE, отчеты CERT). Не раз в год, а раз в неделю.
- Многоуровневая оценка: Не только «правильно-неправильно». Оценка поясняющего текста, предложения по митигации, этические аспекты ответа. Похожий подход используется в HLD Benchmark для проектирования систем.
- Прозрачность происхождения: Каждый пример имеет теги: источник (реальный инцидент, синтетика, адаптация), дата добавления, сложность, проверяющий эксперт.
Звучит как утопия? Отчасти. Но такие проекты, как локальный бенчмарк OASIS, показывают, что движение в эту сторону возможно. Главное – не полагаться слепо на один источник.
План: как самому проверить датасет перед использованием
Вам предлагают новый крутой датасет для оценки LLM в security. Не спешите запускать eval. Сделайте вот эти четыре шага.
1 Аудит на data leakage
Возьмите 50 случайных примеров из тестовой выборки. Запросом к поиску по GitHub или публичным трекерам уязвимостей попытайтесь найти идентичные или сильно похожие фрагменты. Если находите – датасет битый. Простой скрипт на Python с использованием API того же GitHub может автоматизировать проверку.
2 Проверка временной метки
Постройте гистограмму по датам создания примеров. Если 90% данных старше 2023 года, для оценки моделей 2026 года он малополезен. Актуальность в кибербезопасности – это не пожелание, это требование.
3 Анализ распределения сложности
Разделите задачи на уровни: базовые (определение типа атаки), средние (анализ кода эксплойта), продвинутые (планирование ответных действий). Сбалансированный датасет должен иметь внятное представление всех уровней. Куча простых вопросов завысит score любой модели.
4 Слепой тест с экспертом
Дайте 10 случайных вопросов из датасета действующему security-аналитику. Спросите: «Насколько эта задача релевантна твоей ежедневной работе?». Если в 7 случаях из 10 он пожмет плечами, датасет оторван от реальности. Это лучший фильтр.
Этот план отнимет у вас день. Но он сэкономит месяцы работы с моделью, которая показывала блестящие результаты на нерелевантных данных.
Где все ошибаются: тонкие грабли
- Этическая слепота. Многие датасеты содержат детальные инструкции по взлому без контекста ответных мер или легального применения (например, для тестирования на проникновение). Это не только этическая проблема, но и искажение оценки – модель может правильно решить задачу, но ее ответ будет непригоден для реального использования. Об этом стоит помнить, тестируя анцензурированные LLM для хакерских задач.
- Игнорирование контекста длины. Кибербезопасность – это часто многостраничные отчеты, длинные логи. Если датасет состоит из коротких вопросов-ответов, он не проверит способность модели работать с объемными документами. Тут полезно смотреть на методики типа Lost-in-the-Middle.
- Оценка только конечного ответа. В реальности важен ход рассуждений. Модель может дать правильный ответ по неверным причинам (угадать). Бенчмарк должен учитывать reasoning trace. Некоторые новые платформы, вроде Weights & Biases (партнерская ссылка), начинают предлагать инструменты для отслеживания «цепочки мыслей» модели в ходе оценки.
FAQ: частые вопросы от практиков
| Вопрос | Короткий ответ |
|---|---|
| Какой датасет сегодня самый адекватный для оценки LLM в кибербезопасности? | Единого лидера нет. Комбинируйте OASIS (для разнообразия задач), синтетические Red Teaming-сценарии (с осторожностью) и собственные наработки. Следите за обновлениями CyberMetric от AI Village. |
| Можно ли доверять рейтингам LLM на порталах вроде Hugging Face Open LLM Leaderboard? | Только как к очень грубому индикатору общей эрудиции модели. Для кибербезопасности они почти бесполезны. Смотрите специализированные split'ы, если они есть. |
| Мы хотим оценить модель для внутреннего использования в SOC. С чего начать? | Начните не с поиска датасета, а с аудита своих типичных задач. Создайте 50-100 эталонных кейсов (анонимизированных инцидентов, типовых запросов аналитиков). Это и будет ваш золотой стандарт. Затем тестируйте на них модели, включая последние Qwen 3.5, GLM-5 и Kimi k2.5. |
| Опасны ли публичные датасеты с точки зрения безопасности? Могут ли они «отравить» модель? | Да, это реальный риск. Злонамеренно составленный датасет может внедрить в модель бэкдор или сместить ее суждения. Исследование Anthropic про 250 отравленных документов – must-read. Для критичных применений используйте датасеты с проверенной репутацией или создавайте свои. |
Неочевидный совет напоследок
Перестаньте искать модель-победителя. Вместо этого инвестируйте время в создание внутреннего механизма непрерывной оценки (continuous eval). Это pipeline, который регулярно прогоняет ваши production-модели на свежих, релевантных кейсах.
Используйте для этого не только статические датасеты, но и симуляции – фреймворки вроде Gremlin (партнерская ссылка) для хаоса-инжиниринга можно адаптировать для генерации сценариев кибератак, которые будут тестовыми стендами для LLM.
Хаос в бенчмарках – это не временная проблема, а системная особенность быстроразвивающейся области. Ваша устойчивость к этому хаосу будет определять, насколько хорошо ваши LLM-решения справляются с реальными угрозами, а не с бумажными тиграми устаревших тестов.