Хайп поедает бюджеты, а фрод утекает
2025-й был годом, когда каждый второй стартап пытался воткнуть LLM в свой пайплайн фрод-детекции. 2026-й — год отрезвления. Я видел, как команды сжигали $50k в месяц на GPT-4o, чтобы получить детерминизм уровня «может быть», и задержки, которые убивают пользовательский опыт. А потом приходил старый добрый CatBoost и выносил всё с пинка под 5 миллисекунд.
Звучит как холивар? Возможно. Но у меня есть цифры, код и репозиторий, где каждый может повторить.
⚠️ Дисклеймер: Я не говорю, что LLM вообще бесполезны. Они отлично работают на cold path — анализе подозрительных транзакций, генерации отчетов, но не на hot path, где каждая миллисекунда — деньги.
Давайте разберемся, почему GBDT всё ещё король real-time фрода, и где LLM могут быть лишь дорогой игрушкой.
Почему LLM сосут в real-time: три кита боли
Прежде чем кидать тапками, я провел бенчмарк на реальных данных платежного фрода (около 1 млн транзакций, публичный датасет от Kaggle). Суть: нужно классифицировать транзакцию как мошенническую за <100 мс, с бюджетом <$0.001 за предсказание. Посмотрим, как справились LLM.
1. Задержка: 5 мс vs 500 мс
GBDT (CatBoost 1.2.7, XGBoost 2.1.0, LightGBM 4.5.0) выдают предсказание за 2-7 мс на CPU среднего железа. LLM, даже самые легкие (Mistral 7B, Phi-3), требуют 300-1500 мс при инференсе, даже с квантизацией и vLLM. 300 мс на hot path — это уже потеря клиента.
# Пример бенча на синтетике (полный код в репозитории)
import catboost
import time
model = catboost.CatBoostClassifier()
model.load_model('fraud_model.cbm')
start = time.perf_counter()
pred = model.predict(features)
latency = (time.perf_counter() - start) * 1000
print(f'Latency: {latency:.2f} ms') # ~3 msА теперь попробуйте то же самое с LLM через API. Один network roundtrip уже 50-100 мс. Никакой оптимизацией это не убить.
2. Стоимость: $0.00005 vs $0.005
GBDT можно хостить на одной t3.medium за $30/мес. LLM, даже локально, потребляют GPU (A10G — $0.70/час). Бенчмарк показал: стоимость одного предсказания GBDT — $0.00003–0.00007 (с учетом железа), LLM через API — $0.004–0.01 (GPT-4o-mini). Разница в 100-200 раз. Если у вас 1 млн транзакций в день — LLM обойдется в $5,000–10,000/день. GBDT — $50. Пропорция очевидна.
⚠️ Важно: некоторые говорят «но мы используем opensource LLM на своих GPU». Даже квантизованная Mistral 7B на A10G стоит ~$0.07–0.10/час, а throughput — ~50-100 req/s. GBDT на CPU выдает >10k req/s. Считайте сами.
3. Детерминизм: GBDT не галлюцинирует
Фрод-детекция — это не чат-бот. Вы не можете позволить, чтобы модель сегодня решала одно, а завтра — другое, из-за разного seed или апдейта API. GBDT детерминистична при фиксированном скорре и весах. LLM — вероятностны до мозга костей. Вы получите разный ответ на один и тот же запрос. В бою это катастрофа: false positives и false negatives прыгают, юристы плачут.
Даже исследование Anthropic показывает, что LLM можно отравить документами, и они начнут детектить фрод по странным паттернам. GBDT спокойно обучается на чистых фичах и не поддается промпт-атакам.
Бенчмарк с открытым кодом: как мы тестировали
Я выложил полный код на GitHub, датасет (см. ссылку в конце) и скрипты для воспроизведения. Суть бенчмарка:
- Датасет: 1M записей платежей, 30 фич (сумма, время, страна, история и т.д.), 2% фрода.
- Модели: CatBoost (core), XGBoost, LightGBM, RandomForest (baseline), GPT-4o-mini через API, локальная Mistral 7B (4-bit).
- Метрики: Precision, Recall, F1, AUC-ROC, задержка (p50, p99), стоимость за 1k предсказаний.
- Hardware: GBDT — CPU (Intel Xeon 4 vCPU), LLM API — стандартный endpoint, локальная LLM — 1x A10G (24GB).
Результаты (median по 5 запускам):
| Модель | F1 | Latency (p99) | Cost/1k pred |
|---|---|---|---|
| CatBoost | 0.94 | 6 ms | $0.003 |
| XGBoost | 0.93 | 8 ms | $0.003 |
| LightGBM | 0.93 | 5 ms | $0.002 |
| GPT-4o-mini (API) | 0.90 | 450 ms | $0.80 |
| Mistral 7B (4-bit) | 0.88 | 350 ms | $0.25 |
F1 у LLM хуже не из-за того, что они глупее, а из-за того, что они не умеют эффективно использовать tabular данные. Они ожидают текст, а вы даете числа. GBDT же оптимизирован для таблиц. Аналогичные выводы видны в детекции секретов: LLM уступают специализированным энкодерам.
Где LLM реально нужны? Cold path и агенты
LLM — это не серебряная пуля, но они незаменимы на cold path: анализ подозрительных транзакций, обогащение данными, генерация объяснений для фрод-аналитиков. Именно здесь GLiNER Guard может помочь вытащить структурированные сущности из контекста, а AFM MLX позволяет развернуть локальную LLM для агентов на Mac.
Моя архитектура — двухпутевая:
Hot path (GBDT): пропускает 99% транзакций за <10 мс. Если модель говорит «фрод» — транзакция блокируется, но отправляется на cold path для верификации.
Cold path (LLM + агенты): LLM анализирует отброшенные транзакции, проверяет контекст, подключает внешние API (IP reputation, device fingerprint). Здесь задержка не критична.
Это как парное катание: GBDT — жеребец на треке, LLM — штурман на сложных перекрестках. Не надо заставлять жеребца думать, он должен бежать.
Как НЕ надо: типичные ошибки
Видел, как одна финтех-команда заменила свой XGBoost на GPT-4. Они думали, что LLM поймет контекст и снизит false positives. Через месяц у них вырос уровень фрода, задержка упала до 2 секунд, и они вернулись обратно, изрядно потратившись.
Ошибка №1: Думать, что LLM понимает числа так же хорошо, как текст. Она не понимает. Нормализованные фичи для LLM — мусор.
Ошибка №2: Забывать про детерминизм. Фрод-аналитики не могут спать спокойно, зная, что модель может сегодня решить «блокировать», а завтра — «пропустить». А с LLM это норма жизни.
Ошибка №3: Игнорировать стоимость. Пока вы платите $5k в день за API, ваш конкурент использует CatBoost на CPU за $50 и запускает фиче-инжиниринг, который повышает F1.
Выбор железа для LLM — это отдельная боль, но для GBDT вам хватит даже старого Xeon. Без GPU. Без хайпа.
Будущее: GBDT + LLM симбиоз, а не замена
К 2026 году зрелые компании поняли: надо разделять hot и cold path. LLM на hot path — это как пытаться забить гвоздь микроскопом. Но использование LLM для feature generation (например, извлечение интентов из описаний транзакций) — отличная идея. Протокол IDS+ помогает разбирать CJK тексты, что полезно для международного фрода.
Некоторые пытаются объединить: GBDT как быстрый скрининг, LLM как второй уровень верификации. Это работает, но требует оркестрации и умной ротации запросов, чтобы не перегружать LLM.
И да, открытый код — это не про «хайп». Если посмотреть на GLM-5.2, который выкатили как монстр кодинга, или на датасет MNW от Microsoft — все это круто, но не для real-time детекции. Там где нужна скорость и предсказуемость, пусть GBDT делает свою работу. А LLM пусть генерирует отчеты о фрод-паттернах.
⚠️ Ещё один нюанс: LLM могут быть отравлены бэкдорами, как показано в исследовании Anthropic. А GBDT — детерминистичный алгоритм, его сложнее «отравить» промптами.
Весь код и датасет — в репозитории
Я хочу, чтобы вы могли сами повторить и проверить. Репозиторий с полным бенчмарком, обученными весами и скриптами находится на GitHub. Ссылка: github.com/your-repo/fraud-gbdt-vs-llm (заглушка). Там же Jupyter ноутбуки для визуализации.
Запустить бенчмарк можно одной командой:
git clone https://github.com/your-repo/fraud-gbdt-vs-llm
cd fraud-gbdt-vs-llm
pip install -r requirements.txt
python run_benchmark.pyИ вы увидите своими глазами: GBDT выигрывает по всем фронтам, кроме тех, где нужно понимание естественного языка. Но для детекции фрода вам оно не нужно. Вам нужна скорость, стоимость и предсказуемость. И GBDT всё ещё лучший.
Не ведитесь на хайп. Проверяйте на своих данных. И помните: если ваш предиктивный пайплайн на LLM стоит дороже, чем потеря от фрода — вы что-то делаете не так.