Когда GPT-5.2 проигрывает маленькой модели в 4B параметров
Откройте любой годовой отчёт компании. Прочитайте раздел "Риски". Прямого вранья там нет - юристы не позволят. Зато есть уклончивые формулировки, размытые обещания, аккуратные полуправды. Это evasion - искусство говорить, не сказав ничего.
До недавнего времени ловить такие уловки могли только опытные аналитики после десяти лет практики. Теперь есть Eva-4B.
Что умеет эта модель и почему она вообще работает
Представьте, что вы тренируете нейросеть на одном конкретном навыке. Не на генерации текста, не на ответах на вопросы, а именно на распознавании финансовой двусмысленности. Это и есть Eva-4B.
1 Ключевые возможности
- Детектирует evasion в утверждениях типа "Мы стремимся к увеличению прибыли" против "Мы увеличили прибыль на 15%"
- Работает с реальными финансовыми отчётами SEC, годовыми отчётами, презентациями для инвесторов
- Даёт не просто бинарный ответ "уклончиво/не уклончиво", а показывает уровень уверенности
- Объясняет, какие именно слова или конструкции вызывают подозрения
Не ждите от Eva-4B генерации текста или ответов на общие вопросы. Это инструмент с одной фокусной задачей. Как микроскоп - отлично видит клетки, но им не починишь машину.
Сравнение с альтернативами: почему не GPT-5.2?
| Модель | Точность в задаче evasion | Размер | Стоимость вызова | Локальный запуск |
|---|---|---|---|---|
| Eva-4B | 92.3% | 4B параметров | Бесплатно (локально) | Да, даже на ноутбуке |
| GPT-5.2 | 78.1% | ~40B+ параметров | $0.01-0.10 за запрос | Нет |
| Claude 3.5 Sonnet | 81.5% | Неизвестно | $0.03-0.15 за запрос | Нет |
Цифры из бенчмарка Rasiah framework. Разница в 14 процентных пунктов - это не погрешность. Это разница между "иногда попадает" и "работает как часы".
Почему специализированная модель бьёт универсальную? Тот же принцип, что и в медицине: кардиолог лучше терапевта по сердечным болезням, хотя терапевт знает всё понемногу.
Как выглядит работа с моделью на практике
2 Пример анализа отчёта
Возьмём реальную фразу из отчёта компании, у которой потом были проблемы:
"Мы оптимизируем операционные расходы в условиях текущей рыночной неопределённости, что должно положительно сказаться на будущих результатах."
Eva-4B выдаёт:
- Уровень evasion: 0.87 (высокий)
- Ключевые маркеры: "оптимизируем" (не "сократили"), "должно положительно сказаться" (не "приведёт к"), "будущих результатах" (не "прибыли")
- Рекомендация: запросить конкретные цифры по оптимизации расходов
Для сравнения, вот что говорит модель о нормальном утверждении:
"Выручка за квартал составила $2.3 млрд, что на 12% выше аналогичного периода прошлого года."
Eva-4B: уровень evasion 0.11. Потому что есть конкретные цифры, сравнение, временной период.
Квантование для производства: как запустить на своём железе
4 миллиарда параметров - это много. Но не для современного квантования. Авторы предлагают версии:
- FP16 - полная точность, требует ~8GB VRAM
- INT8 - почти без потерь, ~4GB VRAM
- GPTQ 4-bit - для совсем слабого железа, ~2GB VRAM
На практике: MacBook M2 с 16GB памяти спокойно тянет INT8 версию. Сервер с одной RTX 3090 обрабатывает десятки отчётов в минуту.
Не путайте квантование модели с её обучением. Готовые квантованные веса качаете с Hugging Face и запускаете. Никакого обучения на своих данных не нужно - модель уже обучена.
Кому действительно нужна эта модель (а кому нет)
3 Идеальные пользователи
- Финансовые аналитики, которые проверяют сотни отчётов в квартал
- Инвестиционные фонды для скрининга потенциальных инвестиций
- Аудиторские компании как дополнительный инструмент проверки
- Корпоративные юристы для анализа собственных отчётов перед публикацией
4 Не подходит для
- Общего анализа текста (для этого есть другие модели)
- Генерации финансовых прогнозов
- Анализа настроений в социальных сетях
- Людей, которые хотят одну модель для всего
Как интегрировать в существующие процессы
Самый частый вопрос: "У нас уже есть MinerU для извлечения цифр из SEC filings, куда пристроить Eva-4B?"
Рабочий пайплайн:
- MinerU вытягивает числовые данные и текст
- Eva-4B проверяет текстовые пояснения к цифрам
- Если уровень evasion выше порога (скажем, 0.7) - флаг для ручной проверки аналитиком
Такой подход экономит 60-80% времени аналитика. Вместо чтения всего отчёта он смотрит только на проблемные места.
Ограничения и подводные камни
Модель обучена в основном на англоязычных документах. С русскими отчётами работает хуже - нужна дообучка.
Не различает легитимную осторожность (когда компания действительно не может дать точный прогноз) и намеренное уклонение. Это должен делать аналитик.
Требует качественного предпроцессинга текста. Если скормить ей PDF с кривым OCR, результаты будут странными.
Что дальше для специализированных финансовых моделей
Eva-4B - первый, но не последний. Уже вижу тренд: вместо гигантских универсальных LLM появляются небольшие экспертные модели для конкретных задач.
Следующий шаг - модели для обнаружения манипуляций с бухгалтерскими показателями, для анализа тональности в earning calls, для проверки логической согласованности отчёта.
Совет напоследок: если вы аналитик и до сих пор читаете отчёты вруную - попробуйте Eva-4B хотя бы на одном квартальном отчёте. Разница как между микроскопом и лупой: видно то, что раньше было невидимо.
А если вы разработчик - посмотрите на методы создания синтетических данных для финансовых LLM. Может, следующую Eva-4B сделаете вы.