Почему большие модели вроде ChatGPT плохо играют в шахматы?

Универсальные LLM — это дилетанты, которые знают понемногу обо всём. Шахматы требуют точного знания формальных правил и глубокой специализации, что противоречит их архитектуре «общего знания».

Какие преимущества у маленьких специализированных LLM?

Ключевые преимущества: значительно меньшая стоимость обучения и вывода, возможность локального запуска на слабом железе, высочайшая точность в узкой предметной области, отсутствие «галлюцинаций» на посторонние темы.

Где в бизнесе можно применить подход со специализированными маленькими моделями?

Идеальные кейсы: автоматизация техподдержки для сложных продуктов, анализ юридических документов, медицинская диагностика по специфичным данным, финансовый анализ в узкой нише, генерация SEO-контента по шаблонам.

Маленькие LLM против больших: шахматная модель 50M параметров

Гигантомания закончилась. Пора думать

Последние два года в AI — это бесконечная гонка параметров. GPT-4 с триллионом, Gemini Ultra, Claude 3.5. Каждый месяц кто-то объявляет о новой модели, которая больше, умнее, дороже. А потом появляется исследование, где моделька размером с игрушку — всего 50 миллионов параметров — обыгрывает всех этих монстров в шахматах. Не просто играет, а делает это эффективнее, быстрее и в 100 раз дешевле.

Это не баг. Это фича. И она меняет всё.

Для сравнения: у GPT-4 около 1.76 триллиона параметров. Шахматная модель — 50 миллионов. Разница в 35 200 раз. Как между грузовиком и скейтбордом. Но скейтборд выигрывает гонку на парковке.

Почему ChatGPT проигрывает в шахматах? (И это нормально)

Спросите ChatGPT-4 сыграть в шахматы. Он ответит. Будет рассуждать о стратегии, вспомнит партии Каспарова, даст общие советы. А потом сделает ход, который нарушает правила. Или предложит переместить ладью по диагонали.

Потому что ChatGPT — это универсальный дилетант. Он знает понемногу обо всём: квантовая физика, рецепт пасты, написание кода на Python, биография Наполеона. Но шахматы — это не «понемногу». Это точная, формальная система с чёткими правилами, где один неверный ход — мат.

💡

Универсальные LLM страдают от «синдрома отличника»: они стараются дать развёрнутый, красивый ответ, даже если не уверены в фактах. Специализированная модель молча делает правильный ход. Ей не нужно импрессировать.

50 миллионов против триллиона: анатомия победы

Как устроена эта шахматная микромодель? Всё просто до безобразия.

Только шахматы. Её обучали не на всём интернете, а на миллиардах шахматных партий — от классических до компьютерных. Каждый параметр знает только про е2-е4, рокировку и вилку конём.
Язык — FEN и PGN. Модель не понимает человеческий язык. Она говорит на языках шахматной нотации. Вход — позиция на доске в формате FEN. Выход — лучший ход или оценка позиции. Никакой лирики.
Архитектура — минимализм. Вместо 96 слоев — 12. Вместо внимания на весь контекст — внимание только на отношения между фигурами. Каждая деталь заточена под одну задачу.

Модель	Параметры	Точность в шахматах	Стоимость вывода	Что умеет ещё
GPT-4	~1.76T	~65% (с ошибками правил)	$0.06 за 1к токенов	Всё, но поверхностно
ChessLLM-50M	50M	>98% (без ошибок правил)	~$0.0001 за 1к позиций	Только шахматы. Идеально.
Llama 3.1 8B	8B	~80%	Требует локальной видеокарты	Многое, как в нашем сравнении бюджетных LLM

«Но мне нужна универсальная модель!» — говорите вы. А зачем?

Вот вопрос, который убивает 90% бизнес-кейсов для больших LLM. Вашему интернет-магазину действительно нужна модель, которая умеет писать сонеты в стиле Шекспира? Или достаточно модели, которая идеально классифицирует товары, генерирует SEO-описания и отвечает на вопросы о доставке?

Проблема больших моделей в бизнесе — они пытаются решить всё, а в итоге делают всё посредственно. Как мы уже писали в материале «Конец эйфории: Почему LLM — не серебряная пуля», компании платят за гигантские возможности, которыми не пользуются.

Предупреждение: обучение маленькой специализированной модели — это не «запустил и забыл». Нужны чистые, структурированные данные именно по вашей задаче. Без этого получится не шахматный гроссмейстер, а модель, которая путает пешку с ферзём.

Где маленькие модели бьют больших? (Список для CEO)

Юридические документы. Модель, обученная только на договорах и законах, найдёт противоречия лучше любого юриста-универсала. И не будет отвлекаться на генерацию стихов.
Медицинская диагностика по снимкам + тексту. Узкая модель, знающая только рентгеновские снимки и истории болезней, даст более точный прогноз, чем ChatGPT, который вчера учил рецепты.
Техподдержка для сложного продукта. Не нужно объяснять модели всю вселенную. Дайте ей мануалы, ошибки и диалоги экспертов. Она будет отвечать точно, без «возможно» и «кажется».
Финансовый анализ в конкретной нише. Модель, которая видела только отчёты нефтегазовых компаний, предскажет цены лучше, чем универсальный аналитик.

Это не значит, что большие модели умрут. Они останутся как «мозг» для сложных, междисциплинарных задач. Но для 80% бизнес-задач — это избыточно, дорого и медленно.

Как сделать свою «шахматную модель»? (Без PhD)

Звучит сложно? На самом деле, инструменты уже здесь.

1Соберите свои «шахматные партии»

Это самый важный этап. Вам нужны не просто данные, а структурированные примеры «вход-выход» для вашей задачи. Для чат-бота поддержки — это реальные диалоги с правильными ответами. Для классификации — размеченные документы. Чем чище данные, тем меньше нужна модель.

2Возьмите маленькую архитектуру за основу

Не нужно изобретать трансформер с нуля. Возьмите открытую маленькую модель вроде Youtu-LLM-2B или Liquid AI LFM2-2.6B. Они уже доказали, что могут быть эффективными. Ваша задача — переучить их под свою специфику.

3Обучайте до переобучения (это фича)

С универсальными моделями переобучение — это катастрофа. Со специализированными — цель. Вы хотите, чтобы модель идеально знала вашу предметную область и не отвлекалась на другие темы. Если она начнёт «галлюцинировать» вне своей области — это даже хорошо.

4Запустите локально и забудьте про API

Модель на 50-500 млн параметров запустится на ноутбуке, телефоне или дешёвом сервере. Никаких ежемесячных счетов от OpenAI, никаких ограничений по запросам. Как это сделать без боли, мы писали в практическом гайде по локальному запуску.

Что будет дальше? Мир микросхем, а не суперкомпьютеров

Тренд очевиден: вместо одного ИИ-бога на облаке — тысячи маленьких, умных специалистов на каждом устройстве. В вашем телефоне будет отдельная модель для обработки фото, отдельная — для голосового помощника, отдельная — для планирования календаря. Все они будут меньше, быстрее и приватнее, чем один большой ChatGPT.

Уже сейчас сообщество r/LocalLLaMA тестирует сотни компактных моделей для разных задач. Появляются фреймворки вроде MLC, которые позволяют запускать LLM прямо в браузере.

Мораль проста: перестаньте гоняться за триллионами параметров. Найдите свою «шахматную доску» — узкую задачу, в которой нужно быть идеальным. Постройте для неё маленькую, злую, эффективную модель. И наблюдайте, как гиганты спотыкаются о вашу специализацию.

Следующий шаг? Откройте список своих бизнес-процессов. Найдите самый скучный, самый повторяющийся, самый формализуемый. Вот он — ваш кандидат на первую «микромодель». Остальное — дело техники. И данных.

Шах и мат, GPT: как модель с 50 млн параметров обыгрывает гигантов за 1% стоимости