Параметры: не счёт, а мозг

Представьте, что вы учите ребёнка отличать кошку от собаки. Вы показываете картинки, объясняете: «У кошки уши острые, у собаки висячие. Кошки мяукают, собаки лают». Каждое такое правило — параметр. В нейросети их миллиарды.

Когда говорят «GPT-3 имеет 175 миллиардов параметров», новички думают о числе как о счёте в футбольном матче. Чем больше — тем лучше. Но это не счёт. Это количество настроек, которые модель выучила из данных.

Параметр в LLM — это числовое значение (вес), которое определяет, как нейроны взаимодействуют друг с другом. Представьте огромную сеть соединений, где каждая связь имеет свою «силу». Эти силы и есть параметры.

Архитектура трансформера: где живут эти параметры

Все современные LLM построены на архитектуре трансформера. Не буду грузить вас формулами, но суть проста: трансформер разбивает текст на части (токены), смотрит на связи между словами и постепенно строит понимание.

Параметры распределены по нескольким ключевым компонентам:

Эмбеддинги — превращают слова в числа. Каждому слову (или его части) соответствует вектор из 768, 1024 или больше чисел. Эти векторы — тоже параметры.
Внимание (attention) — механизм, который решает, на какие слова в предложении нужно обращать внимание. В GPT-3 таких механизмов внимания 96 слоёв, в каждом — свои веса.
Полносвязные слои — классические нейронные сети внутри трансформера, которые обрабатывают информацию после внимания.

Вот примерное распределение для GPT-3:

Компонент	Примерное количество параметров	Что делает
Эмбеддинги	~4 миллиарда	Превращает слова в числа
Механизмы внимания	~120 миллиардов	Анализирует связи между словами
Полносвязные слои	~50 миллиардов	Обрабатывает информацию
Прочее	~1 миллиард	Нормализация, выходные слои

Обучение: как 175 миллиардов чисел находят свои места

Вот где начинается магия. Или ад, если вы инженер, который платит за электричество.

Обучение LLM — это процесс настройки всех этих миллиардов параметров. Исходно они инициализированы случайными значениями. Модель получает текст (например, «Кошка сидит на ...»), пытается предсказать следующее слово, сравнивает с правильным ответом и понемногу корректирует веса.

💡

Каждый параметр — это крошечный кусочек знания. Один вес может отвечать за то, что после слова «дождь» часто идёт «зонт». Другой — за то, что Париж столица Франции. Вместе они образуют сложнейшую сеть ассоциаций.

Для GPT-3 использовали примерно 500 миллиардов токенов текста (около 3 миллионов книг). Каждый проход по данным — это триллионы операций с плавающей запятой. На это ушло несколько месяцев работы тысяч GPU.

И вот что интересно: после обучения параметры замораживаются. Модель больше не учится. Когда вы задаёте вопрос ChatGPT, он не меняет свои веса. Он просто использует то, что уже знает.

GPT-3 vs Gemini: гонка параметров или архитектур?

GPT-3 с его 175 миллиардами параметров долго был королём. Потом появился GPT-4 (точное число параметров OpenAI не раскрывает, но оценки — от 1 до 1.8 триллиона). А теперь Google выпустил Gemini 3 с заявленными 1.56 триллионами параметров.

Важно: больше параметров ≠ умнее модель. Архитектура, качество данных и методы обучения часто важнее. Но давайте посмотрим на цифры.

Модель	Параметры	Токенов для обучения	Особенность
GPT-3 (2020)	175 миллиардов	~500 миллиардов	Показал, что масштабирование работает
Gemini 3 (2024)	~1.56 триллиона	~10 триллионов	Мультимодальность из коробки
GPT-4 (2023)	~1.8 триллиона (оценка)	~13 триллионов	Смесь экспертов (MoE)

У Gemini 3 интересная особенность: он изначально мультимодален. То есть его параметры обучены не только на тексте, но и на изображениях, видео, аудио. Это значит, что часть этих триллионов весов отвечает за связь между разными типами данных.

А вот GPT-4 использует архитектуру «смесь экспертов» (MoE). Вместо одной гигантской сети — несколько меньших, каждая специализируется на своём. Это позволяет иметь огромное общее количество параметров, но активировать только часть из них для каждого запроса. Умный трюк.

Почему триллионы — это уже проблема

Кажется, что больше — всегда лучше. Но на практике всё сложнее.

Первая проблема — вычисления. Каждый параметр нужно хранить в памяти и использовать при генерации. Для модели на триллион параметров в формате FP16 нужно 2 терабайта памяти. Это недостижимо для обычных GPU.

Вторая — закон убывающей отдачи. Увеличивая модель в 10 раз, вы не получаете в 10 раз более умный ИИ. Скорее, на 20-30% лучше по некоторым тестам. После определённого предела добавление параметров даёт всё меньше.

Третья — стоимость. Обучение GPT-3 стоило около $4.6 миллионов. Обучение GPT-4 — десятки миллионов. Обучение моделей на триллионы параметров следующего поколения может превысить $100 миллионов.

💡

Интересный факт: некоторые исследователи считают, что мы близки к пределу масштабирования. Будущий прогресс будет достигаться не за счёт увеличения параметров, а за счёт улучшения архитектуры, данных и методов обучения.

Параметры в действии: пример из жизни

Давайте рассмотрим конкретный пример. Вы спрашиваете ChatGPT: «Сколько лет живёт синий кит?»

Что происходит внутри:

Текст разбивается на токены: [«Сколько», «лет», «живёт», «синий», «кит», «?»]
Каждый токен превращается в эмбеддинг (вектор из чисел). Эти векторы — часть параметров модели.
Механизмы внимания анализируют: «синий» связано с «кит», а не с «небо». Веса внимания — тоже параметры.
Сеть проходит через 96 слоёв трансформера, каждый слой слегка преобразует представление.
На выходе получается распределение вероятностей для следующего токена.
Модель генерирует ответ по частям: «Синий», «кит», «живёт», «до», «90», «лет».

Каждый шаг зависит от миллионов параметров. Но самое удивительное — модель никогда специально не учили факту «синий кит живёт до 90 лет». Она вывела это из статистических закономерностей в текстах, которые читала.

А что с маленькими моделями?

Не все LLM — гиганты. Есть модели вроде Genesis-152M-Instruct всего со 152 миллионами параметров. В 1000 раз меньше GPT-3!

Такие модели можно запускать на ноутбуке. Они уступают в качестве, но для конкретных задач (классификация текста, простой чат) часто достаточно. Параметры — как мощность двигателя. Для поездки в магазин не нужен двигатель от Boeing 747.

Более того, исследователи активно работают над методами сжатия моделей: квантизация, прунинг, дистилляция. Можно уменьшить модель в 4 раза почти без потери качества, просто оптимизировав параметры.

Распространённые мифы о параметрах

Миф 1: Больше параметров = больше знаний

Нет. Параметры — это не база знаний, а скорее способность выявлять закономерности. Модель на триллион параметров, обученная на плохих данных, будет хуже, чем маленькая модель на качественных данных.

Миф 2: Каждый параметр соответствует факту

Абсолютно нет. Знания распределены по всей сети. Невозможно сказать: «Вот этот конкретный вес отвечает за столицу Франции». Это emergent property — свойство, возникающее из взаимодействия миллионов параметров.

Миф 3: LLM с большим числом параметров всегда лучше

Для конкретных задач часто лучше специализированные маленькие модели. Если вам нужно анализировать медицинские записи, модель на 7 миллиардов параметров, обученная на медицинских текстах, может превзойти GPT-4.

Практические последствия для разработчиков

Если вы хотите создать свою языковую модель, параметры станут вашей главной головной болью. Не только из-за вычислений, но и из-за технического долга в ML.

Вот что нужно учитывать:

Память: Модель на 7 миллиардов параметров в FP16 занимает ~14 ГБ. Для локального запуска нужны специальные решения.
Скорость вывода: Больше параметров → медленнее генерация. В продакшене это критично.
Стоимость: Аренда GPU для модели на десятки миллиардов параметров может стоить тысячи долларов в час.

И последнее: не гонитесь за параметрами. Смотрите на качество, latency, стоимость. Иногда лучше взять модель поменьше и дообучить её на своих данных.

Будущее: куда движется гонка параметров

Сейчас идёт жесткая конкуренция между GPT-5.2 и Gemini 3. Обе компании стремятся к моделям на 10+ триллионов параметров. Но есть ощущение, что это тупиковая ветвь.

Более перспективные направления:

Архитектурные инновации: Как в латом пространстве вместо токенов — принципиально новые подходы.
Эффективность: Методы вроде REAP от Cerebras, которые позволяют упаковать больше параметров в ту же память.
Специализация: Модели, заточенные под конкретные задачи, а не гиганты «для всего».

Мой прогноз: через 2-3 года мы увидим сдвиг от «больше параметров» к «умнее архитектура». Триллионы параметров — это впечатляюще, но непрактично. Будущее за эффективностью.

Помните: параметры — это средство, а не цель. Искусственный интеллект измеряется не гигабайтами весов, а способностью решать реальные задачи. Иногда проще взять готовый Gemini 3 и правильно его использовать, чем строить свою модель на триллионе параметров.

Параметры в LLM: почему 175 миллиардов — это не просто цифра