Что такое параметры в LLM: простое объяснение на примере GPT-3 и Gemini | AiManual
AiManual Logo Ai / Manual.
18 Янв 2026 Гайд

Параметры в LLM: почему 175 миллиардов — это не просто цифра

Объясняем параметры нейросетей на простых примерах: как 175 миллиардов весов в GPT-3 превращают текст в понимание. Архитектура трансформера, обучение модели и р

Параметры: не счёт, а мозг

Представьте, что вы учите ребёнка отличать кошку от собаки. Вы показываете картинки, объясняете: «У кошки уши острые, у собаки висячие. Кошки мяукают, собаки лают». Каждое такое правило — параметр. В нейросети их миллиарды.

Когда говорят «GPT-3 имеет 175 миллиардов параметров», новички думают о числе как о счёте в футбольном матче. Чем больше — тем лучше. Но это не счёт. Это количество настроек, которые модель выучила из данных.

Параметр в LLM — это числовое значение (вес), которое определяет, как нейроны взаимодействуют друг с другом. Представьте огромную сеть соединений, где каждая связь имеет свою «силу». Эти силы и есть параметры.

Архитектура трансформера: где живут эти параметры

Все современные LLM построены на архитектуре трансформера. Не буду грузить вас формулами, но суть проста: трансформер разбивает текст на части (токены), смотрит на связи между словами и постепенно строит понимание.

Параметры распределены по нескольким ключевым компонентам:

  • Эмбеддинги — превращают слова в числа. Каждому слову (или его части) соответствует вектор из 768, 1024 или больше чисел. Эти векторы — тоже параметры.
  • Внимание (attention) — механизм, который решает, на какие слова в предложении нужно обращать внимание. В GPT-3 таких механизмов внимания 96 слоёв, в каждом — свои веса.
  • Полносвязные слои — классические нейронные сети внутри трансформера, которые обрабатывают информацию после внимания.

Вот примерное распределение для GPT-3:

Компонент Примерное количество параметров Что делает
Эмбеддинги ~4 миллиарда Превращает слова в числа
Механизмы внимания ~120 миллиардов Анализирует связи между словами
Полносвязные слои ~50 миллиардов Обрабатывает информацию
Прочее ~1 миллиард Нормализация, выходные слои

Обучение: как 175 миллиардов чисел находят свои места

Вот где начинается магия. Или ад, если вы инженер, который платит за электричество.

Обучение LLM — это процесс настройки всех этих миллиардов параметров. Исходно они инициализированы случайными значениями. Модель получает текст (например, «Кошка сидит на ...»), пытается предсказать следующее слово, сравнивает с правильным ответом и понемногу корректирует веса.

💡
Каждый параметр — это крошечный кусочек знания. Один вес может отвечать за то, что после слова «дождь» часто идёт «зонт». Другой — за то, что Париж столица Франции. Вместе они образуют сложнейшую сеть ассоциаций.

Для GPT-3 использовали примерно 500 миллиардов токенов текста (около 3 миллионов книг). Каждый проход по данным — это триллионы операций с плавающей запятой. На это ушло несколько месяцев работы тысяч GPU.

И вот что интересно: после обучения параметры замораживаются. Модель больше не учится. Когда вы задаёте вопрос ChatGPT, он не меняет свои веса. Он просто использует то, что уже знает.

GPT-3 vs Gemini: гонка параметров или архитектур?

GPT-3 с его 175 миллиардами параметров долго был королём. Потом появился GPT-4 (точное число параметров OpenAI не раскрывает, но оценки — от 1 до 1.8 триллиона). А теперь Google выпустил Gemini 3 с заявленными 1.56 триллионами параметров.

Важно: больше параметров ≠ умнее модель. Архитектура, качество данных и методы обучения часто важнее. Но давайте посмотрим на цифры.

Модель Параметры Токенов для обучения Особенность
GPT-3 (2020) 175 миллиардов ~500 миллиардов Показал, что масштабирование работает
Gemini 3 (2024) ~1.56 триллиона ~10 триллионов Мультимодальность из коробки
GPT-4 (2023) ~1.8 триллиона (оценка) ~13 триллионов Смесь экспертов (MoE)

У Gemini 3 интересная особенность: он изначально мультимодален. То есть его параметры обучены не только на тексте, но и на изображениях, видео, аудио. Это значит, что часть этих триллионов весов отвечает за связь между разными типами данных.

А вот GPT-4 использует архитектуру «смесь экспертов» (MoE). Вместо одной гигантской сети — несколько меньших, каждая специализируется на своём. Это позволяет иметь огромное общее количество параметров, но активировать только часть из них для каждого запроса. Умный трюк.

Почему триллионы — это уже проблема

Кажется, что больше — всегда лучше. Но на практике всё сложнее.

Первая проблема — вычисления. Каждый параметр нужно хранить в памяти и использовать при генерации. Для модели на триллион параметров в формате FP16 нужно 2 терабайта памяти. Это недостижимо для обычных GPU.

Вторая — закон убывающей отдачи. Увеличивая модель в 10 раз, вы не получаете в 10 раз более умный ИИ. Скорее, на 20-30% лучше по некоторым тестам. После определённого предела добавление параметров даёт всё меньше.

Третья — стоимость. Обучение GPT-3 стоило около $4.6 миллионов. Обучение GPT-4 — десятки миллионов. Обучение моделей на триллионы параметров следующего поколения может превысить $100 миллионов.

💡
Интересный факт: некоторые исследователи считают, что мы близки к пределу масштабирования. Будущий прогресс будет достигаться не за счёт увеличения параметров, а за счёт улучшения архитектуры, данных и методов обучения.

Параметры в действии: пример из жизни

Давайте рассмотрим конкретный пример. Вы спрашиваете ChatGPT: «Сколько лет живёт синий кит?»

Что происходит внутри:

  1. Текст разбивается на токены: [«Сколько», «лет», «живёт», «синий», «кит», «?»]
  2. Каждый токен превращается в эмбеддинг (вектор из чисел). Эти векторы — часть параметров модели.
  3. Механизмы внимания анализируют: «синий» связано с «кит», а не с «небо». Веса внимания — тоже параметры.
  4. Сеть проходит через 96 слоёв трансформера, каждый слой слегка преобразует представление.
  5. На выходе получается распределение вероятностей для следующего токена.
  6. Модель генерирует ответ по частям: «Синий», «кит», «живёт», «до», «90», «лет».

Каждый шаг зависит от миллионов параметров. Но самое удивительное — модель никогда специально не учили факту «синий кит живёт до 90 лет». Она вывела это из статистических закономерностей в текстах, которые читала.

А что с маленькими моделями?

Не все LLM — гиганты. Есть модели вроде Genesis-152M-Instruct всего со 152 миллионами параметров. В 1000 раз меньше GPT-3!

Такие модели можно запускать на ноутбуке. Они уступают в качестве, но для конкретных задач (классификация текста, простой чат) часто достаточно. Параметры — как мощность двигателя. Для поездки в магазин не нужен двигатель от Boeing 747.

Более того, исследователи активно работают над методами сжатия моделей: квантизация, прунинг, дистилляция. Можно уменьшить модель в 4 раза почти без потери качества, просто оптимизировав параметры.

Распространённые мифы о параметрах

Миф 1: Больше параметров = больше знаний

Нет. Параметры — это не база знаний, а скорее способность выявлять закономерности. Модель на триллион параметров, обученная на плохих данных, будет хуже, чем маленькая модель на качественных данных.

Миф 2: Каждый параметр соответствует факту

Абсолютно нет. Знания распределены по всей сети. Невозможно сказать: «Вот этот конкретный вес отвечает за столицу Франции». Это emergent property — свойство, возникающее из взаимодействия миллионов параметров.

Миф 3: LLM с большим числом параметров всегда лучше

Для конкретных задач часто лучше специализированные маленькие модели. Если вам нужно анализировать медицинские записи, модель на 7 миллиардов параметров, обученная на медицинских текстах, может превзойти GPT-4.

Практические последствия для разработчиков

Если вы хотите создать свою языковую модель, параметры станут вашей главной головной болью. Не только из-за вычислений, но и из-за технического долга в ML.

Вот что нужно учитывать:

  • Память: Модель на 7 миллиардов параметров в FP16 занимает ~14 ГБ. Для локального запуска нужны специальные решения.
  • Скорость вывода: Больше параметров → медленнее генерация. В продакшене это критично.
  • Стоимость: Аренда GPU для модели на десятки миллиардов параметров может стоить тысячи долларов в час.

И последнее: не гонитесь за параметрами. Смотрите на качество, latency, стоимость. Иногда лучше взять модель поменьше и дообучить её на своих данных.

Будущее: куда движется гонка параметров

Сейчас идёт жесткая конкуренция между GPT-5.2 и Gemini 3. Обе компании стремятся к моделям на 10+ триллионов параметров. Но есть ощущение, что это тупиковая ветвь.

Более перспективные направления:

  • Архитектурные инновации: Как в латом пространстве вместо токенов — принципиально новые подходы.
  • Эффективность: Методы вроде REAP от Cerebras, которые позволяют упаковать больше параметров в ту же память.
  • Специализация: Модели, заточенные под конкретные задачи, а не гиганты «для всего».

Мой прогноз: через 2-3 года мы увидим сдвиг от «больше параметров» к «умнее архитектура». Триллионы параметров — это впечатляюще, но непрактично. Будущее за эффективностью.

Помните: параметры — это средство, а не цель. Искусственный интеллект измеряется не гигабайтами весов, а способностью решать реальные задачи. Иногда проще взять готовый Gemini 3 и правильно его использовать, чем строить свою модель на триллионе параметров.