Параметры: не счёт, а мозг
Представьте, что вы учите ребёнка отличать кошку от собаки. Вы показываете картинки, объясняете: «У кошки уши острые, у собаки висячие. Кошки мяукают, собаки лают». Каждое такое правило — параметр. В нейросети их миллиарды.
Когда говорят «GPT-3 имеет 175 миллиардов параметров», новички думают о числе как о счёте в футбольном матче. Чем больше — тем лучше. Но это не счёт. Это количество настроек, которые модель выучила из данных.
Параметр в LLM — это числовое значение (вес), которое определяет, как нейроны взаимодействуют друг с другом. Представьте огромную сеть соединений, где каждая связь имеет свою «силу». Эти силы и есть параметры.
Архитектура трансформера: где живут эти параметры
Все современные LLM построены на архитектуре трансформера. Не буду грузить вас формулами, но суть проста: трансформер разбивает текст на части (токены), смотрит на связи между словами и постепенно строит понимание.
Параметры распределены по нескольким ключевым компонентам:
- Эмбеддинги — превращают слова в числа. Каждому слову (или его части) соответствует вектор из 768, 1024 или больше чисел. Эти векторы — тоже параметры.
- Внимание (attention) — механизм, который решает, на какие слова в предложении нужно обращать внимание. В GPT-3 таких механизмов внимания 96 слоёв, в каждом — свои веса.
- Полносвязные слои — классические нейронные сети внутри трансформера, которые обрабатывают информацию после внимания.
Вот примерное распределение для GPT-3:
| Компонент | Примерное количество параметров | Что делает |
|---|---|---|
| Эмбеддинги | ~4 миллиарда | Превращает слова в числа |
| Механизмы внимания | ~120 миллиардов | Анализирует связи между словами |
| Полносвязные слои | ~50 миллиардов | Обрабатывает информацию |
| Прочее | ~1 миллиард | Нормализация, выходные слои |
Обучение: как 175 миллиардов чисел находят свои места
Вот где начинается магия. Или ад, если вы инженер, который платит за электричество.
Обучение LLM — это процесс настройки всех этих миллиардов параметров. Исходно они инициализированы случайными значениями. Модель получает текст (например, «Кошка сидит на ...»), пытается предсказать следующее слово, сравнивает с правильным ответом и понемногу корректирует веса.
Для GPT-3 использовали примерно 500 миллиардов токенов текста (около 3 миллионов книг). Каждый проход по данным — это триллионы операций с плавающей запятой. На это ушло несколько месяцев работы тысяч GPU.
И вот что интересно: после обучения параметры замораживаются. Модель больше не учится. Когда вы задаёте вопрос ChatGPT, он не меняет свои веса. Он просто использует то, что уже знает.
GPT-3 vs Gemini: гонка параметров или архитектур?
GPT-3 с его 175 миллиардами параметров долго был королём. Потом появился GPT-4 (точное число параметров OpenAI не раскрывает, но оценки — от 1 до 1.8 триллиона). А теперь Google выпустил Gemini 3 с заявленными 1.56 триллионами параметров.
Важно: больше параметров ≠ умнее модель. Архитектура, качество данных и методы обучения часто важнее. Но давайте посмотрим на цифры.
| Модель | Параметры | Токенов для обучения | Особенность |
|---|---|---|---|
| GPT-3 (2020) | 175 миллиардов | ~500 миллиардов | Показал, что масштабирование работает |
| Gemini 3 (2024) | ~1.56 триллиона | ~10 триллионов | Мультимодальность из коробки |
| GPT-4 (2023) | ~1.8 триллиона (оценка) | ~13 триллионов | Смесь экспертов (MoE) |
У Gemini 3 интересная особенность: он изначально мультимодален. То есть его параметры обучены не только на тексте, но и на изображениях, видео, аудио. Это значит, что часть этих триллионов весов отвечает за связь между разными типами данных.
А вот GPT-4 использует архитектуру «смесь экспертов» (MoE). Вместо одной гигантской сети — несколько меньших, каждая специализируется на своём. Это позволяет иметь огромное общее количество параметров, но активировать только часть из них для каждого запроса. Умный трюк.
Почему триллионы — это уже проблема
Кажется, что больше — всегда лучше. Но на практике всё сложнее.
Первая проблема — вычисления. Каждый параметр нужно хранить в памяти и использовать при генерации. Для модели на триллион параметров в формате FP16 нужно 2 терабайта памяти. Это недостижимо для обычных GPU.
Вторая — закон убывающей отдачи. Увеличивая модель в 10 раз, вы не получаете в 10 раз более умный ИИ. Скорее, на 20-30% лучше по некоторым тестам. После определённого предела добавление параметров даёт всё меньше.
Третья — стоимость. Обучение GPT-3 стоило около $4.6 миллионов. Обучение GPT-4 — десятки миллионов. Обучение моделей на триллионы параметров следующего поколения может превысить $100 миллионов.
Параметры в действии: пример из жизни
Давайте рассмотрим конкретный пример. Вы спрашиваете ChatGPT: «Сколько лет живёт синий кит?»
Что происходит внутри:
- Текст разбивается на токены: [«Сколько», «лет», «живёт», «синий», «кит», «?»]
- Каждый токен превращается в эмбеддинг (вектор из чисел). Эти векторы — часть параметров модели.
- Механизмы внимания анализируют: «синий» связано с «кит», а не с «небо». Веса внимания — тоже параметры.
- Сеть проходит через 96 слоёв трансформера, каждый слой слегка преобразует представление.
- На выходе получается распределение вероятностей для следующего токена.
- Модель генерирует ответ по частям: «Синий», «кит», «живёт», «до», «90», «лет».
Каждый шаг зависит от миллионов параметров. Но самое удивительное — модель никогда специально не учили факту «синий кит живёт до 90 лет». Она вывела это из статистических закономерностей в текстах, которые читала.
А что с маленькими моделями?
Не все LLM — гиганты. Есть модели вроде Genesis-152M-Instruct всего со 152 миллионами параметров. В 1000 раз меньше GPT-3!
Такие модели можно запускать на ноутбуке. Они уступают в качестве, но для конкретных задач (классификация текста, простой чат) часто достаточно. Параметры — как мощность двигателя. Для поездки в магазин не нужен двигатель от Boeing 747.
Более того, исследователи активно работают над методами сжатия моделей: квантизация, прунинг, дистилляция. Можно уменьшить модель в 4 раза почти без потери качества, просто оптимизировав параметры.
Распространённые мифы о параметрах
Миф 1: Больше параметров = больше знаний
Нет. Параметры — это не база знаний, а скорее способность выявлять закономерности. Модель на триллион параметров, обученная на плохих данных, будет хуже, чем маленькая модель на качественных данных.
Миф 2: Каждый параметр соответствует факту
Абсолютно нет. Знания распределены по всей сети. Невозможно сказать: «Вот этот конкретный вес отвечает за столицу Франции». Это emergent property — свойство, возникающее из взаимодействия миллионов параметров.
Миф 3: LLM с большим числом параметров всегда лучше
Для конкретных задач часто лучше специализированные маленькие модели. Если вам нужно анализировать медицинские записи, модель на 7 миллиардов параметров, обученная на медицинских текстах, может превзойти GPT-4.
Практические последствия для разработчиков
Если вы хотите создать свою языковую модель, параметры станут вашей главной головной болью. Не только из-за вычислений, но и из-за технического долга в ML.
Вот что нужно учитывать:
- Память: Модель на 7 миллиардов параметров в FP16 занимает ~14 ГБ. Для локального запуска нужны специальные решения.
- Скорость вывода: Больше параметров → медленнее генерация. В продакшене это критично.
- Стоимость: Аренда GPU для модели на десятки миллиардов параметров может стоить тысячи долларов в час.
И последнее: не гонитесь за параметрами. Смотрите на качество, latency, стоимость. Иногда лучше взять модель поменьше и дообучить её на своих данных.
Будущее: куда движется гонка параметров
Сейчас идёт жесткая конкуренция между GPT-5.2 и Gemini 3. Обе компании стремятся к моделям на 10+ триллионов параметров. Но есть ощущение, что это тупиковая ветвь.
Более перспективные направления:
- Архитектурные инновации: Как в латом пространстве вместо токенов — принципиально новые подходы.
- Эффективность: Методы вроде REAP от Cerebras, которые позволяют упаковать больше параметров в ту же память.
- Специализация: Модели, заточенные под конкретные задачи, а не гиганты «для всего».
Мой прогноз: через 2-3 года мы увидим сдвиг от «больше параметров» к «умнее архитектура». Триллионы параметров — это впечатляюще, но непрактично. Будущее за эффективностью.
Помните: параметры — это средство, а не цель. Искусственный интеллект измеряется не гигабайтами весов, а способностью решать реальные задачи. Иногда проще взять готовый Gemini 3 и правильно его использовать, чем строить свою модель на триллионе параметров.