Один триллион — и никуда не деться
29 апреля 2026 года InclusionAI официально представила Ling-2.6-1T. Да, снова триллион параметров, да, снова громкие заголовки. Но если вы ждали, что это просто «та же модель, только с бампером версии 2.6», то спешу вас разочаровать — они реально что-то поменяли. Вопрос: поможет ли это тем, кто мечтает запустить гиганта на своём домашнем сервере, а не через дорогущее облако?
Вспоминаем Ling-2.5-1T: 1 триллион параметров, но лишь 63 миллиарда активных за раз. Тогда InclusionAI сделала ставку на гибридное линейное внимание (HLA), которое позволяло выжимать 1M контекста при адекватном потреблении ресурсов. Теперь, по заявлению компании, активных параметров стало 75 миллиардов, а контекст вырос до 1.5 миллионов токенов. Выглядит как шаг вперёд, но, как обычно, кроется в деталях.
❗️ Важно: модель по-прежнему использует sparse activation — это та самая хитрость, когда триллион «лежит на полке», но для каждого токена достаётся только нужный «шкаф». Именно это позволяет держать скорость выше, чем у плотных моделей аналогичного размера.
Что нового, кроме цифр?
InclusionAI заявляет об улучшенном механизме отбора активных параметров. Если в версии 2.5 routing был статическим и по сути предопределённым на этапе обучения, то теперь используется динамический подбор на основе текущего контекста. Звучит круто, на деле — это снижает количество вынужденных повторных запросов (той самой проблемы 2-3% потерь, о которой я писал в обзоре Ling-2.5-1T). По внутренним тестам компании, уровень надёжности API теперь выше 99.5%.
Но нас, локальщиков, больше волнует другое: можно ли это запустить на своём GPU-b игре? С одной стороны, 75 миллиардов активных параметров — это всё ещё ~30 GB в FP16. С другой — InclusionAI одновременно выпустила квантизованную версию Ling-2.6-1T-Q4, которая занимает всего 17 GB. Да, это lossy, да, не каждый сможет повторить эталонные бенчмарки, но для большинства повседневных задач разница в качестве незаметна.
В теории это открывает возможность запуска на одной RTX 4090 или на двух RTX 3090. На практике, как обычно, есть нюанс: пиковое потребление VRAM во время загрузки контекста длиннее 500K токенов может перевалить за 24 GB даже на квантизованной версии. Но если вы готовы немного поэкспериментировать с offloading в system RAM — результаты вполне съедобны.
Где здесь место локальному AI?
Сообщество локальных моделей уже давно балансирует между вылизыванием каждой сотни мегабайт и завистливым взглядом в сторону датацентров. Локальный AI против облака: почему эксперты по инфраструктуре делают ставку на свои серверы — в той статье мы как раз разбирали, что для большинства задач иметь физический сервер рядом быстрее и дешевле, чем арендовать облачные GPU. Ling-2.6-1T, при всех своих монструозных параметрах, не отменяет этого тренда.
Более того, InclusionAI решила выпустить не только «полную» модель, но и дистиллированную 33B-версию (Ling-2.6-1T-D), которая, по их словам, сохраняет 87% качества оригинала при 6.5 GB веса. Это уже прямая заявка на рынок локального AI. Covenant-72B и SparseLoco: как обучать гигантские модели на видеокартах геймеров — в статье мы показывали, что даже 72B можно натренировать на домашнем железе, если использовать разреженное обучение. А тут ещё и готовая модель с лицензией, позволяющей коммерческое локальное использование.
Другое дело, что для действительно глубоких научных задач (длинный анализ документов, генерация кода с огромным контекстом) по-прежнему лучше использовать API — хотя бы ради того, чтобы не ждать 15 минут инференса на домашней карте.
Хайп или нет?
Честно? И да, и нет. По цифрам модель действительно впечатляет. На бенчмарках MMLU-Pro и HumanEval последней версии она обошла не только предыдущую версию, но и Claude 4 (выпущенный в марте 2026). Это серьёзно. Но для локального запуска мы снова упираемся в закон Мура для видеокарт: даже 17 GB для Q4 версии — это почти вся память флагманского потребительского GPU. А если контекст нужно держать полтора миллиона токенов, то без слота в память материнской платы не обойтись.
Лично меня радует, что InclusionAI не забила на сообщество опенсорса. Модель выложена на Hugging Face (правда, с припиской, что часть слоёв под лицензией, ограничивающей коммерческое использование без buy Enterprise). Но для хобби-проектов и исследователей — это gold mine.
И ещё один момент: К 2029 году: 10-миллиардные модели заменят ChatGPT 5.2 Pro? Шокирующий прогноз по «Закону уплотнения» — если этот прогноз верен, то через три года триллионные модели будут сжиматься до 10B без потери качества. Возможно, Ling-2.6-1T — это последний «чистый» триллион, который мы видим, а следующие версии будут уже плотными, но маленькими. Как знать.
Что дальше?
Пока что лучшее, что можно сделать с Ling-2.6-1T локально — это взять дистиллированную версию, докинуть квантование до 4 бит и запустить на связке двух RTX 4090 с NVLink. Да, это не дешево. Да, для коротких задач можно обойтись и Qwen3.5-397B или PersonaPlex-7B. Но если вам нужно по-настоящему глубокое понимание экстремально длинных документов (судебные дела, медицинские записи, научные статьи по физике высоких энергий) — возможно, пора искать спонсора на покупку пары H100.
А пока InclusionAI обещает к концу 2026 года выпустить версию с 2 миллионами токенов контекста и 100B активных параметров. Уложатся ли они в срок? Посмотрим. Главное, чтобы не в ущерб стабильности — иначе локальное сообщество вновь вернётся к моделям вроде Qwen3.5-397B или PersonaPlex-7B, которые хоть и меньше, но работают без сюрпризов.
Какой совет напоследок? Не гонитесь за триллионами. 1.5 миллиона токенов — это круто, но для 95% задач хватает 128K. Лучше потратьте бюджет на хорошую конфигурацию с быстрым инференсом и надежным контекстом, чем на бессмысленный «future proof». Ling-2.6-1T — это шаг вперёд, но шаг очень специфический. Вам он точно нужен? Решайте сами.