Что нового в Ling-2.6-1T по сравнению с 2.5?

Увеличены активные параметры (с 63B до 75B), контекст вырос до 1.5M токенов, улучшен динамический routing, что снизило количество повторных запросов API.

Можно ли запустить Ling-2.6-1T на домашнем GPU?

Квантизованная Q4 версия занимает 17 GB, что позволяет запуск на одной RTX 4090 или двух RTX 3090, но при длинном контексте пиковое потребление может превысить 24 GB.

Зачем нужна модель с триллионом параметров, если есть маленькие эффективные?

Для задач с экстремально длинным контекстом (более 500K токенов) и глубоким пониманием структуры — это всё ещё прерогатива больших моделей. Для обычных задач достаточно 33B дистиллированной версии.

InclusionAI Ling-2.6-1T: триллион параметров — что это значит для локального AI

Один триллион — и никуда не деться

29 апреля 2026 года InclusionAI официально представила Ling-2.6-1T. Да, снова триллион параметров, да, снова громкие заголовки. Но если вы ждали, что это просто «та же модель, только с бампером версии 2.6», то спешу вас разочаровать — они реально что-то поменяли. Вопрос: поможет ли это тем, кто мечтает запустить гиганта на своём домашнем сервере, а не через дорогущее облако?

Вспоминаем Ling-2.5-1T: 1 триллион параметров, но лишь 63 миллиарда активных за раз. Тогда InclusionAI сделала ставку на гибридное линейное внимание (HLA), которое позволяло выжимать 1M контекста при адекватном потреблении ресурсов. Теперь, по заявлению компании, активных параметров стало 75 миллиардов, а контекст вырос до 1.5 миллионов токенов. Выглядит как шаг вперёд, но, как обычно, кроется в деталях.

❗️ Важно: модель по-прежнему использует sparse activation — это та самая хитрость, когда триллион «лежит на полке», но для каждого токена достаётся только нужный «шкаф». Именно это позволяет держать скорость выше, чем у плотных моделей аналогичного размера.

Что нового, кроме цифр?

InclusionAI заявляет об улучшенном механизме отбора активных параметров. Если в версии 2.5 routing был статическим и по сути предопределённым на этапе обучения, то теперь используется динамический подбор на основе текущего контекста. Звучит круто, на деле — это снижает количество вынужденных повторных запросов (той самой проблемы 2-3% потерь, о которой я писал в обзоре Ling-2.5-1T). По внутренним тестам компании, уровень надёжности API теперь выше 99.5%.

Но нас, локальщиков, больше волнует другое: можно ли это запустить на своём GPU-b игре? С одной стороны, 75 миллиардов активных параметров — это всё ещё ~30 GB в FP16. С другой — InclusionAI одновременно выпустила квантизованную версию Ling-2.6-1T-Q4, которая занимает всего 17 GB. Да, это lossy, да, не каждый сможет повторить эталонные бенчмарки, но для большинства повседневных задач разница в качестве незаметна.

В теории это открывает возможность запуска на одной RTX 4090 или на двух RTX 3090. На практике, как обычно, есть нюанс: пиковое потребление VRAM во время загрузки контекста длиннее 500K токенов может перевалить за 24 GB даже на квантизованной версии. Но если вы готовы немного поэкспериментировать с offloading в system RAM — результаты вполне съедобны.

Где здесь место локальному AI?

Сообщество локальных моделей уже давно балансирует между вылизыванием каждой сотни мегабайт и завистливым взглядом в сторону датацентров. Локальный AI против облака: почему эксперты по инфраструктуре делают ставку на свои серверы — в той статье мы как раз разбирали, что для большинства задач иметь физический сервер рядом быстрее и дешевле, чем арендовать облачные GPU. Ling-2.6-1T, при всех своих монструозных параметрах, не отменяет этого тренда.

Более того, InclusionAI решила выпустить не только «полную» модель, но и дистиллированную 33B-версию (Ling-2.6-1T-D), которая, по их словам, сохраняет 87% качества оригинала при 6.5 GB веса. Это уже прямая заявка на рынок локального AI. Covenant-72B и SparseLoco: как обучать гигантские модели на видеокартах геймеров — в статье мы показывали, что даже 72B можно натренировать на домашнем железе, если использовать разреженное обучение. А тут ещё и готовая модель с лицензией, позволяющей коммерческое локальное использование.

Другое дело, что для действительно глубоких научных задач (длинный анализ документов, генерация кода с огромным контекстом) по-прежнему лучше использовать API — хотя бы ради того, чтобы не ждать 15 минут инференса на домашней карте.

Хайп или нет?

Честно? И да, и нет. По цифрам модель действительно впечатляет. На бенчмарках MMLU-Pro и HumanEval последней версии она обошла не только предыдущую версию, но и Claude 4 (выпущенный в марте 2026). Это серьёзно. Но для локального запуска мы снова упираемся в закон Мура для видеокарт: даже 17 GB для Q4 версии — это почти вся память флагманского потребительского GPU. А если контекст нужно держать полтора миллиона токенов, то без слота в память материнской платы не обойтись.

Лично меня радует, что InclusionAI не забила на сообщество опенсорса. Модель выложена на Hugging Face (правда, с припиской, что часть слоёв под лицензией, ограничивающей коммерческое использование без buy Enterprise). Но для хобби-проектов и исследователей — это gold mine.

И ещё один момент: К 2029 году: 10-миллиардные модели заменят ChatGPT 5.2 Pro? Шокирующий прогноз по «Закону уплотнения» — если этот прогноз верен, то через три года триллионные модели будут сжиматься до 10B без потери качества. Возможно, Ling-2.6-1T — это последний «чистый» триллион, который мы видим, а следующие версии будут уже плотными, но маленькими. Как знать.

Что дальше?

Пока что лучшее, что можно сделать с Ling-2.6-1T локально — это взять дистиллированную версию, докинуть квантование до 4 бит и запустить на связке двух RTX 4090 с NVLink. Да, это не дешево. Да, для коротких задач можно обойтись и Qwen3.5-397B или PersonaPlex-7B. Но если вам нужно по-настоящему глубокое понимание экстремально длинных документов (судебные дела, медицинские записи, научные статьи по физике высоких энергий) — возможно, пора искать спонсора на покупку пары H100.

А пока InclusionAI обещает к концу 2026 года выпустить версию с 2 миллионами токенов контекста и 100B активных параметров. Уложатся ли они в срок? Посмотрим. Главное, чтобы не в ущерб стабильности — иначе локальное сообщество вновь вернётся к моделям вроде Qwen3.5-397B или PersonaPlex-7B, которые хоть и меньше, но работают без сюрпризов.

Какой совет напоследок? Не гонитесь за триллионами. 1.5 миллиона токенов — это круто, но для 95% задач хватает 128K. Лучше потратьте бюджет на хорошую конфигурацию с быстрым инференсом и надежным контекстом, чем на бессмысленный «future proof». Ling-2.6-1T — это шаг вперёд, но шаг очень специфический. Вам он точно нужен? Решайте сами.

Подписаться на канал

InclusionAI выкатила Ling-2.6-1T: очередной триллион для гигантов или надежда для локальных?

Один триллион — и никуда не деться

Что нового, кроме цифр?

Где здесь место локальному AI?

Хайп или нет?

Что дальше?

Подписывайтесь на наш канал!