Когда 0.8 миллиарда параметров хватит, чтобы удивить
Еще два года назад модель с 0.8B параметров считалась игрушкой. Она могла связать два слова, но про глубокое понимание речи не шло. Сегодня Qwen 3.5 0.8B заставляет пересмотреть это мнение.
На тестах MMLU 2026 года Qwen 3.5 0.8B показывает результат в 45.3%, что на 12 пунктов выше, чем у Qwen 2.5 0.8B. Для сравнения: рост с 33% до 45% за одно поколение - это не эволюция, это скачок.
Что изменилось? Инженеры Alibaba не просто накормили модель большими данными. Они пересмотрели архитектуру, добавили новые механизмы внимания и, что важно, применили дистилляцию знаний от более крупных моделей серии Qwen 3.5 Plus.
4B модель: новый стандарт для локального ИИ
Если 0.8B - это прорыв в миниатюризации, то Qwen 3.5 4B - это рабочая лошадка. Она тянет задачи, которые раньше были по силам только 7B или 13B моделям.
Запустить ее можно на чем угодно: от старого ноутбука до современного смартфона. Например, на iPhone 15 Pro с помощью Ollama она выдает 15 токенов в секунду. Это достаточно для живого диалога.
Почему они стали умнее? Неочевидные детали
Секрет не только в параметрах. Архитектура Qwen 3.5 включает улучшенный RoPE-энкодинг и оптимизированные слои нормализации. Это снижает затраты на вычисления и позволяет модели эффективнее использовать доступные параметры.
Обучение тоже изменилось. Вместо сырых данных из интернета, использовали тщательно отфильтрованный датасет с акцентом на многозадачность. Модель училась не просто предсказывать слова, а решать микрозадачи в каждом предложении.
Результат? Модель размером 0.8B теперь понимает контекст на 2000 токенов почти так же хорошо, как старая 1.5B модель. А 4B версия справляется с контекстом в 8000 токенов без заметной деградации. Это ставит их на один уровень с некоторыми 27B моделями прошлого в задачах на память.
Как использовать эти модели сегодня
Самый простой способ - через RunPod для облачного запуска. Но если хотите локально, то llama.cpp уже поддерживает Qwen 3.5 с февраля 2026 года. Подробности в нашем обзоре интеграции.
Для мобильных устройств есть два пути: либо собирать нативный код через ML Compute на iOS, либо использовать Android NNAPI. Но проще всего - взять готовый GGUF файл и запустить через приложение вроде ML Manager.
Предупреждение: если качаете GGUF файлы, убедитесь, что они квантованы с использованием методов 2026 года, например, Q4_K_S. Старые методы квантования могут снизить интеллект модели на 30-40%. Подробнее о квантовании читайте в практическом руководстве.
И да, не пытайтесь активировать Thinking Mode на этих малышах. Он предназначен для моделей от 14B и выше, как мы писали в детальном руководстве. На 4B он просто сломает логику генерации.
Что дальше? Прогноз от инсайдеров
К концу 2026 года мы увидим 0.5B модель, которая будет соответствовать сегодняшней 4B по качеству. Движение идет к сверхэффективным архитектурам, где каждый параметр работает на пределе.
Совет: не гонитесь за размером. Для большинства задач - анализ текста, простой диалог, генерация контента - Qwen 3.5 4B более чем достаточно. А 0.8B идеально подойдет для встраивания в приложения, где каждый мегабайт на счету. Если же нужна максимальная точность для исследований, смотрите в сторону оптимизации 27B модели на мощной видеокарте.
И да, если думаете, что маленькие модели - это будущее, то вы уже опоздали. Они уже здесь.