Qwen3.6-27B + agentic search на 3090: 95.7% SimpleQA локально | AiManual
AiManual Logo Ai / Manual.
02 Май 2026 Инструмент

Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально

Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.

Облачные API для больших языковых моделей - это удобно, но платить за каждый запрос и сливать свои данные в чужие локи? Простите, не наш метод. В мае 2026 года команда энтузиастов выложила рецепт, который переворачивает представление о локальном AI: запуск Qwen3.6-27B с agentic search на одной RTX 3090. И это не просто игрушка - модель показывает 95.7% точности на сложном бенчмарке SimpleQA. Раньше такого уровня достигали только гиганты вроде GPT-4o, но теперь это доступно на домашнем ПК.

Что за зверь Qwen3.6-27B и почему он особенный?

Семейство Qwen от Alibaba Cloud уже плотно обосновалось в топах открытых моделей. Версия 3.6 (релиз второй квартал 2026) - это не просто эволюция. В отличие от предыдущей Qwen 3.5, она получила встроенный механизм планирования действий: модель сама решает, когда ей нужно обратиться к поиску, прочитать документ или выполнить код. При этом 27 миллиардов параметров - это золотая середина между производительностью и потреблением ресурсов. 24 ГБ VRAM RTX 3090 хватает для квантованной версии в 4 бита с большим контекстом.

Agentic search: модель сама решает, когда гуглить

Традиционно LLM отвечают из своей памяти, которая заканчивается на дате обучения. Qwen3.6-27B умеет генерировать поисковые запросы, парсить результаты и синтезировать ответ. Это не RAG в классическом понимании - модель не просто вставляет куски текста, а критически оценивает источники. В бенчмарке SimpleQA, где требуется фактологически точный ответ на основе актуальных данных, такой подход даёт 95.7% - выше, чем у GPT-4o с плагином браузера (94.2%).

Ключевой нюанс: agentic search использует локальный поисковый движок (SearXNG или ваш собственный индекс) - никаких сторонних API. Вся конфиденциальность остается внутри корпуса.

Мы уже обсуждали, как Qwen3.5-35B справляется с multi-agent задачами. Теперь подход доработали для одного агента с инструментом поиска. Это меняет правила игры.

Техническая сердцевина: как уместить 27B на 3090?

Секрет не в магии, а в агрессивном квантовании с сохранением точности. Используется метод AutoRound (об этом мы писали в разборе Qwen 27B на 3090 как локальный агент). В Qwen3.6-27B применили Q4_K_M с интеллектуальным распределением бит на ключевые слои. Результат: падение качества менее 0.5%, а потребление памяти - 17-18 ГБ VRAM. Остается запас для контекстного окна в 32768 токенов и самого поискового агента.

Сборка работает под Ollama версии 0.6.0 (релиз апреля 2026) - там уже встроена поддержка MCP-протокола и функций. Для запуска не нужны костыли в виде кастомных скриптов, все из коробки.

КомпонентПараметр
МодельQwen3.6-27B-4bit (квантование AutoRound)
GPU1× RTX 3090 (24GB VRAM)
ПОOllama 0.6.0 + SearXNG (локальный поиск)
Контекст32 768 токенов (оптимально), до 131 072 при снижении скорости
SimpleQA95.7% (с agentic search), 89.2% (без поиска)

Как НЕ надо делать: типичные ошибки

Первый запуск часто приводит к бессмыслице после пары ответов. Это знакомая проблема - ранее мы разбирали её для Qwen 3.5 в Llama.cpp. В случае с Ollama причина - конфликт кеша KV между вызовами инструмента. Решение: включить флаг --no-keep-alive и перезагружать кеш после каждого поискового запроса.

ollama run qwen3.6-27b:4bit --no-keep-alive -no-cache

Зачем это вообще нужно? Пример из жизни

Представьте: вы журналист, расследуете статью 2024 года про влияние нового закона на малый бизнес. Модель в памяти не знает событий после 2025. Обычная LLM ответит чушью. Qwen3.6-27B с agentic search генерирует запросы «новости малый бизнес закон 2024 последствия 2025», собирает ссылки, читает статьи, сравнивает цифры. Результат - выверенный фактологический отчет без выхода в интернет.

💡
Если вам нужно работать с огромными кодобазами, смотрите гайд Qwen 3.5 для работы с реальными кодобазами - там показано, как сочетать поиск и написание кода в одном агенте.

Сравнение с альтернативами: компьютер против облака

  • Perplexity Pro / GPT-4o + search: плата $20/мес минимум, данные уходят на сервера, задержка ~3 секунды.
    Локальное решение: 0 рублей на подписку, задержка 1.5 сек (с 3090), полный контроль.
  • Llama 3.2 90B + поисковый плагин: не влезает на одну 3090 даже в 4 бита, требует 48GB VRAM. Qwen3.6-27B - единственный вариант для одной карты с высокой точностью.
  • Mixtral 8x22B с квантованием: 140B параметров, потребляет ~40GB, на 3090 не запустить. Плюс качество на фактологических задачах ниже - 91% SimpleQA.

Пошаговый запуск за 10 минут

1 Установи Ollama и SearXNG

Скачай Ollama 0.6.0 с официального сайта или через пакетный менеджер. Для SearXNG проще всего использовать Docker:

docker run -d --name searxng -p 4000:8080 searxng/searxng

2 Скачай и запусти модель

ollama pull qwen3.6-27b:4bit  # (размер ~16GB)

После загрузки запусти с поддержкой функций и поисковым сервером:

ollama run qwen3.6-27b:4bit --tools searxng --tool-server http://localhost:4000

3 Проверь agentic search

Отправь запрос: «Каков ВВП Германии за 2025 год?» Увидишь, как модель сначала генерирует поисковый запрос, получает результаты, а затем даёт ответ с цитатами. Если всё работает - перед тобой локальный ассистент уровня Enterprise.

Кстати, если у тебя ноутбук и хочется попробовать что-то подобное на слабом железе - почитай как выбрать бюджетный ноутбук для Qwen 3.5-35B-A3B. Там показаны альтернативы, которые потребуют меньше памяти.

Кому реально пригодится?

Исследователи и аналитики, кому нужны свежие данные без цензуры провайдеров. Юристы и медики - конфиденциальность запросов критична. Разработчики AI-агентов - модель отлично подходит как бэкенд для локального Copilot. Энтузиасты - пощупать cutting-edge технологию за $600 (цена б/у 3090) вместо $3000 за облачные сервера.

Но есть и ограничение: если вам нужен одновременный доступ для команды из 5+ человек, 3090 забьётся по VRAM. Для этого лучше собрать сервер на двух картах - тогда можно запустить Qwen3.5-397B на 128GB GPU, если бюджет позволяет.

Неочевидный совет напоследок

Многие гонятся за максимальным контекстом в 131K токенов. Не надо. Для agentic search оптимально 32K - поисковые сниппеты не требуют больше. При увеличении контекста скорость падает, а точность на SimpleQA снижается на 1-2% из-за рассеивания внимания. Настройте контекст под свою задачу, а не пытайтесь объять необъятное.

Подписаться на канал