Взросление моделей: от болтовни к делу
Пока большинство языковых моделей соревнуются в написании стихов и генерации котиков, на сцену выходит зверь с другим приоритетом. SIQ-1 Qwen3.6 — это не очередной чат-бот, который рассуждает, как бы он провёл исследование. Это дообученная версия Qwen3.6 с 35 миллиардами параметров, которая реально берёт в руки (ну, в промпты) инструменты и проводит исследование от начала до конца. Сама. Без вашего участия.
Разработчики из SIQ (странное название, да? Synthetic Intelligence Query) взяли базовую модель Qwen3.6-35B, о которой мы уже писали в тесте agentic search, и прожарили её через PPO (Proximal Policy Optimization). Цель — не улучшить знание фактов, а научить модель последовательно выполнять длинные цепочки действий: поиск информации, анализ, синтез, вывод. И знаете что? Это сработало настолько, что теперь даже страшно отпускать её в интернет без присмотра.
Что под капотом: PPO и 35B
Главная фишка SIQ-1 — не в размере, а в методе обучения. PPO — алгоритм из мира reinforcement learning, который обычно гоняет роботов в симуляциях. Здесь его применили к последовательности действий агента: модель получает награду, если успешно завершила исследование (нашла корректный ответ), и штраф — если зациклилась или выдала чушь.
| Параметр | SIQ-1 Qwen3.6 | Qwen3.5-35B (multi-agent) | Qwen3.6 Plus Preview |
|---|---|---|---|
| Размер | 35B | 35B | ? (27B + доп) |
| Обучение | PPO (RL) | SFT + DPO | SFT + RL |
| Фокус | Автономное исследование (один агент) | Multi-agent коллаборация | Агентское кодирование с IDE |
| Средняя длина цепочки | ~40 шагов | ~15 шагов | ~25 шагов |
| SimpleQA точность | 94.1% | 89.5% (из теста) | 95.7% (с agentic search) |
Разница очевидна: SIQ-1 не просто быстрее — она реже бросает дело на полпути. В тестах с задачами типа «сравни эффективность катализаторов для электролиза воды за последние 5 лет» модель делает 40+ шагов поиска, сверки источников и построения таблицы. И не зависает. Если вы читали наш тест Qwen3.5-35B в multi-agent сценариях, то знаете, что даже хорошие модели часто сбиваются на длинных дистанциях. PPO здесь работает как тренер, который не даёт агенту сойти с дистанции.
Сравнение с альтернативами: кого это оставляет позади
Давайте честно: ни GPT-4o, ни Claude 4.6 Opus не умеют делать то же самое без внешнего фреймворка. Да, вы можете обернуть их в LangChain или AgentScope, но это уже танец с бубном. SIQ-1 — это модель, которая уже из коробки понимает свою работу как агент. Она не пытается отвечать как агент
— она обучена быть агентом.
Прямой конкурент — дообученные версии Qwen3.5-9B для AgentScope и OpenClaw. Но там масштаб другой: 9B против 35B. Размер параметров даёт SIQ-1 более глубокое понимание контекста. А вот Qwen 3.6 Plus Preview, наоборот, перетянут на кодинг с IDE — он лучший для написания патчей, а SIQ-1 — для исследовательских цепочек.
Важно: SIQ-1 Qwen3.6 не заменяет универсальную LLM. Если вам нужно написать письмо или перевести текст — берите обычный Qwen3.6. Но если вы строите автономного исследователя, который сам роется в PubMed, ArXiv и GitHub — это ваш выбор.
Сценарии, где SIQ-1 пашет как трактор
Разработчики выпустили демо-скрипт для интеграции с исследовательским агентом. Вот как это выглядит в Python (гипотетический код, модель пока не открыта для загрузки):
from siq_agent import AutonomousResearcher
researcher = AutonomousResearcher(model_name="siq-1-qwen3.6-35b")
task = """
Собери последние данные по эффективности перовскитовых солнечных панелей в условиях
высокой влажности. Построй таблицу сравнения с кремниевыми панелями.
Укажи источники и даты публикаций.
"""
result = researcher.run(task, max_steps=50)
print(result.summary)
print(result.sources)Звучит просто, но за кулисами модель делает примерно следующее:
- Формулирует поисковые запросы по теме и синонимам
- Ходит по ссылкам, извлекает текст из PDF (через встроенный парсер)
- Сравнивает данные из разных источников на противоречия
- Строит таблицу в markdown и проверяет её на когерентность
- Пишет финальный отчёт с цитированием
И всё это — без единого ручного вмешательства. Никаких подождите, я уточню
— только результат.
Кому эта модель спасёт жизнь (и бюджет)
Во-первых, это разработчики AI-агентов, которым надоело собирать цепочки из пяти моделей. SIQ-1 заменяет связку генератор запросов + суммаризатор + верификатор
одной железной бабой.
Во-вторых, это научные группы, которым нужно автоматизировать обзоры литературы. Вместо того чтобы нанимать десять лаборантов, можно поставить одного агента. Да, он не идеален — ложные источники всё ещё проскальзывают (PPO снизил их число на 60%, но не убрал). Но если вы используете его как черновик, а не финальный вердикт — экономия времени колоссальная.
В-третьих, стартапы в сфере LegalTech и MedTech, где нужно обрабатывать тонны документов и выдавать выжимки. SIQ-1 пусть и не юрист, но с базовым анализом прецедентов справляется увереннее, чем иные специалисты начального уровня.
Подводные камни: о чём молчат в рекламных постах
SIQ-1 Qwen3.6 — не панацея. Во-первых, она тупит в задачах, где нужен креатив. Её PPO-награда жёстко привязана к фактологической точности, поэтому придумать новую теорию или оригинальную метафору она не способна. Во-вторых, модель требует приличного железа: 35B параметров — это минимум 24 ГБ VRAM в 4-битном режиме (через AutoRound или llama.cpp). Для полной точности — 48 ГБ.
В-третьих, она слишком прямолинейна. Если в исходных данных противоречие — SIQ-1 выберет самый частотный ответ, а не усомнится. Это наследие PPO: награда за быстрое завершение перевешивает рефлексию. Так что если вам нужна модель, которая будет сомневаться — лучше взять Qwen3.5-27B с дистилляцией рассуждений Claude.
Холодный прогноз: куда это движется
SIQ-1 Qwen3.6 — это первая ласточка нового жанра: модели-исследователи. Не просто умею искать
, а умею искать, анализировать и отчитываться
. Я ставлю на то, что через год каждая серьёзная лаборатория будет иметь своего дообученного агента для обзора литературы. А SIQ-1 — это proof of concept, который показывает, что 35B с правильным RL убивают любые 70B без обучения.
Если вы всё ещё думаете, стоит ли возиться с дообучением — прочитайте тест Qwen 3.6 Plus Preview. Там видно, как даже базовая модель после небольшой доводки начинает творить чудеса. А SIQ-1 — это уже не доводка, а пересборка под конкретную задачу. И этот подход, похоже, единственный рабочий.
Так что, готовы отпустить поводок? Ваш следующий лаборант — модель. И она не просит зарплату.