Взросление моделей: от болтовни к делу

Пока большинство языковых моделей соревнуются в написании стихов и генерации котиков, на сцену выходит зверь с другим приоритетом. SIQ-1 Qwen3.6 — это не очередной чат-бот, который рассуждает, как бы он провёл исследование. Это дообученная версия Qwen3.6 с 35 миллиардами параметров, которая реально берёт в руки (ну, в промпты) инструменты и проводит исследование от начала до конца. Сама. Без вашего участия.

Разработчики из SIQ (странное название, да? Synthetic Intelligence Query) взяли базовую модель Qwen3.6-35B, о которой мы уже писали в тесте agentic search, и прожарили её через PPO (Proximal Policy Optimization). Цель — не улучшить знание фактов, а научить модель последовательно выполнять длинные цепочки действий: поиск информации, анализ, синтез, вывод. И знаете что? Это сработало настолько, что теперь даже страшно отпускать её в интернет без присмотра.

Что под капотом: PPO и 35B

Главная фишка SIQ-1 — не в размере, а в методе обучения. PPO — алгоритм из мира reinforcement learning, который обычно гоняет роботов в симуляциях. Здесь его применили к последовательности действий агента: модель получает награду, если успешно завершила исследование (нашла корректный ответ), и штраф — если зациклилась или выдала чушь.

Параметр	SIQ-1 Qwen3.6	Qwen3.5-35B (multi-agent)	Qwen3.6 Plus Preview
Размер	35B	35B	? (27B + доп)
Обучение	PPO (RL)	SFT + DPO	SFT + RL
Фокус	Автономное исследование (один агент)	Multi-agent коллаборация	Агентское кодирование с IDE
Средняя длина цепочки	~40 шагов	~15 шагов	~25 шагов
SimpleQA точность	94.1%	89.5% (из теста)	95.7% (с agentic search)

Разница очевидна: SIQ-1 не просто быстрее — она реже бросает дело на полпути. В тестах с задачами типа «сравни эффективность катализаторов для электролиза воды за последние 5 лет» модель делает 40+ шагов поиска, сверки источников и построения таблицы. И не зависает. Если вы читали наш тест Qwen3.5-35B в multi-agent сценариях, то знаете, что даже хорошие модели часто сбиваются на длинных дистанциях. PPO здесь работает как тренер, который не даёт агенту сойти с дистанции.

Сравнение с альтернативами: кого это оставляет позади

Давайте честно: ни GPT-4o, ни Claude 4.6 Opus не умеют делать то же самое без внешнего фреймворка. Да, вы можете обернуть их в LangChain или AgentScope, но это уже танец с бубном. SIQ-1 — это модель, которая уже из коробки понимает свою работу как агент. Она не пытается отвечать как агент — она обучена быть агентом.

Прямой конкурент — дообученные версии Qwen3.5-9B для AgentScope и OpenClaw. Но там масштаб другой: 9B против 35B. Размер параметров даёт SIQ-1 более глубокое понимание контекста. А вот Qwen 3.6 Plus Preview, наоборот, перетянут на кодинг с IDE — он лучший для написания патчей, а SIQ-1 — для исследовательских цепочек.

Важно: SIQ-1 Qwen3.6 не заменяет универсальную LLM. Если вам нужно написать письмо или перевести текст — берите обычный Qwen3.6. Но если вы строите автономного исследователя, который сам роется в PubMed, ArXiv и GitHub — это ваш выбор.

Сценарии, где SIQ-1 пашет как трактор

Разработчики выпустили демо-скрипт для интеграции с исследовательским агентом. Вот как это выглядит в Python (гипотетический код, модель пока не открыта для загрузки):

from siq_agent import AutonomousResearcher

researcher = AutonomousResearcher(model_name="siq-1-qwen3.6-35b")

task = """
Собери последние данные по эффективности перовскитовых солнечных панелей в условиях
высокой влажности. Построй таблицу сравнения с кремниевыми панелями.
Укажи источники и даты публикаций.
"""

result = researcher.run(task, max_steps=50)
print(result.summary)
print(result.sources)

Звучит просто, но за кулисами модель делает примерно следующее:

Формулирует поисковые запросы по теме и синонимам
Ходит по ссылкам, извлекает текст из PDF (через встроенный парсер)
Сравнивает данные из разных источников на противоречия
Строит таблицу в markdown и проверяет её на когерентность
Пишет финальный отчёт с цитированием

И всё это — без единого ручного вмешательства. Никаких подождите, я уточню — только результат.

Кому эта модель спасёт жизнь (и бюджет)

Во-первых, это разработчики AI-агентов, которым надоело собирать цепочки из пяти моделей. SIQ-1 заменяет связку генератор запросов + суммаризатор + верификатор одной железной бабой.

Во-вторых, это научные группы, которым нужно автоматизировать обзоры литературы. Вместо того чтобы нанимать десять лаборантов, можно поставить одного агента. Да, он не идеален — ложные источники всё ещё проскальзывают (PPO снизил их число на 60%, но не убрал). Но если вы используете его как черновик, а не финальный вердикт — экономия времени колоссальная.

В-третьих, стартапы в сфере LegalTech и MedTech, где нужно обрабатывать тонны документов и выдавать выжимки. SIQ-1 пусть и не юрист, но с базовым анализом прецедентов справляется увереннее, чем иные специалисты начального уровня.

💡

Лайфхак: если гонять SIQ-1 в паре с Qwen 27B на 3090 в режиме локального агента, можно получить систему, которая не только исследует, но и применяет результаты через вызов API. Тандем работает шустро — до 2 секунд на шаг.

Подводные камни: о чём молчат в рекламных постах

SIQ-1 Qwen3.6 — не панацея. Во-первых, она тупит в задачах, где нужен креатив. Её PPO-награда жёстко привязана к фактологической точности, поэтому придумать новую теорию или оригинальную метафору она не способна. Во-вторых, модель требует приличного железа: 35B параметров — это минимум 24 ГБ VRAM в 4-битном режиме (через AutoRound или llama.cpp). Для полной точности — 48 ГБ.

В-третьих, она слишком прямолинейна. Если в исходных данных противоречие — SIQ-1 выберет самый частотный ответ, а не усомнится. Это наследие PPO: награда за быстрое завершение перевешивает рефлексию. Так что если вам нужна модель, которая будет сомневаться — лучше взять Qwen3.5-27B с дистилляцией рассуждений Claude.

Холодный прогноз: куда это движется

SIQ-1 Qwen3.6 — это первая ласточка нового жанра: модели-исследователи. Не просто умею искать, а умею искать, анализировать и отчитываться. Я ставлю на то, что через год каждая серьёзная лаборатория будет иметь своего дообученного агента для обзора литературы. А SIQ-1 — это proof of concept, который показывает, что 35B с правильным RL убивают любые 70B без обучения.

Если вы всё ещё думаете, стоит ли возиться с дообучением — прочитайте тест Qwen 3.6 Plus Preview. Там видно, как даже базовая модель после небольшой доводки начинает творить чудеса. А SIQ-1 — это уже не доводка, а пересборка под конкретную задачу. И этот подход, похоже, единственный рабочий.

Так что, готовы отпустить поводок? Ваш следующий лаборант — модель. И она не просит зарплату.

Подписаться на канал

SIQ-1 Qwen3.6: Как 35B модель с PPO учится исследовать мир без вашего присмотра