Франкенштейн из нейросетей: что склеили в Cicikus v3

На 15 марта 2026 года в тени гигантов вроде GPT-5 и Claude 4 все еще копошатся энтузиасты, которые пытаются впихнуть сложное мышление в 4 миллиарда параметров. Cicikus v3 Prometheus 4.4B — один из самых дерзких таких экспериментов. Это не просто дообученная модель, а результат так называемого franken-merge — хирургического слияния слоев от разных моделей, чтобы получить нового «монстра» с уникальными способностями.

💡

Franken-merge — метод создания моделей, при котором берутся слои из разных предобученных нейросетей и комбинируются в одну новую архитектуру. Это рискованно (может получиться полная ерунда), но иногда дает неожиданный прирост в конкретных задачах, особенно в рассуждениях.

Авторы взяли за основу, по слухам, Llama 3.2 4B и привили ей части от какой-то специализированной модели для reasoning. На выходе получили 4.4B параметров, которые, по заявлению, должны справляться с логическими головоломками не хуже моделей в 10 раз крупнее. Звучит как сказка. Мы проверили.

Что реально умеет эта кроха? Тестируем логику

Мы гоняли модель на наборе из логических задач, математических головоломок и сценариев, требующих step-by-step reasoning. Вот что увидели:

Цепочка мыслей (Chain-of-Thought): Модель действительно пытается рассуждать. Не так изящно, как в Dark CoT для Gemma 3 4B, но структурированно. Дает пошаговое объяснение перед ответом.
Понимание контекста: Справляется с многошаговыми инструкциями, где нужно учитывать несколько условий. Например: "Если А старше Б, но младше В, а В родился после 2000 года, то...".
Математика: Базовая арифметика и алгебра на уровне 7-8 класса — без проблем. Интегралы, конечно, не берет, но это и не ее цель.
Слабые места: Теряет нить рассуждения в очень длинных контекстах (больше 2000 токенов). Иногда выдает уверенный, но абсолютно неправильный ответ — классическая проблема маленьких LLM.

Не один такой: с кем сравнить Prometheus 4.4B

На рынке sub-5B моделей в 2026 году уже тесно. Каждая вторая обещает "reasoning на уровне 70B". Мы сравнили Cicikus v3 с основными конкурентами по двум параметрам: качество рассуждений и аппетиты к видеопамяти.

Модель (4-5B параметров)	Логические задачи	Память (FP16)	Особенность
Cicikus v3 Prometheus 4.4B	Хорошо, с оговорками	~9 ГБ	Экспериментальный franken-merge
Llama 3.2 4B (Instruct)	Средне, нужен сложный промптинг	~8 ГБ	Баланс качество/скорость
Gemma 3 4B (последняя версия на 15.03.2026)	Отлично, с методами вроде Dark CoT	~8.5 ГБ	Специально заточена под reasoning
Qwen2.5 4B (Coder)	Хорошо для кода, средне для абстракций	~8 ГБ	Сильна в программировании

Вывод? Cicikus v3 не решает все задачи, как MiniMax M2.5, но для своей категории показывает себя достойно. Ее главная фишка — franken-merge, который, видимо, дает прирост в нестандартных логических построениях. Если вам интересна тема слияния моделей, посмотрите также на SOLARized-GraniStral-14B — там комбинируют два метода.

Внимание: Модель экспериментальная. Не ждите от нее стабильности как от Llama. Иногда она «сходит с ума» и генерирует бессмыслицу. Всегда проверяйте ее выводы, особенно если используете для чего-то важного.

Запускаем на тостере: как и на чем работает

Здесь хорошие новости. Модель весит около 9 ГБ в формате FP16. Это значит, что она впритык, но влазит в видеокарту с 12 ГБ памяти (например, RTX 3060 или 4060). С квантованием до 4-бит (GGUF формат) — вообще летает на 8 ГБ и даже на чистом CPU.

Как запустить:

Скачать с Hugging Face (репозиторий обычно называется cicikus-v3-prometheus-4.4b).
Использовать LM Studio или Ollama (если есть готовый модelfile). В LM Studio просто укажите путь к скачанным файлам.
Или, если вы фанат командной строки, через llama.cpp с квантованием Q4_K_M.

На слабом железе с 8 ГБ ОЗУ и без видеокарты — используйте GGUF версию и llama.cpp. Скорость будет около 2-3 токенов в секунду. Медленно, но для нечастых логических задач сгодится. Если хочется побыстрее, можно арендовать облачный GPU на час через сервис вроде RunPod, но это уже для тестов, а не для постоянной работы.

Кому стоит качать, а кому — даже не смотреть

Эта модель — нишевый инструмент для очень конкретной аудитории.

Качайте, если вы:

Энтузиаст локальных LLM, которому надоели стандартные Llama и Gemma, и хочется поэкспериментировать с franken-merge.
Ищете модель именно для решения логических головоломок, ребусов, простых математических задач на своем стареньком ПК.
Хотите изучить, как хирургическое слияние моделей влияет на reasoning, возможно, для своих опытов (после этого стоит прочитать гайд по дообучению).

Проходите мимо, если вам нужно:

Стабильная работа для продакшена. Берите проверенную Llama 3.2 4B или Gemma 3.
Генерация длинных текстов или диалоговая поддержка. Cicikus v3 для этого не создавалась.
Решение сверхсложных задач, где нужна глубина, как у Qwen3.5 35B в multi-agent сценариях.

Итог: стоит ли игра свеч?

Cicikus v3 Prometheus 4.4B — любопытный артефакт в мире маленьких языковых моделей. Она доказывает, что franken-merge может давать интересные результаты в нишевых задачах, а не только приводить к катастрофе. На слабом железе она работает, но готовьтесь к ее капризам.

Мой прогноз на 2026-2027: franken-merge и другие методы слияния моделей станут популярным способом создания узкоспециализированных AI без огромных бюджетов на обучение с нуля. Но пока это территория энтузиастов и исследователей, готовых мириться с глюками. Если ваш график видеопамяти напоминает бездонную бочку лишь в мечтах, Cicikus v3 может стать вашим нестандартным, но временами гениальным помощником для разминки мозгов.

Подписаться на канал

Cicikus v3 Prometheus 4.4B: тестируем экспериментальную модель для логических задач на слабом железе