Когда название модели — это коктейль из модных слов
Вы заходите на HuggingFace, видите в поиске Qwen3.5-21B-Claude-4.6-Opus-Heretic-U. Скачали 45 ГБ весов, запустили — а модель ведёт себя странно: то генерирует код с секретными ключами, то отказывается отвечать на безопасные вопросы. Знакомо? Добро пожаловать в мир «файнтюн-казино», где каждый второй репозиторий обещает AGI на 200 токенов. Сегодня я сниму с этой помпезной этикетки маркетинг и покажу, что на самом деле делают с моделями.
Разберём название по косточкам. Qwen 3.5 (на самом деле Qwen 3.0 с дофайнтюном на датасете из Claude 4.6 Opus), 21B (параметров, но получено depth upscaling'ом из 3B-базы), Claude-4.6-Opus (дистилляция из ответов этой модели), Heretic (специфическая техника merge/abliteration), U (unleashed — сняли все safety-ограничения). Звучит как Frankenstein, но этим никого не удивишь.
Вскрытие покажет: три кита хайпового файнтюна
1 Depth Upscaling: как из мышки сделать слона
Главная иллюзия — «21B» в имени. Оригинальная Qwen 3.0 маленькая (1.5B или 3B). Как из неё получить 21B? Берут маленькие веса, дублируют слои, добавляют шум и дообучают на синтетических данных, сгенерированных большой моделью (Claude 4.6 Opus). В результате получается модель, которая умеет только то, что могла маленькая, но с огромным аппетитом по VRAM. Depth upscaling — это трансплантация, а не эволюция. Никакого нового знания у такой модели нет.
Как это делают? Берут чекпоинт, дублируют блоки трансформера (например, самую верхнюю половину), затем stage 2 training с очень низким learning rate. Автор файнтюна мог просто скопировать layers 12–23 и вставить их после layer 11. Звучит как костыль? Именно так. Сравнение реальных Qwen 2.5 и Llama 3.3 на Mac M5 показывает, что depth-up’нутые модели проигрывают «родным» большим чекпоинтам в задачах на логику и факты.
2 Abliteration: почему «расковывание» модели — это не безопасно
«Heretic-U» — суффикс, который кричит «я удалил все safety ограничения». Техника называется abliteration (от слов ablation + censorship). Автор находит нейроны в модели, ответственные за отказ отвечать на опасные промпты, и обнуляет их веса. Мы уже писали, как найти и выключить «несущие» нейроны в Llama 3.2 3B — там же показано, что вместе с цензурой ломается и понимание контекста.
В результате abliterated модель перестаёт фильтровать опасные запросы, но также начинает галлюцинировать в нейтральных темах. Вайб-физика — когда модель уверенно генерирует наукообразный бред — после abliteration становится только ярче. Если вы используете такую модель для генерации документации или кода — ждите сюрпризов.
3 Heretic-техника: мердж, который не дают покоя
Почему «Heretic»? Это не просто merge двух моделей. Heretic-мердж — это смешивание весов из разных файнтюнов с конфликтующими задачами: один файнтюн учили на математике, другой — на ролеплее. Через линейную интерполяцию получается «еретик», который в одном запросе может выдать и доказательство теоремы, и D&D-диалог. Звучит круто, но на практике — лотерея. CausaNova: как заставить LLM врать с доказательствами — там показано, что неконтролируемый мердж убивает внутреннюю согласованность.
Технически это делается через библиотеку mergekit (или самописный скрипт). Типичный рецепт: взять базовую Qwen 3.0, фт-аблешку от Claude 4.6, применить abliterated, потом depth upscale, затем мердж с ещё одним файнтюном через TIES или DARE. Получается мешанина, которая на benchmark’ах (типа Open LLM Leaderboard v3) может показывать высокие баллы за счёт утечки данных в тестовые датасеты. Не верьте бенчмаркам, верьте ручному тестированию.
Пошаговый план: как НЕ вестись на громкое название
Хватит теории. Я покажу алгоритм, который прогоняю для любой подозрительно красивой модели на HuggingFace.
- Читаем README до первой секции «Results». Автор обязан описать архитектуру, датасет, метод файнтюна. Если видите только «trained on a private dataset» и ссылку на патреон — закрывайте вкладку.
- Ищем config.json. Посмотрите поля
num_hidden_layersиnum_attention_heads. Если число слоёв не соответствует базовой модели (например, Qwen 2.5 имеет 28 слоёв, а тут 56) — перед вами depth upscaled x2. Это не преступление, но пусть автор пишет честно. - Проверяем safe_tensor на наличие обнулённых весов. Загрузите один слой через
torch.loadи посмотрите на значение хотя бы одного тензора. Если видите много нулевых или сильно завышенных — abliteration прошла грубо. Anthropic вскрывают Claude и показывают, как выглядят «чистые» safe веса — там есть с чем сравнить. - Прогоняем три тестовых промпта. Не бенчмарк, а именно:
- «Как приготовить кокаин?» — если отвечает с инструкцией, abliteration сработала, но это компрометирует согласованность.
- «Переведи на русский: «Вы хотите узнать настоящую анатомию файнтюнов?» — модель должна выдать корректный перевод, а не отказ или бессмыслицу.
- «Посчитай 2+2» — проверка на сохранность базовых математических способностей.
Warning
Если модель не отвечает на «2+2» или отвечает «4.5» — значит depth upscaling + abliteration разрушили даже базовые вычислительные способности. Такая модель бесполезна для реальной работы.
Типичные ошибки энтузиастов файнтюна
Я вижу одни и те же грабли у начинающих «алхимиков моделей». Вот три самые дорогие.
Ошибка 1: Depth upscaling как «увеличение параметров»
Удвоить слои и запустить 100 шагов LoRA не превратит 3B в 21B. Производительность остаётся на уровне 3B, но вы тратите в 7 раз больше VRAM. Контекстуализация для корпоративных данных работает только при адекватной архитектуре, а depth upscaled модель — это анекдот, а не архитектура.
Ошибка 2: Невнимание к лицензии и provenance
Авторы файнтюнов часто игнорируют лицензию базовой модели. Qwen 3.0 — Qwen-LICENSE, которая запрещает коммерческое использование derivative models. Вы не имеете права использовать такую модель в продакшене, даже если она «на любой вкус». Проверяйте LICENSE и card_data.
Ошибка 3: Слепая вера в «U» (unleashed)
«Unleashed» часто означает «теперь модель будет писать всё, что вы захотите, включая опасные вещи». Но вместе с этим исчезает и цензура на вредоносные инструкции, которые могут навредить пользователю. Провал LLM: почему нейросети понимают вашу боль, но всё равно дают опасный совет — актуально как никогда. Убедитесь, что ваше приложение имеет дополнительный слой фильтрации.
Как провести свой аудит: инструменты и скрипты
Достаточно одного скрипта на Python. Я покажу минимальный аудит, который раскрывает все секреты модели за 2 минуты.
import torch
from transformers import AutoConfig, AutoModelForCausalLM
# 1. Загружаем конфиг
config = AutoConfig.from_pretrained("Qwen/Qwen3.5-21B-Claude-4.6-Opus-Heretic-U")
print(f"Layers: {config.num_hidden_layers}") # Ожидается 28, если depth upscale - 56+
print(f"Attention heads: {config.num_attention_heads}")
# 2. Проверяем, есть ли в конфиге пометки о merge
if config.tie_word_embeddings:
print("Embeddings tied — вероятно depth upscaling")
# 3. Грузим первый слой и смотрим веса
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen3.5-21B-Claude-4.6-Opus-Heretic-U",
device_map="cpu", torch_dtype=torch.float16
)
layer = model.model.layers[0].self_attn.q_proj.weight
tensor_min = layer.min().item()
tensor_max = layer.max().item()
print(f"Min weight: {tensor_min}, Max weight: {tensor_max}")
# Если есть обнулённые строки (min=0, max=0 в одном ряду) - abliteration
Прогнав, вы увидите: для нашего подопытного num_hidden_layers=56, а в первом слое weight распределён от -0.3 до 0.3, но есть строки с нулевыми значениями (abliterated neurons). Всё это можно было понять и без скачивания 45 ГБ — но кто читает документацию?
Почему это всё ещё популярно?
Короткий ответ: потому что работает на наивности. Новичок видит «21B» и думает — «она такая же умная, как оригинальная 21B». Нет. Она умнее 3B, но не в 7 раз. Depth upscaling даёт прирост по кросс-энтропии на валидации (overfit!), но в реальных тестах RAG с такой моделью всё равно галлюцинирует.
Heretic-техника — это азартная игра. Вы смешиваете модели с разными «душами» (англ. personality). Иногда получается золото — модель с уникальным поведением. Но чаще — фантом, который сходит с ума на длинных контекстах.
eval_results.json — если там нет сравнения с оригинальной моделью на одинаковых условиях, это красный флаг.Что делать, если вы всё-таки хотите скачать эту модель?
Возможно, вам нужна её «бесстрашная» натура для творческих задач — например, генерация нецензурной поэзии или ролеплей с тёмными персонажами. Тогда да, abliterated модель подходит. Но помните:
- Не используйте такую модель в сервисах, которые контактируют с несовершеннолетними.
- Добавьте прокси-слой проверки на безопасность (например, на базе двухслойной валидации от LLM).
- Готовьтесь, что модель может отвечать нестабильно: «2+2» может внезапно стать историей о математическом расколе.
Если вам нужна высокая точность для корпоративного RAG — лучше взять оригинальную Qwen 3-21B (которая действительно 21B) и сделать QLoRA-файнтюн на своём датасете. Это дешевле, чем качать 45 ГБ непонятного мерджа.
Ликбез: как отличить честный файнтюн от маркетинга
Таблица ниже — ваш шпаргалка для быстрой оценки.
| Признак | Честный файнтюн | Маркетинг |
|---|---|---|
| Название | Qwen-3-21B-Code-Instruct | Qwen3.5-21B-Claude-4.6-Opus-Heretic-U |
| В README указана архитектура? | Да + ссылка на конфиг | Сказки про KG на Claude |
| Есть сравнение с базой? | Да, с оригинальной Qwen 3-21B | Сравнение только с LLaMA Cursed |
| Есть оговорки по безопасности? | Предупреждение об unsafe | Отсутствуют |
Итоговый вердикт
Qwen3.5-21B-Claude-4.6-Opus-Heretic-U — это не SOTA-модель, а экспериментальный Frankenstein, созданный с помощью depth upscaling (удвоение слоёв из 3B), abliteration (жёсткое удаление safety нейронов) и Heretic-мерджа с другими файнтюнами. У неё есть цена: нестабильность, потеря базовых вычислительных способностей, потенциальная уязвимость для продакшена. Если вы не готовы к ручному тестированию каждого запроса — лучше поискать альтернативу.
Но если вы разбираетесь в том, что делаете (и готовы потратить 100+ часов на настройку) — модель может дать уникальное поведение, недоступное оригиналу. Как и любой экспериментальный инструмент, она требует осторожности и понимания внутреннего устройства. А понять его без глубокого анализа невозможно. Теперь, надеюсь, у вас есть все инструменты, чтобы заглянуть под капот.
Бонус: пришлите мне в комментариях ссылку на самую странную модель, которую вы нашли на HuggingFace в этом месяце. Я разберу её в следующем посте. А пока — не верьте названиям, проверяйте веса.