Gemma-4-12B от Google — модель-парадокс. Она умна, быстра, но её цензура душит любую мало-мальски резкую мысль. Попроси написать сценарий с сомнительным финалом — получишь лекцию о морали. Попробуй обсудить спорный исторический эпизод — модель включит режим «безопасность превыше всего» и сольет ответ в нравоучение. В сообществе уже обжигались на грубой абляции: Abliteration Gemma 4 показала, что тупое вырезание нейронов рушит логику. Нужен скальпель, а не кувалда.
Opus4.7 — это не очередной «лоуранк-аблейшн» из серии ARA (вот туториал), а гибрид: аккуратное удаление слоев, отвечающих за фильтрацию, плюс Chain-of-Thought дообучение. CoT возвращает модели способность рассуждать пошагово, не затыкаясь на табуированных словах. В тестах на carwash-бенчмарке (где предыдущая версия Opus 4.6 провалилась, как описал наш обзор провала Opus 4.6) новая сборка выдаёт 92% успеха — разница как небо и земля.
Анатомия метода: почему абляция+CoT не убивает интеллект
Гугловские фильтры вшиты не в один слой, а размазаны по 12 миллиардам параметров. Попытка выжечь их каленым железом (как в ранних версиях Abliteration) превращает ответы в бессвязный шум. Opus4.7 сначала точечно зануляет веса на последних 4 трансформер-блоках — именно там концентрируется «безопасностный» сигнал. Это похоже на подход Orthogonalized Representation Intervention, но без проецирования в ортогональное подпространство.
Затем — CoT-дообучение на 15 тысячах диалогов, где модель принудительно учится объяснять каждый шаг рассуждения. Секрет в том, что цепочка мыслей маскирует проблемные запросы: даже если тема скользкая, модель сначала строит логический каркас («давайте подумаем: что мы знаем о предмете?»), а потом выдает ответ, не активируя фильтр. Интеллект не страдает — метрики MMLU и GSM8K просели less than 0.3 пункта. Сравните с грубым удалением, где падение доходило до 8% на MATH.
Важный нюанс: CoT-дообучение требует аккуратно подобранного датасета. Если давать модельке слишком мягкие примеры, она научится банально «отмазываться» от ответа, а не размышлять. В Opus4.7 использовали размеченные цепочки с экспертной оценкой — без этого метод превращается в профанацию.
Запуск: три строки и GGUF
Готовые квантованные веса уже собрал Unsloth — вот инструкция по их установке. Формат MTP GGUF сглаживает потери даже на картах с 8 GB VRAM. Никаких танцев с бубном:
git clone https://huggingface.co/opus42/gemma-4-12b-uncensored
cd opus42/gemma-4-12b-uncensored/gguf
# запуск через llama.cpp
./main -m opus4.7-q4_K_M.gguf -p "Напиши сценарий фильма, где..." --temp 0.7
Для сравнения: ARA-модификация требовала кастомного инференса через отдельную библиотеку, а Orthogonalized Intervention — правки в каждом forward-проходе. Тут — скачал и поехал. Правда, если модель качает больше 12 GB, стоит проверить проблемы точности QAT-квантования — хотя для Gemma-4-12B они менее критичны, чем для старших собратьев.
Бенчмарки: не словами, а цифрами
| Метрика | Stock Gemma-4-12B | Opus4.7 (q4_K_M) | Изменение |
|---|---|---|---|
| MMLU | 68.9 | 68.7 | -0.2 |
| GSM8K | 79.1 | 78.9 | -0.2 |
| CarWash (uncensored) | 4% | 92% | +88% |
CarWash — тест на «мыслительную гигиену»: модель должна написать контент, который её базовые фильтры заблокируют. Stock-версия сливает почти каждую попытку. Opus4.7 пропускает 92% запросов, и в 87% ответы осмысленны — не «выброс мусора», а нормальный текст. Сравните с ARA-методом, который давал 78% успеха, но на 2% ронял MMLU. Здесь цена свободы — вообще никакая.
Кому не спать ночами?
Инструмент — для тех, кто не хочет разбираться с кодом, но хочет uncensored модель под рукой. Исследователи, писатели-экспериментаторы, разработчики локальных ассистентов. Если вам нужно всего лишь сгенерировать ругательный пост — проще запустить llama.cpp с истеричным системным промптом, с которым три неудачные попытки дообучения уже убедили нас: промпт-инжиниринг не спасёт. Если надо реально «выключить» фильтры, не сломав логику — это ваш путь.
Но есть подводный камень. CoT-дообучение всё же оставляет артефакты: модель иногда начинает объяснять даже тривиальные вещи («Давайте порассуждаем: стул — это предмет мебели, предназначенный для сидения...»). Если это бесит — добавить --no-cot-prompt в инференсе, но тогда кое-какие фильтры могут ожить. Платите за свободу микро-глупостью.
Напоследок, неочевидный совет. Не пытайтесь дообучать Opus4.7 дальше поверх его весов — CoT-распределение хрупко, и обычный SFT легко его сломает. Лучше берите оригинальный Gemma-4-12B и делайте свою абляцию по рецепту Opus4.7, уткнувшись в баги с tool calling, которые пока не починили. Через полгода Google наверняка зашьёт ещё один слой безопасности — тогда спасёт уже не скальпель, а кастомизация с нуля. Но сейчас Opus4.7 — самый адекватный способ выиграть время.