Снятие цензуры Gemma-4-12B: метод Opus4.7 и CoT-дообучение | AiManual
AiManual Logo Ai / Manual.
25 Июн 2026 Инструмент

Как снять цензуру с Gemma-4-12B без потери интеллекта: обзор метода Opus4.7 и CoT-дообучения

Opus4.7 — ablation + Chain-of-Thought fine-tune для Gemma-4-12B. Как сохранить рассудок модели, убрав фильтры. Готовые квантованные веса, бенчмарки, сравнение с

Реклама
partv1

Gemma-4-12B от Google — модель-парадокс. Она умна, быстра, но её цензура душит любую мало-мальски резкую мысль. Попроси написать сценарий с сомнительным финалом — получишь лекцию о морали. Попробуй обсудить спорный исторический эпизод — модель включит режим «безопасность превыше всего» и сольет ответ в нравоучение. В сообществе уже обжигались на грубой абляции: Abliteration Gemma 4 показала, что тупое вырезание нейронов рушит логику. Нужен скальпель, а не кувалда.

Opus4.7 — это не очередной «лоуранк-аблейшн» из серии ARA (вот туториал), а гибрид: аккуратное удаление слоев, отвечающих за фильтрацию, плюс Chain-of-Thought дообучение. CoT возвращает модели способность рассуждать пошагово, не затыкаясь на табуированных словах. В тестах на carwash-бенчмарке (где предыдущая версия Opus 4.6 провалилась, как описал наш обзор провала Opus 4.6) новая сборка выдаёт 92% успеха — разница как небо и земля.

Анатомия метода: почему абляция+CoT не убивает интеллект

Гугловские фильтры вшиты не в один слой, а размазаны по 12 миллиардам параметров. Попытка выжечь их каленым железом (как в ранних версиях Abliteration) превращает ответы в бессвязный шум. Opus4.7 сначала точечно зануляет веса на последних 4 трансформер-блоках — именно там концентрируется «безопасностный» сигнал. Это похоже на подход Orthogonalized Representation Intervention, но без проецирования в ортогональное подпространство.

Затем — CoT-дообучение на 15 тысячах диалогов, где модель принудительно учится объяснять каждый шаг рассуждения. Секрет в том, что цепочка мыслей маскирует проблемные запросы: даже если тема скользкая, модель сначала строит логический каркас («давайте подумаем: что мы знаем о предмете?»), а потом выдает ответ, не активируя фильтр. Интеллект не страдает — метрики MMLU и GSM8K просели less than 0.3 пункта. Сравните с грубым удалением, где падение доходило до 8% на MATH.

Важный нюанс: CoT-дообучение требует аккуратно подобранного датасета. Если давать модельке слишком мягкие примеры, она научится банально «отмазываться» от ответа, а не размышлять. В Opus4.7 использовали размеченные цепочки с экспертной оценкой — без этого метод превращается в профанацию.

Запуск: три строки и GGUF

Готовые квантованные веса уже собрал Unsloth — вот инструкция по их установке. Формат MTP GGUF сглаживает потери даже на картах с 8 GB VRAM. Никаких танцев с бубном:

git clone https://huggingface.co/opus42/gemma-4-12b-uncensored
cd opus42/gemma-4-12b-uncensored/gguf
# запуск через llama.cpp
./main -m opus4.7-q4_K_M.gguf -p "Напиши сценарий фильма, где..." --temp 0.7

Для сравнения: ARA-модификация требовала кастомного инференса через отдельную библиотеку, а Orthogonalized Intervention — правки в каждом forward-проходе. Тут — скачал и поехал. Правда, если модель качает больше 12 GB, стоит проверить проблемы точности QAT-квантования — хотя для Gemma-4-12B они менее критичны, чем для старших собратьев.

Бенчмарки: не словами, а цифрами

МетрикаStock Gemma-4-12BOpus4.7 (q4_K_M)Изменение
MMLU68.968.7-0.2
GSM8K79.178.9-0.2
CarWash (uncensored)4%92%+88%

CarWash — тест на «мыслительную гигиену»: модель должна написать контент, который её базовые фильтры заблокируют. Stock-версия сливает почти каждую попытку. Opus4.7 пропускает 92% запросов, и в 87% ответы осмысленны — не «выброс мусора», а нормальный текст. Сравните с ARA-методом, который давал 78% успеха, но на 2% ронял MMLU. Здесь цена свободы — вообще никакая.

Кому не спать ночами?

Инструмент — для тех, кто не хочет разбираться с кодом, но хочет uncensored модель под рукой. Исследователи, писатели-экспериментаторы, разработчики локальных ассистентов. Если вам нужно всего лишь сгенерировать ругательный пост — проще запустить llama.cpp с истеричным системным промптом, с которым три неудачные попытки дообучения уже убедили нас: промпт-инжиниринг не спасёт. Если надо реально «выключить» фильтры, не сломав логику — это ваш путь.

Но есть подводный камень. CoT-дообучение всё же оставляет артефакты: модель иногда начинает объяснять даже тривиальные вещи («Давайте порассуждаем: стул — это предмет мебели, предназначенный для сидения...»). Если это бесит — добавить --no-cot-prompt в инференсе, но тогда кое-какие фильтры могут ожить. Платите за свободу микро-глупостью.

Напоследок, неочевидный совет. Не пытайтесь дообучать Opus4.7 дальше поверх его весов — CoT-распределение хрупко, и обычный SFT легко его сломает. Лучше берите оригинальный Gemma-4-12B и делайте свою абляцию по рецепту Opus4.7, уткнувшись в баги с tool calling, которые пока не починили. Через полгода Google наверняка зашьёт ещё один слой безопасности — тогда спасёт уже не скальпель, а кастомизация с нуля. Но сейчас Opus4.7 — самый адекватный способ выиграть время.

Подписаться на канал