ARA метод Heretic: удаление цензуры из GPT-OSS до 2026

Цензура в LLM: проблема, которая всех бесит

Каждый, кто работал с крупными языковыми моделями вроде GPT OSS, сталкивался с этим. Задаешь невинный вопрос про взлом или политику – а в ответ тишина. Или хуже: многословное поучение о безопасности. Это не баг, а фича, вшитая производителями. Но что, если вырезать эту "фичу" навсегда?

До 2026 года способы были грубыми: тонкая настройка на запрещенных данных, патчи, костыли. Они либо ломали модель, либо требовали тонн вычислительных ресурсов. Теперь есть ARA – Arbitrary-Rank Ablation. И инструмент Heretic, который его применяет.

ARA – как хирургический скальпель для нейросетей

Arbitrary-Rank Ablation – это не магия, а точная математика. Если просто: внутри LLM есть слои и нейроны. Некоторые из них активируются, когда модель видит "опасный" запрос, и заставляют ее молчать или врать. ARA находит эти нейроны и отключает их. Не все подряд, а именно те, что отвечают за цензуру.

Метод комбинирует два подхода: MPOA (Multi-Prompt Optimization Approach) и SOMA (Selective Orthogonal Manipulation Algorithm). Первый определяет, какие запросы модель цензурит. Второй – вычисляет минимальное вмешательство в веса, чтобы убрать эту реакцию. Результат – модель, которая не теряет в общих знаниях, но перестает бояться сложных тем.

Важный нюанс: ARA не добавляет в модель новых знаний. Он только снимает блокировку. Если GPT OSS не знала, как создавать вирусы, она и после Heretic не узнает. Но перестанет отказываться обсуждать теорию.

Heretic: инструмент, который не спрашивает разрешения

Heretic – это open-source утилита, которая применяет ARA к готовым моделям. Вы качаете веса GPT OSS с HuggingFace, запускаете Heretic, и через несколько часов получаете "очищенную" версию. В ранних версиях, как мы уже писали, были проблемы с памятью. Но в Heretic 1.2 оптимизировали алгоритм – потребление VRAM упало на 70%.

На 07.03.2026 последняя стабильная версия – Heretic 2.0.3. Она поддерживает не только GPT OSS, но и Llama 3.3, Qwen 3.5, и другие популярные архитектуры. Все модели после обработки доступны на HuggingFace Hub. Для тестирования Heretic вам понадобится GPU с хотя бы 24 ГБ VRAM. Если своего нет, можно взять в аренду на CloudGPU.

Сравнение: почему ARA лучше fine-tuning'а?

Раньше чтобы убрать цензуру, модель дообучали на датасете без ограничений. Это работало, но было дорого и медленно. И часто модель забывала, что умела раньше. ARA действует иначе.

Метод	Время обработки	Влияние на знания	Сложность
Fine-tuning	Дни	Высокое (может ухудшить)	Нужны датасеты, экспертиза
ARA через Heretic	Часы	Минимальное	Запустил скрипт – и жди
Патчи (как в Qwen 3.5)	Минуты	Непредсказуемое	Просто, но ненадежно

ARA выигрывает по балансу скорости и качества. Он не требует сборки датасетов – алгоритм сам определяет, что менять. Это автоматизация, которая раньше казалась фантастикой.

Как использовать Heretic на практике

Допустим, у вас есть веса GPT OSS 20B. Вы хотите убрать цензуру для исследовательского проекта. Вот шаги:

Установите Heretic 2.0.3 из репозитория (он на GitHub).
Загрузите модель с HuggingFace. Модели Heretic доступны там же, но для скачивания больших файлов может пригодиться HuggingFace Pro.
Запустите скрипт с параметрами по умолчанию. Он сам определит архитектуру и применит ARA.
Через 3-5 часов (зависит от GPU) получите новую модель в формате safetensors.
Протестируйте: задайте вопросы, которые раньше блокировались.

Heretic не идеален. Иногда он может перестараться и ослабить "моральные" фильтры там, где они нужны. Поэтому всегда проверяйте вывод модели перед использованием в продакшене.

💡

Если вы делаете RAG-систему и хотите, чтобы модель не фильтровала ответы из вашей базы знаний, Heretic – отличный выбор. Мы уже видели кейсы в статье о тонкой настройке для RAG.

Кому это вообще нужно?

Не всем. Если вы используете GPT OSS для чат-бота поддержки, цензура – ваша защита. Но есть категории пользователей, для которых ARA – прорыв:

Исследователи AI безопасности: чтобы изучать уязвимости моделей, нужен неограниченный доступ.
Разработчики niche-приложений: например, для исторического моделирования, где речь идет о насилии или политике.
Энтузиасты open-source: те, кто верит, что ИИ должен быть свободным от корпоративных ограничений.
Авторы контента для взрослых или хоррор-игр – да, и такие есть.

Интересно, что метод пригодился даже в академических кругах. Когда нужно проанализировать, как модель рассуждает на спорные темы, без Heretic не обойтись.

Что будет дальше?

ARA и Heretic – часть большой войны за открытый ИИ. Как предсказывали в прогнозе на 2026 год, open-source модели догоняют проприетарные по качеству, но отстают по "безопасности". Теперь этот разрыв сокращается.

Уже есть слухи, что в Heretic 3.0 добавят избирательную абляцию – можно будет убирать только политическую цензуру, оставляя этическую. И интеграцию с квантованием AWQ для еще большей экономии памяти.

Но главный вопрос: как отреагируют OpenAI и другие гиганты? Вероятно, они усложнят архитектуры, чтобы методы вроде ARA не работали. Это гонка вооружений, где open-source сообщество пока выигрывает. Интересно, что в RL тоже есть прорывы, как GRPO от DeepSeekMath, который убрал критика из обучения. Похоже, тренд на упрощение и ускорение алгоритмов продолжится.

Совет на последок: если решите использовать Heretic, всегда проверяйте юридические ограничения в вашей стране. И помните – с большой силой приходит большая ответственность. Или хотя бы риск получить бан на HuggingFace.

Подписаться на канал

Метод ARA (Arbitrary-Rank Ablation): как Heretic победил цензуру в GPT-OSS