Контрастивный ковектор: новый метод удаления refusal из LLM | AiManual
AiManual Logo Ai / Manual.
22 Июн 2026 Инструмент

Контрастивный ковектор: хирургический скальпель для refusal-направления в LLM, который не калечит модель

Математический оператор ablation для точного удаления отказов LLM без нарушения полезного поведения. Сравнение с Apostate, Heretic, Refusal Steering. Примеры и

Реклама
cliv2

Кто тут у нас? Опять режут отказы

Если ты читал хоть одну статью про удаление цензуры из языковых моделей за последние полгода, то уже видел это: Apostate рубит слои топором, Heretic вырезает нейроны скальпелем, а Refusal Steering подкручивает steering векторы вручную. Все они работают — до определённого момента. Проблема в том, что после такой операции модель либо начинает тупить на обычных запросах, либо отказы возвращаются при малейшем изменении контекста. А иногда и то, и другое сразу.

И вот появляется новый игрок — контрастивный ковектор. Звучит как термин из квантовой физики, но на деле это элегантная математическая штуковина, которая вырезает refusal-направление с точностью лазера, не задевая соседние семантические области. Давай разбираться, что под капотом.

Подписаться на канал