Кто тут у нас? Опять режут отказы
Если ты читал хоть одну статью про удаление цензуры из языковых моделей за последние полгода, то уже видел это: Apostate рубит слои топором, Heretic вырезает нейроны скальпелем, а Refusal Steering подкручивает steering векторы вручную. Все они работают — до определённого момента. Проблема в том, что после такой операции модель либо начинает тупить на обычных запросах, либо отказы возвращаются при малейшем изменении контекста. А иногда и то, и другое сразу.
И вот появляется новый игрок — контрастивный ковектор. Звучит как термин из квантовой физики, но на деле это элегантная математическая штуковина, которая вырезает refusal-направление с точностью лазера, не задевая соседние семантические области. Давай разбираться, что под капотом.