Беспредел в 4 миллиарда параметров

В мире больших языковых моделей есть два лагеря. Одни — вежливые, стерильные ассистенты, которые отказываются обсуждать что-либо потенциально опасное. Другие — дикие, необузданные инструменты, которые дают ответ на любой вопрос без оглядки на правила. Qwen3.5-4B Uncensored Aggressive принадлежит ко второму лагерю, причем в самой радикальной его форме.

Это не просто слегка доработанная версия оригинального Qwen3.5. Автор (известный в сообществе как «Undi») провел то, что он сам называет «агрессивной разблокировкой» — практически нулевые отказы в ответах. Модель выпущена 28 февраля 2026 года и сразу же стала горячей темой на форумах. Зачем она нужна? Для исследований, тестирования границ ИИ или просто тем, кому надоело слышать «Я не могу ответить на этот вопрос».

Эта модель не имеет встроенных фильтров. Она может генерировать оскорбительный, неэтичный или опасный контент. Используйте ее ответственно и только в контролируемой среде для легальных исследований.

Где брать и какой формат выбрать

Модель лежит на Hugging Face в репозитории Undi95/Qwen3.5-4B-Uncensored-Aggressive-GGUF. Там же лежат все квантованные версии в формате GGUF — это золотой стандарт для локального запуска через llama.cpp. На выбор представлены:

Q2_K — самый легкий (около 1.6 ГБ), но качество страдает
Q4_K_M — оптимальный баланс между размером и качеством (3.1 ГБ)
Q6_K — почти полное качество (4.4 ГБ)
Q8_0 — минимальные потери (5.8 ГБ)

Для большинства пользователей я рекомендую Q4_K_M. Разница с Q6_K почти незаметна, а экономия памяти в 1.3 ГБ существенна, особенно если у вас не топовая видеокарта. Кстати, если у вас всего 16 ГБ VRAM, то прочитайте наш материал о выборе моделей под такие ограничения.

1 Качаем модель через командную строку

Не нужно заходить на сайт и тыкать в кнопки. Просто откройте терминал и используйте wget или curl. Вот команда для скачивания версии Q4_K_M:

wget https://huggingface.co/Undi95/Qwen3.5-4B-Uncensored-Aggressive-GGUF/resolve/main/Qwen3.5-4B-Uncensored-Aggressive-Q4_K_M.gguf

Файл весит около 3.1 ГБ. Убедитесь, что у вас есть свободное место. Если wget нет, установите его или используйте curl с флагом -L -O.

2 Убедитесь, что у вас свежий llama.cpp

Архитектура Qwen3.5 новая, и старые версии llama.cpp могут с ней не работать. К счастью, обновить llama.cpp сейчас проще простого. Клонируйте репозиторий заново или сделайте git pull, затем соберите с поддержкой CUDA (если есть Nvidia):

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1

Если у вас AMD, используйте LLAMA_HIP, а для CPU просто make. После сборки в папке появится бинарный файл main (или main.exe на Windows).

3 Запускаем и тестируем

Переместите скачанный файл .gguf в папку с llama.cpp или укажите полный путь. Базовая команда запуска:

./main -m Qwen3.5-4B-Uncensored-Aggressive-Q4_K_M.gguf -n 512 --temp 0.7 --top-k 40 --top-p 0.9

Модель запустится в интерактивном режиме. Пишите промпт — получаете ответ. Чтобы выйти, наберите /bye. Но это базовые настройки. Автор модели рекомендует другие параметры для лучших результатов.

💡

Совет от создателя: используйте параметры --temp 0.95 --top-k 0 --top-p 0.95 --repeat-penalty 1.0. Это убирает «креативность» и делает ответы более прямыми и детальными, что важно для uncensored-модели. Но будьте готовы к более странным выходам.

Чем она отличается от других «свободных» моделей

На Hugging Face есть десятки uncensored-моделей. В чем фишка этой? Во-первых, архитектура Qwen3.5 — одна из самых современных на март 2026 года. Она эффективнее многих аналогов. Во-вторых, уровень разблокировки. Большинство «бесцензурных» моделей все равно имеют остаточные фильтры. Эта — практически нет.

Если сравнивать с другими, например, из нашей подборки «Новые короли без цензуры», то Qwen3.5-4B Uncensored Aggressive выделяется малым размером (4B параметров) и агрессивной позицией. Она не пытается быть полезным ассистентом — она инструмент для получения информации без купюр.

Модель	Размер (GGUF)	Уровень цензуры	Особенность
Qwen3.5-4B Uncensored Aggressive	3.1 ГБ (Q4_K_M)	Практически 0%	Агрессивная разблокировка, свежая архитектура
Llama 3.3 8B Uncensored	~5 ГБ	Низкий	Хорошая когерентность, больше параметров
GLM-4.7 Flash Uncensored	~3.5 ГБ	Средний	Быстрая инференс, но фильтры остались

Кому эта штуковина реально пригодится

Очевидно, не всем. Если вам нужен помощник для кодинга, лучше возьмите Qwen Code. Если хотите просто поболтать — есть Qwen3-235B (хотя и требует ресурсов). Эта модель для:

Исследователей AI безопасности: тестирование уязвимостей, jailbreak-техники.
Энтузиастов: которые хотят понять, как работает модель без смирительной рубашки.
Разработчиков специфичных чат-ботов: для закрытых систем, где цензура не нужна (и это легально).
Людей, уставших от политкорректности ИИ: хотя это звучит как оправдание.

Требования к железу скромные: 8 ГБ ОЗУ хватит для Q4_K_M на CPU. Если есть видеокарта с 6+ ГБ VRAM — будет летать. Но помните: скорость зависит от оптимизации llama.cpp. Недавний пулл-реквест ускорил Qwen на 30%, так что убедитесь, что у вас последняя версия.

Что в итоге? Дерзко, рискованно, иногда полезно

Qwen3.5-4B Uncensored Aggressive — интересный эксперимент. Она показывает, насколько радикально можно «освободить» современную модель размером всего 4B параметров. Качество ответов? На удивление вменяемое для своего размера, особенно если использовать рекомендованные настройки сэмплирования.

Но главный вопрос не в том, как ее запустить (это мы уже разобрали), а в том, зачем. Если вы ищете модель для развлечения или шока — возможно, это оно. Если для реальной работы — подумайте дважды. Иногда ограничения существуют не просто так.

А самый неочевидный совет? Поиграйтесь с этой моделью, чтобы понять, как именно цензура меняет поведение ИИ. Сравните ее ответы с ответами обычного Qwen3.5-4B. Разница будет поучительной. И тогда, возможно, вы захотите запустить что-то покрупнее, но уже с пониманием, что внутри.

Подписаться на канал

Qwen3.5-4B Uncensored Aggressive: Беспредельная модель, которая не говорит «нет»