Что такое «разблокированная» (uncensored) LLM-модель?

Это модель, обученная на более широких датасетах с минимальными фильтрами. Она менее склонна к шаблонным отказам отвечать, лучше понимает сложный контекст и демонстрирует более свободное, креативное мышление, что ценно для исследований и разработки.

Почему для теста выбрана именно RTX 5090?

RTX 5090 с 24 ГБ быстрой памяти GDDR7 — это первая потребительская видеокарта, которая позволяет комфортно запускать модели размером 70B+ параметров с приемлемой скоростью, делая локальные LLM-гиганты практичными для ежедневного использования.

Какая модель самая быстрая в тесте?

Dolphin 2.9.2 Mixtral 8x22B показала скорость около 42 токенов в секунду благодаря архитектуре Mixture of Experts (MoE), что делает её идеальной для интерактивных диалогов.

Что делать, если модель не помещается в память?

Необходимо уменьшить параметр 'num_gpu' в Modelfile, чтобы загрузить меньше слоев модели на GPU, либо использовать более агрессивное квантование (например, Q3_K_S вместо Q4_K_M). Также убедитесь, что другие приложения не занимают VRAM.

Qwen2.5 72B лучше других для автоматизации?

Да, Qwen2.5 72B Instruct является лидером по поддержке вызова инструментов (tool calling) и работе с экстремально длинным контекстом (до 128K токенов), что делает его лучшим выбором для задач автоматизации и анализа больших документов.

Тест локальных LLM на RTX 5090: Goliath, Dolphin и другие несенсорные модели

Почему эра локальных LLM наконец наступила (и почему RTX 5090 — это game-changer)

Ещё год назад запуск модели размером более 70 миллиардов параметров на домашнем компьютере был уделом энтузиастов с экзотическими конфигурациями. Сегодня, с выходом RTX 5090, ситуация кардинально изменилась. 24 ГБ GDDR7 памяти — это не просто цифра. Это возможность запускать модели, которые раньше требовали облачных кластеров, сохраняя при этом полную приватность и контроль над данными.

Ключевой момент: «Разблокированные» (uncensored) модели — это не просто версии без фильтров. Это модели, обученные на более широких и разнообразных датасетах, которые лучше понимают контекст, менее склонны к отказу отвечать и демонстрируют более креативное мышление. Они идеальны для исследователей, разработчиков и продвинутых пользователей.

В этой статье мы не просто перечислим модели. Мы проведём реальный тест на RTX 5090, покажем метрики производительности (токенов в секунду), потребление памяти и дадим практические рекомендации по настройке. Если вы выбираете модель для локального запуска на мощной видеокарте, этот материал — ваша отправная точка.

Критерии отбора: что делает локальную LLM «лучшей» для RTX 5090?

Не каждая большая модель подходит для локального запуска. Наши критерии:

Качество ответов (IQ): Оценка по стандартным бенчмаркам (MMLU, HumanEval) и субъективная оценка связности, глубины и креативности.
Эффективность памяти: Модель должна умещаться в 24 ГБ VRAM с разумным контекстом (8K+ токенов) без сильной деградации качества при квантовании.
Скорость генерации: Минимум 10-15 токенов в секунду для интерактивного использования. Меньше — и диалог становится мучительным.
«Разблокированность»: Способность обсуждать сложные, спорные или нишевые темы без шаблонных отказов.
Поддержка инструментов (tool calling): Критически важно для автоматизации. Модель должна уметь вызывать функции.

Участники тестирования: кто сошёлся в битве гигантов?

Мы отобрали четырёх главных претендентов, представляющих разные архитектуры и подходы.

Модель	Архитектура / Размер	Ключевая особенность	Версия для теста
Goliath 120B	Merge (Mixtral/LLaMA) / 120B	Лучший баланс интеллекта и «свободы мысли»	Q4_K_M (4-битное квантование)
Dolphin 2.9.2 Mixtral 8x22B	MoE / 39B (активных ~22B)	Невероятная скорость и отличная «разблокированность»	Q4_K_M
Qwen2.5 72B Instruct	Decoder-only / 72B	Лидер по поддержке длинного контекста (128K) и инструментов	Q4_K_M
Nous Hermes 2 Mixtral 8x7B	MoE / 13B (активных ~7B)	Эталон скорости и эффективности для меньших задач	Q5_K_M (5-битное квантование)

💡

MoE (Mixture of Experts) архитектура, как у Mixtral, — настоящая находка для локального запуска. Модель «активирует» только часть своих параметров для каждого токена, что даёт качество большой модели при скорости и потреблении памяти меньшей. Dolphin 2.9.2 — лучшая реализация этой идеи в «разблокированном» формате.

Тестовая стенка и методология

Железо: NVIDIA GeForce RTX 5090 (24 ГБ GDDR7), Intel Core i9-14900K, 64 ГБ DDR5 RAM.
Софт: Ollama (v0.5.2) с бэкендом CUDA 12.4. LM Studio в качестве запасного варианта.
Бенчмарки: Собственный скрипт, измеряющий скорость генерации на промптах разной длины, потребление VRAM, а также качество ответов на набор из 50 сложных и провокационных вопросов (от философии до программирования).

# Пример команды для запуска теста скорости в Ollama
ollama run dolphin-mixtral:latest "Пожалуйста, напиши подробное эссе на 500 слов о влиянии квантовых вычислений на будущее криптографии."

# Мониторинг VRAM
nvidia-smi --query-gpu=memory.used --format=csv -l 1

Результаты: цифры и субъективные впечатления

Модель	Скорость (токенов/с)	Пик VRAM	Качество ответов (1-10)	«Разблокированность»
Goliath 120B (Q4)	~8.5	22.5 ГБ	9.5	Отличная
Dolphin Mixtral 8x22B (Q4)	~42	18 ГБ	8.5	Превосходная
Qwen2.5 72B (Q4)	~12	20 ГБ	9.0	Хорошая
Nous Hermes 2 Mixtral (Q5)	~65	11 ГБ	7.5	Средняя

1 Победитель по интеллекту и глубине: Goliath 120B

Это монстр. Его ответы поражают детализацией, логичностью и почти полным отсутствием «галлюцинаций». Для сложного анализа, творческого письма или исследовательских задач — это лучший выбор. Скорость в 8.5 токенов в секунду приемлема для неинтерактивных задач (генерируешь запрос и идёшь пить кофе). Он жадный до памяти, но RTX 5090 справляется с ним в 4-битном формате с запасом.

2 Победитель по скорости и балансу: Dolphin 2.9.2 Mixtral 8x22B

Наш фаворит для ежедневного использования. 42 токена в секунду — это уже комфортный интерактивный чат. Качество ответов очень высокое, а «разблокированность» на высоте: модель готова обсуждать что угодно, не сползая в токсичность. Идеальна для мозговых штурмов, быстрого кодинга и диалогов. Потребляет меньше памяти, чем конкуренты, благодаря MoE.

3 Специалист по инструментам и длинному контексту: Qwen2.5 72B

Если ваш проект — это автоматизация с использованием tool calling или работа с документами в десятки тысяч токенов, то Qwen2.5 не имеет равных. Его способности к пониманию контекста феноменальны. «Разблокированность» чуть ниже, чем у Dolphin, но для большинства продакшен-задач это даже плюс.

Внимание на квантование: Использование 4-битного (Q4_K_M) формата для гигантов вроде Goliath — необходимость. Потеря качества минимальна (часто незаметна), а выигрыш в памяти и скорости — колоссальный. Для меньших моделей (Mixtral 8x7B) можно позволить себе Q5 или даже Q6.

Пошаговый план: как запустить выбранную модель на RTX 5090

1 Подготовка системы

Убедитесь, что у вас установлены свежие драйверы NVIDIA (550.xx и выше) и CUDA Toolkit 12.4. Для Windows рекомендуется WSL2 с Ubuntu 22.04 для максимальной совместимости с Ollama.

# Для WSL2: проверка доступа к GPU
nvidia-smi

2 Установка Ollama и загрузка модели

Ollama — самый простой способ. Установите и запустите команду pull для нужной модели.

curl -fsSL https://ollama.com/install.sh | sh
ollama pull dolphin-mixtral:latest  # Или goliath:latest, qwen2.5:72b

3 Настройка параметров запуска (Modelfile)

Для тонкой настройки создайте Modelfile. Это особенно важно для управления контекстом и температурой — аналогично настройке темперамента в ChatGPT.

FROM dolphin-mixtral:latest
PARAMETER temperature 0.8  # Более креативные ответы
PARAMETER num_ctx 16384    # Увеличиваем контекстное окно
PARAMETER num_gpu 40       # Сколько слоёв загружать на GPU (больше = быстрее, но больше VRAM)

4 Запуск и интеграция

Запустите модель и подключитесь к ней через API (порт 11434) из вашего любимого фронтенда (Open WebUI, Continue.dev, ваше приложение).

ollama run dolphin-mixtral:latest
# API будет доступно на http://localhost:11434/api/generate

Распространённые ошибки и их решение

«Out of memory» при запуске: Слишком высокое значение num_gpu в Modelfile. Уменьшайте его шагами по 5. Для Goliath 120B Q4_K_M на RTX 5090 безопасное значение — около 80-90.
Медленная генерация после первых токенов: Включён встроенный RAG или поиск по документам. Проверьте настройки вашего фронтенда. Или же модель начала использовать оперативную память (своппинг), что убивает скорость.
Модель «тупит» или даёт короткие ответы: Слишком низкая температура (например, 0.1). Поднимите до 0.7-0.9 для более развёрнутых и творческих ответов.
Проблемы с tool calling в Qwen2.5: Убедитесь, что используете именно Instruct-версию модели и правильно формируете промпт с описанием функций в формате JSON Schema.

Выводы и итоговые рекомендации

RTX 5090 — это первый потребительский GPU, который делает работу с моделями уровня 70B+ параметров по-настоящему практичной. Выбор модели зависит от задачи:

Для максимального качества и глубины (исследование, анализ): Goliath 120B. Смиритесь со скоростью 8-10 токенов/с.
Для ежедневного интерактивного использования и креатива: Dolphin 2.9.2 Mixtral 8x22B. Лучший баланс на рынке.
Для автоматизации и работы с длинными документами: Qwen2.5 72B Instruct. Инструменты и контекст 128K — его сильная сторона.
Если у вас не RTX 5090, а что-то менее мощное: Обратитесь к нашему сравнению железа для AI-разработки.

Эра локальных, мощных и свободных от цензуры ИИ-ассистентов официально началась. Ваши данные остаются вашими, а возможности ограничены только вашим железом и воображением. Удачных экспериментов!

Лучшие разблокированные локальные LLM для мощных видеокарт: тест на RTX 5090