Почему эра локальных LLM наконец наступила (и почему RTX 5090 — это game-changer)
Ещё год назад запуск модели размером более 70 миллиардов параметров на домашнем компьютере был уделом энтузиастов с экзотическими конфигурациями. Сегодня, с выходом RTX 5090, ситуация кардинально изменилась. 24 ГБ GDDR7 памяти — это не просто цифра. Это возможность запускать модели, которые раньше требовали облачных кластеров, сохраняя при этом полную приватность и контроль над данными.
Ключевой момент: «Разблокированные» (uncensored) модели — это не просто версии без фильтров. Это модели, обученные на более широких и разнообразных датасетах, которые лучше понимают контекст, менее склонны к отказу отвечать и демонстрируют более креативное мышление. Они идеальны для исследователей, разработчиков и продвинутых пользователей.
В этой статье мы не просто перечислим модели. Мы проведём реальный тест на RTX 5090, покажем метрики производительности (токенов в секунду), потребление памяти и дадим практические рекомендации по настройке. Если вы выбираете модель для локального запуска на мощной видеокарте, этот материал — ваша отправная точка.
Критерии отбора: что делает локальную LLM «лучшей» для RTX 5090?
Не каждая большая модель подходит для локального запуска. Наши критерии:
- Качество ответов (IQ): Оценка по стандартным бенчмаркам (MMLU, HumanEval) и субъективная оценка связности, глубины и креативности.
- Эффективность памяти: Модель должна умещаться в 24 ГБ VRAM с разумным контекстом (8K+ токенов) без сильной деградации качества при квантовании.
- Скорость генерации: Минимум 10-15 токенов в секунду для интерактивного использования. Меньше — и диалог становится мучительным.
- «Разблокированность»: Способность обсуждать сложные, спорные или нишевые темы без шаблонных отказов.
- Поддержка инструментов (tool calling): Критически важно для автоматизации. Модель должна уметь вызывать функции.
Участники тестирования: кто сошёлся в битве гигантов?
Мы отобрали четырёх главных претендентов, представляющих разные архитектуры и подходы.
| Модель | Архитектура / Размер | Ключевая особенность | Версия для теста |
|---|---|---|---|
| Goliath 120B | Merge (Mixtral/LLaMA) / 120B | Лучший баланс интеллекта и «свободы мысли» | Q4_K_M (4-битное квантование) |
| Dolphin 2.9.2 Mixtral 8x22B | MoE / 39B (активных ~22B) | Невероятная скорость и отличная «разблокированность» | Q4_K_M |
| Qwen2.5 72B Instruct | Decoder-only / 72B | Лидер по поддержке длинного контекста (128K) и инструментов | Q4_K_M |
| Nous Hermes 2 Mixtral 8x7B | MoE / 13B (активных ~7B) | Эталон скорости и эффективности для меньших задач | Q5_K_M (5-битное квантование) |
Тестовая стенка и методология
Железо: NVIDIA GeForce RTX 5090 (24 ГБ GDDR7), Intel Core i9-14900K, 64 ГБ DDR5 RAM.
Софт: Ollama (v0.5.2) с бэкендом CUDA 12.4. LM Studio в качестве запасного варианта.
Бенчмарки: Собственный скрипт, измеряющий скорость генерации на промптах разной длины, потребление VRAM, а также качество ответов на набор из 50 сложных и провокационных вопросов (от философии до программирования).
# Пример команды для запуска теста скорости в Ollama
ollama run dolphin-mixtral:latest "Пожалуйста, напиши подробное эссе на 500 слов о влиянии квантовых вычислений на будущее криптографии."
# Мониторинг VRAM
nvidia-smi --query-gpu=memory.used --format=csv -l 1
Результаты: цифры и субъективные впечатления
| Модель | Скорость (токенов/с) | Пик VRAM | Качество ответов (1-10) | «Разблокированность» |
|---|---|---|---|---|
| Goliath 120B (Q4) | ~8.5 | 22.5 ГБ | 9.5 | Отличная |
| Dolphin Mixtral 8x22B (Q4) | ~42 | 18 ГБ | 8.5 | Превосходная |
| Qwen2.5 72B (Q4) | ~12 | 20 ГБ | 9.0 | Хорошая |
| Nous Hermes 2 Mixtral (Q5) | ~65 | 11 ГБ | 7.5 | Средняя |
1 Победитель по интеллекту и глубине: Goliath 120B
Это монстр. Его ответы поражают детализацией, логичностью и почти полным отсутствием «галлюцинаций». Для сложного анализа, творческого письма или исследовательских задач — это лучший выбор. Скорость в 8.5 токенов в секунду приемлема для неинтерактивных задач (генерируешь запрос и идёшь пить кофе). Он жадный до памяти, но RTX 5090 справляется с ним в 4-битном формате с запасом.
2 Победитель по скорости и балансу: Dolphin 2.9.2 Mixtral 8x22B
Наш фаворит для ежедневного использования. 42 токена в секунду — это уже комфортный интерактивный чат. Качество ответов очень высокое, а «разблокированность» на высоте: модель готова обсуждать что угодно, не сползая в токсичность. Идеальна для мозговых штурмов, быстрого кодинга и диалогов. Потребляет меньше памяти, чем конкуренты, благодаря MoE.
3 Специалист по инструментам и длинному контексту: Qwen2.5 72B
Если ваш проект — это автоматизация с использованием tool calling или работа с документами в десятки тысяч токенов, то Qwen2.5 не имеет равных. Его способности к пониманию контекста феноменальны. «Разблокированность» чуть ниже, чем у Dolphin, но для большинства продакшен-задач это даже плюс.
Внимание на квантование: Использование 4-битного (Q4_K_M) формата для гигантов вроде Goliath — необходимость. Потеря качества минимальна (часто незаметна), а выигрыш в памяти и скорости — колоссальный. Для меньших моделей (Mixtral 8x7B) можно позволить себе Q5 или даже Q6.
Пошаговый план: как запустить выбранную модель на RTX 5090
1 Подготовка системы
Убедитесь, что у вас установлены свежие драйверы NVIDIA (550.xx и выше) и CUDA Toolkit 12.4. Для Windows рекомендуется WSL2 с Ubuntu 22.04 для максимальной совместимости с Ollama.
# Для WSL2: проверка доступа к GPU
nvidia-smi
2 Установка Ollama и загрузка модели
Ollama — самый простой способ. Установите и запустите команду pull для нужной модели.
curl -fsSL https://ollama.com/install.sh | sh
ollama pull dolphin-mixtral:latest # Или goliath:latest, qwen2.5:72b
3 Настройка параметров запуска (Modelfile)
Для тонкой настройки создайте Modelfile. Это особенно важно для управления контекстом и температурой — аналогично настройке темперамента в ChatGPT.
FROM dolphin-mixtral:latest
PARAMETER temperature 0.8 # Более креативные ответы
PARAMETER num_ctx 16384 # Увеличиваем контекстное окно
PARAMETER num_gpu 40 # Сколько слоёв загружать на GPU (больше = быстрее, но больше VRAM)
4 Запуск и интеграция
Запустите модель и подключитесь к ней через API (порт 11434) из вашего любимого фронтенда (Open WebUI, Continue.dev, ваше приложение).
ollama run dolphin-mixtral:latest
# API будет доступно на http://localhost:11434/api/generate
Распространённые ошибки и их решение
- «Out of memory» при запуске: Слишком высокое значение
num_gpuв Modelfile. Уменьшайте его шагами по 5. Для Goliath 120B Q4_K_M на RTX 5090 безопасное значение — около 80-90. - Медленная генерация после первых токенов: Включён встроенный RAG или поиск по документам. Проверьте настройки вашего фронтенда. Или же модель начала использовать оперативную память (своппинг), что убивает скорость.
- Модель «тупит» или даёт короткие ответы: Слишком низкая температура (например, 0.1). Поднимите до 0.7-0.9 для более развёрнутых и творческих ответов.
- Проблемы с tool calling в Qwen2.5: Убедитесь, что используете именно Instruct-версию модели и правильно формируете промпт с описанием функций в формате JSON Schema.
Выводы и итоговые рекомендации
RTX 5090 — это первый потребительский GPU, который делает работу с моделями уровня 70B+ параметров по-настоящему практичной. Выбор модели зависит от задачи:
- Для максимального качества и глубины (исследование, анализ): Goliath 120B. Смиритесь со скоростью 8-10 токенов/с.
- Для ежедневного интерактивного использования и креатива: Dolphin 2.9.2 Mixtral 8x22B. Лучший баланс на рынке.
- Для автоматизации и работы с длинными документами: Qwen2.5 72B Instruct. Инструменты и контекст 128K — его сильная сторона.
- Если у вас не RTX 5090, а что-то менее мощное: Обратитесь к нашему сравнению железа для AI-разработки.
Эра локальных, мощных и свободных от цензуры ИИ-ассистентов официально началась. Ваши данные остаются вашими, а возможности ограничены только вашим железом и воображением. Удачных экспериментов!