Вы залипли в бесконечные сравнения характеристик. RTX 3090 с ее 24 ГБ VRAM манит скоростью. Mac Studio с памятью до 192 ГБ обещает запустить любую модель. А облачные инстансы с A100 вроде бы решают все проблемы. Но кошелек не резиновый, и время — тоже. Как не прогадать?

Проблема не в том, что одна платформа лучше другой. Проблема в том, что ваш конкретный workflow убьет любые теоретические преимущества, если вы ошибетесь с выбором. Запуск Llama 3.1 405B на локальном железе? Забудьте. А вот для интерактивного чата с код-ассистентом 7B облако — это стрельба из пушки по воробьям.

Три мира, три идеологии

Перед тем как сравнивать цифры, поймите философию каждой платформы. Это не просто железо, это разные экосистемы со своими правилами игры.

RTX 3090: Король CUDA, но не всесильный

24 ГБ GDDR6X. 10496 ядер CUDA. Это старая, но грозная рабочая лошадка. Ее главный козырь — поддержка всего и сразу. Ollama, llama.cpp, текстовые поколения через ExLlamaV2, изображения в Stable Diffusion, видео в ComfyUI — все работает из коробки. CUDA — это де-факто стандарт.

Запомните: 24 ГБ VRAM — это не 24 ГБ оперативной памяти. Это быстрая память прямо на чипе. Но ее хватит только для моделей до ~13B параметров в полной точности (FP16). Для 70B моделей придется использовать квантование (4-bit, 5-bit), что снижает качество ответов. Если вам критична точность больших моделей, одной RTX 3090 мало.

Скорость? На модели Mistral 7B вы получите 50-80 токенов в секунду. Для интерактивного чата — отлично. Для батч-обработки тысяч документов — уже нет. И да, она греется как печка. Блок питания на 750W — обязателен.

Apple Silicon (M2/M3 Ultra): Единая память — панацея или ловушка?

Здесь все иначе. Нет отдельной видеопамяти. Есть единый пул памяти (Unified Memory), доступный и CPU, и GPU ядрам. 128 ГБ? 192 ГБ? Да, пожалуйста. Теоретически, вы можете загнать в память Llama 3 70B в FP16 и даже не вспотеть.

Но. Архитектура Metal, а не CUDA. Многие оптимизации под CUDA просто не перенесены. Фреймворк llama.cpp отлично работает через Metal, но такие вещи как ExLlamaV2 (который дает сумасшедшее ускорение на NVIDIA) — недоступны. Скорость инференса на больших моделях часто упирается не в память, а в пропускную способность этой самой памяти.

💡

Для детального разбора Mac под LLM загляните в наш гайд «Как выбрать Mac для локальных LLM». Там мы разбираем разницу между M1 Max, M2 Ultra и другими чипами.

Плюс Mac Studio — тишина и энергоэффективность. Минус — цена. Конфигурация с M2 Ultra и 192 ГБ памяти стоит как три RTX 3090. И вы не сможете ее апгрейдить. Никогда.

Облако (AWS, GCP, Lambda): Плати за то, что используешь. Или за простой?

Запустил инстанс с A100 80GB, обучил модель, выключил. Звучит идеально. На практике вы платите не только за время вычислений, но и за хранение дисков (EBS), за исходящий трафик, за менеджмент. Счет в $500 в месяц за неоптимизированный пайплайн — это реальность.

Главный враг облака для LLM — латентность. Запрос должен уйти в дата-центр, обработаться и вернуться. Для интерактивного чата добавленные 200-300 миллисекунд убивают всю магию «мгновенного» ответа. Для генерации видео, которое и так длится минуту, — не страшно.

Облако выигрывает в двух сценариях: 1) Вам нужны редкие и дорогие ресурсы (8x H100) на короткое время. 2) Ваша нагрузка непредсказуема, и вы хотите масштабироваться по требованию.

Ломаем выбор по косточкам: таблица не для галочки

Цифры из синтетических тестов врут. Смотрите на реальные задачи.

Задача / Критерий	RTX 3090 (24GB)	Apple Silicon (128GB Unified)	Облако (A100 80GB)
Инференс Llama 3.1 8B (токен/сек)	~90 (CUDA, ExLlamaV2)	~35 (Metal, llama.cpp)	~110 (но +200мс латентности)
Запуск Llama 3 70B (качество)	Только 4-bit квантование (потеря качества)	FP16, полное качество	FP16, полное качество
Stable Diffusion 3 (1024x1024)	5-7 секунд (оптимизированные движки)	10-15 секунд (через Diffusers)	3-5 секунд (но плата за каждую картинку)
Стоимость владения (год, пример)	~$2000 (покупка) + $100 (электричество)	~$5000 (покупка, макс. конфиг)	$2-4/час * время работы. Легко набежит $3000+
Главный недостаток	Мало VRAM для больших моделей	Низкая скорость на малых моделях	Латентность и непредсказуемый счет

Пошаговый план: как не выбросить деньги на ветер

1 Определите своего «киллера»

Спросите себя: какая одна задача будет занимать 80% времени железа? Не «хочу и то, и это», а что будет каждый день.

Интерактивный код-ассистент (7B-13B модель): Тут важна скорость отклика. RTX 3090 или даже RTX 4060 Ti 16GB справятся. Облако — слишком медленно из-за латентности. Mac — даст приемлемую скорость, но не максимальную.
Анализ больших документов RAG на 70B модели: Качество ответов критично, скорость обработки одного документа — не очень. Apple Silicon с гигабайтами памяти или облачный A100. RTX 3090 с квантованной моделью будет иногда глючить.
Генерация изображений для проекта: SD3, Flux. На RTX 3090 все работает идеально. На Mac многие оптимизации под Metal еще сырые. Облако — дорого, если генерируете тысячи изображений.
Эксперименты с разными моделями: Вам нужна гибкость. Тут выигрывает облако (запустил любой инстанс) или PC с NVIDIA, где поддержка ПО максимальна. Mac может не потянуть какую-нибудь экзотическую модель, скомпилированную только под CUDA.

2 Посчитайте полную стоимость владения на 2 года

Цена билета — это не только цена видеокарты или Mac.

Для RTX 3090 в PC: Карта ($900 б/у) + мощный БП ($150) + хорошее охлаждение ($100) + электричество (~$150 в год при активной работе). Итого за 2 года: ~$1600.

Для облака: Допустим, вы работаете 4 часа в день с инстансом за $3/час. 4ч * 22 дня * 12 месяцев * 2 года * $3 = ~$6300. И это если не забывать выключать.

Для Mac Studio M2 Ultra 128GB: ~$4000 один раз. Перепродажная стоимость через 2 года — высокая. Электричество — копейки.

3 Проверьте совместимость вашего ПО

Это самый обидный прокол. Вы купили железо, а ваш любимый фреймворк на нем тормозит или не работает.

Для RTX 3090: Почти все работает. Проверьте, хватит ли 24 ГБ для вашей конкретной задачи. Например, для генерации длинных видео в SVD может не хватить. Об этом мы писали в статье «Сравнение локальных AI-моделей для генерации изображений и видео».
Для Apple Silicon: Убедитесь, что нужные вам модели и задачи поддерживаются в llama.cpp через Metal. Генерация изображений через Stable Diffusion — работает, но через обертку (diffusers). Специализированные оптимизации вроде TensorRT — недоступны.
Для Облака: Проверьте наличие нужных инстансов в вашем регионе и их цену. Иногда A100 80GB распроданы, приходится брать дороже.

4 Протестируйте перед финальным решением

Не покупайте кота в мешке.

Облако: Создайте инстанс на час и запустите ваш пайплайн. Посмотрите на реальную скорость и латентность.
Mac: Сходите в магазин Apple или найдите знакомого с M2 Ultra. Попросите запустить вашу модель через llama.cpp.
RTX 3090: Спросите в комьюнити (или посмотрите наши тесты, например, в статье «RTX Pro 6000 vs. RTX 4090»). Производительность 3090 близка к 4090 в LLM, если не упираться в VRAM.

Где все ломается: нюансы, о которых молчат

Ошибка №1: Гнаться за памятью в ущерб всему. Купил Mac Studio на 192 ГБ, чтобы запускать 400B модели. А потом выяснил, что даже на 70B модели скорость генерации — 2 токена в секунду. И это при том, что модель в памяти. Ждать ответа 5 минут — бессмысленно. Память должна быть сбалансирована с пропускной способностью и вычислительной мощностью.

Ошибка №2: Не учитывать будущее. Купил RTX 3090. Через полгода вышли модели нового поколения, которые требуют 30+ ГБ VRAM даже в 4-bit. И ваша карта уже не тянет. С облаком такой проблемы нет — просто берете более мощный инстанс. С Mac — апгрейда нет, только продажа и покупка нового.

Ошибка №3: Игнорировать экосистему. Вы — инженер, который живет в терминале и Python. На Mac все привычно. Но если ваш коллега прислал вам Jupyter-ноутбук, заточенный под CUDA-расширения, придется переписывать код. Или платить за облачный GPU.

Вопросы, которые вы хотели задать, но боялись

Можно ли собрать систему с 2x RTX 3090 для 48 ГБ VRAM?

Технически — да. Практически — это ад. Не все фреймворки поддерживают multi-GPU для инференса без танцев. Потребление энергии — под 1000W. Нагрев — ужасный. Часто проще и дешевле взять одну RTX Pro 6000 на 48 ГБ, если уж нужна память. Или рассмотреть облако.

Правда ли, что на облаке можно запустить любую модель?

Нет. Вы ограничены тем, что предлагает провайдер. Хотите запустить кастомную модель с модифицированной архитектурой? Придется собирать свой Docker-образ, что может быть нетривиально. На своем железе вы имеете полный контроль.

Стоит ли ждать RTX 5090?

Если не горит — ждите. Ожидается 24-32 ГБ GDDR7 и значительный прирост производительности. Но цена будет высокой. Если нужно сейчас — RTX 3090 (б/у) или 4090 — отличный выбор. Только не забудьте про блок питания.

Mac подходит для fine-tuning моделей?

Для небольших моделей (до 7B) — да, через PyTorch с поддержкой Metal. Для больших — не хватит вычислительной мощности. Fine-tuning 70B модели — это задача для облака с несколькими H100 или для специализированного сервера.

Итог: неожиданный вердикт

Не покупайте железо «на будущее». Будущее в AI наступает слишком быстро. Покупайте под конкретную задачу, которая приносит деньги или экономит время прямо сейчас.

Самый разумный компромисс на 2025 год для многих — гибридная схема. Держите локально недорогую, но быструю систему на RTX 4060 Ti 16GB или RTX 3090 для ежедневных задач, интерактивной работы и экспериментов. А для редких, но ресурсоемких задач (обучение большой модели, обработка терабайта данных) — арендуйте облачный инстанс на несколько часов. Так вы платите за скорость, когда она нужна, и не платите за простой.

И да, перед покупкой Mac Studio на максималках — попробуйте поработать на нем неделю. Арендуйте или возьмите на тест. Возможно, вы поймете, что Metal и macOS — это не ваша история. Или наоборот, влюбитесь в тишину.

RTX 3090 vs Apple Silicon vs Cloud: полный гайд по выбору железа для локальных LLM и мультимедийных проектов