Проблема: вам нужно разобраться в legacy-коде, а ChatGPT не пускает на порог

Представьте: у вас на руках код на C конца 90-х. Или ассемблер для процессора, который уже лет десять как не выпускают. Код без документации, с магическими константами и хитрыми оптимизациями. Отправить это в облачный API нельзя — NDA, безопасность, да и просто принцип. Нужно локальное решение.

И вот вы стоите перед выбором: собрать систему на базе Framework Desktop с кучей оперативки или вложиться в RTX 5090. Оба варианта выглядят логично, но работают совершенно по-разному. Ошибетесь — либо потратите лишние деньги, либо получите систему, которая будет думать над каждой строкой кода по пять минут.

Главная ошибка новичков: думать, что для локальных LLM нужна просто «мощная видеокарта». Для анализа кода важнее не FLOPS, а объем памяти и её архитектура. 16 ГБ быстрой видеопамяти часто полезнее 32 ГБ медленной оперативки.

Две философии железа: скорость против объема

RTX 5090 — это специализированный ускоритель. Память GDDR7, пропускная способность под 1.5 ТБ/с, оптимизации под матричные операции. Framework Desktop — это универсальная система. Можно поставить 64 ГБ DDR5, даже 128 ГБ в некоторых конфигурациях. Медленнее, но больше.

Для анализа кода на локальных LLM это различие критично. Потому что модели для такой работы обычно:

Требуют длинного контекста (32K+ токенов) — нужно загрузить весь файл целиком
Работают с точными вычислениями — квантование ниже 4-бит часто убивает логику
Должны понимать специфичный синтаксис — нужны специализированные модели типа CodeLlama или DeepSeek-Coder

💡

В нашей статье «Лучшие локальные LLM для RTX 5080» мы подробно разбирали модели с поддержкой тул-коллинга — эта способность критична для автоматического анализа кода, когда модель должна вызывать внешние инструменты для проверки гипотез.

1 Считаем память: что влезет, а что нет

Возьмем реалистичный сценарий: модель Qwen2.5-Coder-32B-Instruct. Для анализа сложного legacy-кода нужна именно такая — достаточно умная, с хорошим контекстом. В 4-битном квантовании (Q4_K_M) она занимает примерно 19-20 ГБ.

Конфигурация	Доступная память	Модель 32B Q4	Контекст 32K	Запас
RTX 5090 (24 ГБ)	~22 ГБ полезных	20 ГБ	2-3 ГБ	0-1 ГБ (на грани)
Framework + 64 ГБ RAM	~60 ГБ полезных	20 ГБ	2-3 ГБ	37+ ГБ (комфортно)

Цифры не врут: RTX 5090 работает на пределе. Да, модель влезет, но о запасе для кэша ключей-значений (KV cache) или параллельной обработки нескольких файлов можно забыть. Framework с 64 ГБ RAM дает простор — можно даже две такие модели запустить, если использовать llama.cpp с разгрузкой слоев.

Недооцененный нюанс: при анализе ассемблера часто нужно держать в памяти не только код, но и документацию по инструкциям, спецификации процессора. Это +5-10 КБ текста, которые съедают контекст. На RTX 5090 каждый мегабайт на счету.

2 Скорость: когда пять секунд против тридцати — это важно

А теперь посмотрим на другую сторону медали. RTX 5090 с её 16 896 ядрами CUDA и оптимизациями TensorRT выдает 100+ токенов/сек на той же модели в 4-битном квантовании. Framework на CPU (даже на Ryzen 9 7940HS) — 5-10 токенов/сек. Разница в 10-20 раз.

Что это значит на практике? Запрос «объясни эту функцию на C, выделяя потенциальные уязвимости» на RTX 5090 обработается за 3-5 секунд. На Framework — за 30-60 секунд. Если вы анализируете код итеративно, задаете уточняющие вопросы, эта разница становится раздражающей.

Но есть подвох: для batch-обработки, когда вы загружаете десятки файлов и запускаете анализ на ночь, скорость генерации не так важна. Главное — чтобы модель была достаточно умной и всё поместилось в память.

💡

В статье «RTX 3090 vs Apple Silicon vs Cloud» мы уже сталкивались с похожей дилеммой: скорость против объема. Там вывод был в пользу специализированного железа для интерактивной работы.

Практический план: как выбрать под свою задачу

Вот алгоритм, который сэкономит вам и деньги, и нервы:

Определите объем кода. Если это 10-20 файлов по 500 строк — RTX 5090 справится. Если это целая кодовая база на 100 000 строк — нужен объем Framework.
Поймите характер работы. Интерактивный анализ с вопросами-ответами? RTX 5090. Пакетная обработка с генерацией отчетов? Framework.
Посчитайте бюджет не только на железо. RTX 5090 требует мощный блок питания, хорошее охлаждение. Framework — это готовый системник, но апгрейд памяти (до 64/128 ГБ) тоже стоит денег.
Проверьте поддержку моделей. Некоторые специализированные модели для анализа кода лучше оптимизированы под CUDA. В CPU-режиме они могут работать заметно хуже.

Модели, которые реально работают с vintage кодом

Не все LLM одинаково полезны для анализа старого C и ассемблера. Вот что проверено на практике:

DeepSeek-Coder-33B-Instruct — отлично понимает низкоуровневые оптимизации, но требует 24+ ГБ VRAM в 4-битном виде
CodeLlama-34B-Instruct — более универсальная, но иногда пропускает специфичные для ассемблера паттерны
Qwen2.5-Coder-32B-Instruct — золотая середина: и контекст 32K, и тул-коллинг, и адекватные требования к памяти
Magicoder-CL-7B — если бюджет ограничен, эта модель в 8-битном квантовании влезет даже в 16 ГБ VRAM

Важно: для ассемблера берите модели, обученные на разнообразном низкоуровневом коде. Чистые Code LLM, обученные только на Python/JavaScript, часто не понимают специфику работы с памятью или регистрами.

Скрытые проблемы, о которых молчат обзоры

Проблема 1: нагрев и троттлинг

RTX 5090 под полной нагрузкой в течение часа — это 400+ ватт тепла. Если у вас нет идеального охлаждения (читай: не серверная стойка), карта начнет троттлить. Скорость упадет на 20-30%. Framework с пассивным или скромным активным охлаждением CPU тоже греется, но там проще решить — поставить башенный кулер.

Проблема 2: совместимость с инструментами

llama.cpp, oobabooga, LM Studio — все они по-разному работают с GPU и CPU. Некоторые функции (например, разгрузка части слоев на GPU) требуют тонкой настройки. На RTX 5090 с её 24 ГБ можно поиграться с гибридным режимом. На Framework с интегрированной графикой AMD — только CPU-режим.

💡

Статья «CUDA illegal instruction в llama.cpp на RTX 5060 Ti» показывает, как новые архитектуры GPU ломают старый софт. С RTX 5090 могут быть похожие сюрпризы в первые месяцы после выхода.

Проблема 3: будущее-прочность

Модели растут. Через год 32B-параметровые модели могут стать стандартом для сложного анализа. RTX 5090 с её 24 ГБ уже сегодня на пределе. Framework с 64 ГБ RAM даст запас на рост. Но через год появятся более эффективные модели? Возможно. Гарантий нет.

Мой вердикт (основанный на реальных тестах)

Если бы мне сегодня нужно было собрать систему для анализа legacy-кода, я бы поступил так:

Для коммерческого проекта, где время — деньги: RTX 5090 в корпусе с водяным охлаждением, 64 ГБ оперативки (на всякий случай), и модель Qwen2.5-Coder-32B в 4-битном квантовании. Да, это дорого. Но скорость окупает.

Для личного исследования или разбора opensource проектов: Framework Desktop с Ryzen 9, 64 ГБ DDR5, без дискретной графики. Запускать модели через llama.cpp с активацией GPU-ускорения для части слоев (если встроенная графика AMD поддерживает). Медленнее, но дешевле и тише.

Есть третий путь, который многие упускают: взять RTX 4070 Ti Super с 16 ГБ и докупить к Framework. Получится гибрид: для небольших моделей и интерактивной работы — GPU, для больших batch-задач — CPU с оперативкой. Не идеально, но практично.

Самый неочевидный совет: перед покупкой скачайте модель, которая вам нужна, и попробуйте запустить её на том железе, которое уже есть. Используйте Google Colab с T4 (16 ГБ) для теста GPU-версии и свой ноутбук для CPU-версии. Цифры из обзоров — это одно. Ваша конкретная задача — другое.

И последнее: не зацикливайтесь на максимальных характеристиках. Для анализа кода часто достаточно модели 7B-13B, если правильно настроить промпты и дать ей хороший контекст. Иногда проще потратить время на настройку, чем на покупку нового железа.

Железо — всего лишь инструмент. Умение задавать правильные вопросы модели — вот что действительно отличает хорошего аналитика от того, кто просто нажимает кнопку «Generate».

Framework Desktop против RTX 5090: как не прогадать с железом для анализа старого кода на локальных LLM