Локальные LLM для юристов: запуск на ноутбуке с 24GB VRAM. Гайд по конфиденциальности | AiManual
AiManual Logo Ai / Manual.
10 Янв 2026 Гайд

Бросьте ChatGPT: запускаем локальные LLM на ноутбуке с 24GB VRAM. Гайд для юристов, которые не хотят сливать клиентские тайны

Пошаговый гайд по запуску локальных языковых моделей на ноутбуке с 24GB VRAM для юристов, финансистов, врачей. Конфиденциальность, автоматизация документов, ана

Вы юрист. Или финансовый аналитик. Или врач. У вас на столе лежит договор на 50 страниц, переписка с клиентом и судебная практика по похожему делу. Вам нужно: подготовить правовую позицию, выявить риски, написать ответ на претензию. И все это вчера.

ChatGPT? Забудьте. Отправлять конфиденциальные документы в облако OpenAI — это профессиональное самоубийство. Клиентские тайны, персональные данные, коммерческая информация — все это уплывает на сервера в США. А потом всплывает в обучающих данных следующей модели. Или утекает через баг.

Но у вас есть ноутбук. Не сервер, не ферма из видеокарт, а обычный рабочий ноутбук. Только с одной особенностью: 24GB видеопамяти (GDDR7) и 128GB оперативной. Например, что-то на базе Intel Core Ultra 9 с дискретной графикой. Этого достаточно, чтобы запустить локальную языковую модель, которая не уступает GPT-3.5, но работает полностью на вашем устройстве. Никаких облаков. Никаких утечек.

Миф, который нужно убить сразу: «Локальные LLM — это для гиков, которые готовы неделями копаться в консоли». Неправда. Сегодня это делается за 15 минут через графические интерфейсы. Если вы умеете устанавливать программы — справитесь.

Почему именно 24GB VRAM — это магический порог

Видеопамять — главный ресурс для LLM. Модель загружается именно туда. Чем больше VRAM, тем больше модель вы можете запустить без компромиссов в скорости.

Объем VRAM Что можно запустить Скорость (токенов/сек) Качество для юриспруденции
8-12GB Модели 7B параметров (маленькие) 20-40 Слабо. Пропускает нюансы, плохо с логикой.
16GB Модели 13B-20B в 4-битном формате 15-25 Приемлемо. Справится с простым анализом.
24GB Модели 34B-70B в 4-битном формате 10-20 Отлично. Понимает контекст, строит сложные цепочки рассуждений.

24GB — это тот самый объем, где начинается игра в другую лигу. Вы перестаете думать «вот бы модель поместилась» и начинаете выбирать модели по качеству, а не по размеру. Для сравнения, в нашей статье про 10 ГБ VRAM мы говорили о компромиссах. Здесь компромиссов почти нет.

128GB оперативной памяти — это не для модели. Это для вас. Чтобы загрузить в контекст весь договор (100+ страниц), судебную практику (еще 200 страниц) и переписку сторон. И все это одновременно. Модель будет видеть полную картину.

Выбор модели: какая LLM думает как юрист

Не все модели одинаковы. Одни хороши в кодексах, другие — в стихах. Вам нужна модель с сильным логическим reasoning (рассуждением) и пониманием длинных контекстов.

Забудьте про параметры. 70 миллиардов — не значит «умнее». Архитектура важнее. Вот что реально работает на 24GB VRAM:

  • Qwen2.5-32B-Instruct — текущий фаворит. Китайская модель, но с блестящим английским и русским. Понимает юридические тонкости, умеет строить таблицы сравнений. В 4-битном формате (Q4_K_M) занимает ~20GB VRAM.
  • Llama 3.1 70B — монстр. Но только в 3-битном или сильно квантованном 4-битном формате. На 24GB влезет, но будет работать на грани. Качество — топовое, особенно для анализа на английском.
  • DeepSeek-R1-Distill-Llama-70B — специализированная модель для reasoning. Обучена не просто генерировать текст, а рассуждать шаг за шагом. Идеально для выявления противоречий в договорах.
  • GLM-4-9B — если нужна скорость, а не максимальное качество. В 4-битном формате ~5GB VRAM, будет летать. Подойдет для первичного анализа и черновиков.
💡
Начинайте с Qwen2.5-32B. Это оптимальный баланс между качеством, размером и поддержкой русского языка. Скачивайте сразу в формате GGUF (для Ollama) или GPTQ (для текстовых интерфейсов). Ищите на Hugging Face теги Q4_K_M или Q4_K_S.

Инструменты: не консоль, а нормальные программы

Вам не нужен Python, Docker или командная строка (хотя они дают больше контроля). Есть два пути:

1 LM Studio — как ChatGPT, но локально

Скачиваете с сайта lmstudio.ai, устанавливаете как любую программу. Интерфейс — почти один в один с ChatGPT. Встроенный магазин моделей (скачивает с Hugging Face автоматически). Ползунки для настройки температуры, top_p. Вкладка для загрузки документов (PDF, DOCX, TXT).

Как работает: загружаете договор PDF, задаете вопрос «Какие риски для арендодателя в пунктах 4.1-4.5?», модель отвещает, цитируя фрагменты документа.

Минус LM Studio: иногда «съедает» всю видеопамять под собственные нужды, и для большой модели места не хватает. Если модель не загружается — перезапустите программу и загружайте модель сразу, не открывая лишних вкладок чата.

2 Ollama + Open WebUI — для тех, кто хочет доступ с телефона

Более продвинутая, но и более гибкая схема.

  1. Устанавливаете Ollama (ollama.com). Это фоновая служба.
  2. В командной строке (да, один раз придется) пишете:
    ollama pull qwen2.5:32b
    Скачает и подготовит модель.
  3. Устанавливаете Open WebUI — веб-интерфейс, как у ChatGPT. Есть установщик для Windows.
  4. Открываете браузер на localhost:8080, выбираете модель — работаете.

Плюс: к Ollama можно подключиться с iPad или другого компьютера в локальной сети. Или написать скрипт на Python, который автоматически анализирует папку с новыми договорами. Подробнее про построение такой локальной инфраструктуры я писал в статье про домашнюю LLM-инфраструктуру.

Настройка для максимальной эффективности: ползунки, которые меняют все

Загрузили модель, а она несет чушь или повторяется? Это настройки генерации. Юристам нужна точность, а не креативность.

Параметр Что делает Значение для юриста
Temperature «Температура» случайности. Чем выше, тем креативнее (и бредовее) ответы. 0.1 - 0.3. Практически детерминированные ответы.
Top P Ограничивает выбор слов только самыми вероятными. 0.9 - 0.95. Баланс между точностью и гибкостью.
Context Length Длина контекста (в токенах). Один токен ≈ 3/4 слова. Выставляйте максимум, что поддерживает модель (часто 32k, 128k). Чем больше, тем больше документов загрузите.

Самая частая ошибка новичков — оставить temperature на 0.7 (значение по умолчанию). Модель начинает выдумывать несуществующие пункты договора или статьи закона. С temperature 0.1 она будет придерживаться фактов из предоставленного текста.

Конкретные рабочие задачи: с чего начать прямо сейчас

Не нужно пытаться заменить себя AI. Начните с рутинного, что отнимает время и силы.

  • Анализ типовых договоров. Загрузите шаблон договора аренды. Запрос: «Составь таблицу с тремя колонками: пункт договора, риски для арендатора, риски для арендодателя». Модель выдаст структурированный анализ за 30 секунд.
  • Сравнение версий. Загрузите старую и новую редакцию документа. Запрос: «Найди все смысловые различия между двумя документами, сгруппируй по значимости (критические, существенные, технические)».
  • Подготовка Q&A для клиента. Загрузите сложный договор. Запрос: «Сгенерируй 10 самых вероятных вопросов, которые задаст клиент по этому документу, и дай краткие ответы на каждый».
  • Резюме длинных документов. Судебное решение на 40 страниц? Запрос: «Выдели основную правовую позицию суда, ключевые доказательства и итоговый вывод. Не более 500 слов».
💡
Пишите промпты как инструкции коллеге-стажеру. Конкретно, с примерами. Вместо «проанализируй договор» пишите «Найди в документе все упоминания штрафных санкций, выпиши их условия (событие, срок, размер) и оцени, являются ли они кабальными согласно практике ВС РФ».

Ошибки, которые сломают ваш workflow

Я видел, как люди разочаровывались в локальных LLM из-за этих промахов.

  1. Скачивать модели в неправильном формате. Для LM Studio и Ollama нужен формат GGUF. Если скачаете оригинал модели в формате PyTorch (.bin), ничего не запустится. Всегда проверяйте расширение файла.
  2. Забывать про системный промпт. В настройках модели есть поле «System Prompt». Туда нужно вписать: «Ты — опытный юрист-аналитик. Твои ответы должны быть точными, основанными только на предоставленных документах. Избегай предположений. Если информации недостаточно — так и скажи». Это задает роль.
  3. Держать открытыми Chrome с 50 вкладками. 24GB VRAM — много, но не бесконечно. Фоновые приложения, особенно браузеры с аппаратным ускорением, могут «откусить» 2-4GB. Перед работой с большой моделью закройте все лишнее.
  4. Ждать, что модель знает законы. Локальная модель не подключена к интернету и не знает свежих изменений в ГК РФ. Ее знания ограничены датой ее обучения (обычно на несколько месяцев отстают). Всегда проверяйте ее утверждения по первичным источникам.

Больше ловушек и способов их обойти — в нашем практическом гайде по ошибкам.

Что дальше? Fine-tuning на ваших документах

Стандартная модель — это хорошо. Но модель, дообученная на вашей внутренней библиотеке договоров, судебных актов и меморандумов — это оружие массового поражения.

С 128GB RAM и 24GB VRAM вы можете провести LoRA fine-tuning модели 7B-13B параметров. Это не переобучение с нуля, а добавление небольшого адаптера, который «подстраивает» модель под ваш стиль и терминологию.

Процесс технически сложнее, но суть в том, что после 4-8 часов обучения на тысяче ваших документов, модель начнет генерировать пункты договоров в вашей фирменной стилистике, использовать правильные внутренние сокращения и ссылаться на ваши типовые формулировки.

Если эта тема вызовет интерес — напишу отдельный гайд по fine-tuning для не-программистов. (Подсказка: сейчас для этого есть инструменты с графическим интерфейсом, вроде Unsloth).

Итог. Ваш ноутбук с 24GB VRAM — это не просто рабочий инструмент. Это персональный AI-ассистент, который не болтает о ваших делах на стороне. Потратьте два часа сегодня на установку и настройку — сэкономите десятки часов завтра. Начните с LM Studio и модели Qwen2.5-32B. Загрузите вчерашний договор. Задайте конкретный вопрос. Увидите разницу сразу.

А когда привыкнете и захотите больше скорости или запускать несколько моделей параллельно — вот тогда можно будет посмотреть в сторону сборки отдельной станции, как в гайде про систему за $15 000. Но это уже совсем другая история.