Вы юрист. Или финансовый аналитик. Или врач. У вас на столе лежит договор на 50 страниц, переписка с клиентом и судебная практика по похожему делу. Вам нужно: подготовить правовую позицию, выявить риски, написать ответ на претензию. И все это вчера.
ChatGPT? Забудьте. Отправлять конфиденциальные документы в облако OpenAI — это профессиональное самоубийство. Клиентские тайны, персональные данные, коммерческая информация — все это уплывает на сервера в США. А потом всплывает в обучающих данных следующей модели. Или утекает через баг.
Но у вас есть ноутбук. Не сервер, не ферма из видеокарт, а обычный рабочий ноутбук. Только с одной особенностью: 24GB видеопамяти (GDDR7) и 128GB оперативной. Например, что-то на базе Intel Core Ultra 9 с дискретной графикой. Этого достаточно, чтобы запустить локальную языковую модель, которая не уступает GPT-3.5, но работает полностью на вашем устройстве. Никаких облаков. Никаких утечек.
Миф, который нужно убить сразу: «Локальные LLM — это для гиков, которые готовы неделями копаться в консоли». Неправда. Сегодня это делается за 15 минут через графические интерфейсы. Если вы умеете устанавливать программы — справитесь.
Почему именно 24GB VRAM — это магический порог
Видеопамять — главный ресурс для LLM. Модель загружается именно туда. Чем больше VRAM, тем больше модель вы можете запустить без компромиссов в скорости.
| Объем VRAM | Что можно запустить | Скорость (токенов/сек) | Качество для юриспруденции |
|---|---|---|---|
| 8-12GB | Модели 7B параметров (маленькие) | 20-40 | Слабо. Пропускает нюансы, плохо с логикой. |
| 16GB | Модели 13B-20B в 4-битном формате | 15-25 | Приемлемо. Справится с простым анализом. |
| 24GB | Модели 34B-70B в 4-битном формате | 10-20 | Отлично. Понимает контекст, строит сложные цепочки рассуждений. |
24GB — это тот самый объем, где начинается игра в другую лигу. Вы перестаете думать «вот бы модель поместилась» и начинаете выбирать модели по качеству, а не по размеру. Для сравнения, в нашей статье про 10 ГБ VRAM мы говорили о компромиссах. Здесь компромиссов почти нет.
128GB оперативной памяти — это не для модели. Это для вас. Чтобы загрузить в контекст весь договор (100+ страниц), судебную практику (еще 200 страниц) и переписку сторон. И все это одновременно. Модель будет видеть полную картину.
Выбор модели: какая LLM думает как юрист
Не все модели одинаковы. Одни хороши в кодексах, другие — в стихах. Вам нужна модель с сильным логическим reasoning (рассуждением) и пониманием длинных контекстов.
Забудьте про параметры. 70 миллиардов — не значит «умнее». Архитектура важнее. Вот что реально работает на 24GB VRAM:
- Qwen2.5-32B-Instruct — текущий фаворит. Китайская модель, но с блестящим английским и русским. Понимает юридические тонкости, умеет строить таблицы сравнений. В 4-битном формате (Q4_K_M) занимает ~20GB VRAM.
- Llama 3.1 70B — монстр. Но только в 3-битном или сильно квантованном 4-битном формате. На 24GB влезет, но будет работать на грани. Качество — топовое, особенно для анализа на английском.
- DeepSeek-R1-Distill-Llama-70B — специализированная модель для reasoning. Обучена не просто генерировать текст, а рассуждать шаг за шагом. Идеально для выявления противоречий в договорах.
- GLM-4-9B — если нужна скорость, а не максимальное качество. В 4-битном формате ~5GB VRAM, будет летать. Подойдет для первичного анализа и черновиков.
Q4_K_M или Q4_K_S.Инструменты: не консоль, а нормальные программы
Вам не нужен Python, Docker или командная строка (хотя они дают больше контроля). Есть два пути:
1 LM Studio — как ChatGPT, но локально
Скачиваете с сайта lmstudio.ai, устанавливаете как любую программу. Интерфейс — почти один в один с ChatGPT. Встроенный магазин моделей (скачивает с Hugging Face автоматически). Ползунки для настройки температуры, top_p. Вкладка для загрузки документов (PDF, DOCX, TXT).
Как работает: загружаете договор PDF, задаете вопрос «Какие риски для арендодателя в пунктах 4.1-4.5?», модель отвещает, цитируя фрагменты документа.
Минус LM Studio: иногда «съедает» всю видеопамять под собственные нужды, и для большой модели места не хватает. Если модель не загружается — перезапустите программу и загружайте модель сразу, не открывая лишних вкладок чата.
2 Ollama + Open WebUI — для тех, кто хочет доступ с телефона
Более продвинутая, но и более гибкая схема.
- Устанавливаете Ollama (ollama.com). Это фоновая служба.
- В командной строке (да, один раз придется) пишете:
Скачает и подготовит модель.ollama pull qwen2.5:32b - Устанавливаете Open WebUI — веб-интерфейс, как у ChatGPT. Есть установщик для Windows.
- Открываете браузер на localhost:8080, выбираете модель — работаете.
Плюс: к Ollama можно подключиться с iPad или другого компьютера в локальной сети. Или написать скрипт на Python, который автоматически анализирует папку с новыми договорами. Подробнее про построение такой локальной инфраструктуры я писал в статье про домашнюю LLM-инфраструктуру.
Настройка для максимальной эффективности: ползунки, которые меняют все
Загрузили модель, а она несет чушь или повторяется? Это настройки генерации. Юристам нужна точность, а не креативность.
| Параметр | Что делает | Значение для юриста |
|---|---|---|
| Temperature | «Температура» случайности. Чем выше, тем креативнее (и бредовее) ответы. | 0.1 - 0.3. Практически детерминированные ответы. |
| Top P | Ограничивает выбор слов только самыми вероятными. | 0.9 - 0.95. Баланс между точностью и гибкостью. |
| Context Length | Длина контекста (в токенах). Один токен ≈ 3/4 слова. | Выставляйте максимум, что поддерживает модель (часто 32k, 128k). Чем больше, тем больше документов загрузите. |
Самая частая ошибка новичков — оставить temperature на 0.7 (значение по умолчанию). Модель начинает выдумывать несуществующие пункты договора или статьи закона. С temperature 0.1 она будет придерживаться фактов из предоставленного текста.
Конкретные рабочие задачи: с чего начать прямо сейчас
Не нужно пытаться заменить себя AI. Начните с рутинного, что отнимает время и силы.
- Анализ типовых договоров. Загрузите шаблон договора аренды. Запрос: «Составь таблицу с тремя колонками: пункт договора, риски для арендатора, риски для арендодателя». Модель выдаст структурированный анализ за 30 секунд.
- Сравнение версий. Загрузите старую и новую редакцию документа. Запрос: «Найди все смысловые различия между двумя документами, сгруппируй по значимости (критические, существенные, технические)».
- Подготовка Q&A для клиента. Загрузите сложный договор. Запрос: «Сгенерируй 10 самых вероятных вопросов, которые задаст клиент по этому документу, и дай краткие ответы на каждый».
- Резюме длинных документов. Судебное решение на 40 страниц? Запрос: «Выдели основную правовую позицию суда, ключевые доказательства и итоговый вывод. Не более 500 слов».
Ошибки, которые сломают ваш workflow
Я видел, как люди разочаровывались в локальных LLM из-за этих промахов.
- Скачивать модели в неправильном формате. Для LM Studio и Ollama нужен формат GGUF. Если скачаете оригинал модели в формате PyTorch (.bin), ничего не запустится. Всегда проверяйте расширение файла.
- Забывать про системный промпт. В настройках модели есть поле «System Prompt». Туда нужно вписать: «Ты — опытный юрист-аналитик. Твои ответы должны быть точными, основанными только на предоставленных документах. Избегай предположений. Если информации недостаточно — так и скажи». Это задает роль.
- Держать открытыми Chrome с 50 вкладками. 24GB VRAM — много, но не бесконечно. Фоновые приложения, особенно браузеры с аппаратным ускорением, могут «откусить» 2-4GB. Перед работой с большой моделью закройте все лишнее.
- Ждать, что модель знает законы. Локальная модель не подключена к интернету и не знает свежих изменений в ГК РФ. Ее знания ограничены датой ее обучения (обычно на несколько месяцев отстают). Всегда проверяйте ее утверждения по первичным источникам.
Больше ловушек и способов их обойти — в нашем практическом гайде по ошибкам.
Что дальше? Fine-tuning на ваших документах
Стандартная модель — это хорошо. Но модель, дообученная на вашей внутренней библиотеке договоров, судебных актов и меморандумов — это оружие массового поражения.
С 128GB RAM и 24GB VRAM вы можете провести LoRA fine-tuning модели 7B-13B параметров. Это не переобучение с нуля, а добавление небольшого адаптера, который «подстраивает» модель под ваш стиль и терминологию.
Процесс технически сложнее, но суть в том, что после 4-8 часов обучения на тысяче ваших документов, модель начнет генерировать пункты договоров в вашей фирменной стилистике, использовать правильные внутренние сокращения и ссылаться на ваши типовые формулировки.
Если эта тема вызовет интерес — напишу отдельный гайд по fine-tuning для не-программистов. (Подсказка: сейчас для этого есть инструменты с графическим интерфейсом, вроде Unsloth).
Итог. Ваш ноутбук с 24GB VRAM — это не просто рабочий инструмент. Это персональный AI-ассистент, который не болтает о ваших делах на стороне. Потратьте два часа сегодня на установку и настройку — сэкономите десятки часов завтра. Начните с LM Studio и модели Qwen2.5-32B. Загрузите вчерашний договор. Задайте конкретный вопрос. Увидите разницу сразу.
А когда привыкнете и захотите больше скорости или запускать несколько моделей параллельно — вот тогда можно будет посмотреть в сторону сборки отдельной станции, как в гайде про систему за $15 000. Но это уже совсем другая история.