Тишина в офисе Anthropic
Вы открываете Claude. Ждете вдохновения. Получаете текст, который читается как инструкция к микроволновке. Снова.
Sonnet 3.7 умер. Не буквально, конечно. Но для творческих задач — да. Он стал осторожным, предсказуемым, скучным. Как бухгалтер, пытающийся писать романы.
Если ваши диалоги с Claude стали напоминать переписку с HR-отделом — поздравляю. Вы столкнулись с деградацией модели. Я писал об этом подробнее в статье про диагностику проблем Claude.
У вас Mac M2 Ultra с 192GB памяти. Вы не хотите платить за API. Не хотите отправлять тексты в облако. Хотите контроль. И 150GB свободного места — это не проблема.
Что остается? Локальные модели.
Три кандидата на похороны Sonnet
После недели тестов на том же железе (M2 Ultra, 192GB) я отобрал трех претендентов. Каждый со своим характером. И недостатками.
| Модель | Размер | Креативность | Скорость (токенов/сек) | Память (активная) |
|---|---|---|---|---|
| GLM 4.7 | 72B (Q4_K_M) | Высокая | 14-18 | ~45GB |
| GLM 4.5 Air | 32B (Q4_K_M) | Средняя | 28-35 | ~20GB |
| Intellect 3 | 72B (Q4_K_M) | Непредсказуемая | 12-16 | ~48GB |
1 GLM 4.7: китайский гений с акцентом
GLM 4.7 — это как получить доступ к китайской версии ChatGPT. Только локально. И с некоторыми... особенностями.
Что хорошо:
- Понимает контекст на 128К токенов. Реально длинные истории.
- Генерирует нестандартные метафоры. Иногда слишком нестандартные.
- Отлично работает с диалогами. Персонажи звучат живыми.
Что раздражает:
- Английские тексты иногда содержат китайские идиомы. Буквально.
- Склонен к морализаторству. Как будто в него встроили партийного работника.
- Q4_K_M квантование съедает часть креативности. Но Q8 не влезет в память.
2 GLM 4.5 Air: быстрый, но поверхностный
Если GLM 4.7 — это полноценный роман, то 4.5 Air — рассказ в журнале авиакомпании.
Плюсы:
- Скорость. 35 токенов в секунду — это комфортно для мозгового штурма.
- Потребляет в два раза меньше памяти. Остается место для других приложений.
- Стабильность. Не падает, не глючит, работает как швейцарские часы.
Минусы:
- Поверхностность. Идеи есть, но глубины — нет.
- Повторяет паттерны. После третьего варианта понимаешь — он зациклился.
- Слабый сарказм. Пытается шутить, получается неловко.
3 Intellect 3: русская рулетка
Intellect 3 — это модель, которая либо генерирует гениальные тексты, либо полную бессмыслицу. Никаких гарантий.
Мои наблюдения за неделю:
- День 1: Написал сцену, от которой мурашки по коже. Сохранил немедленно.
- День 2: Тот же промпт — текст уровня средней школы. Разочарование.
- День 3: Сгенерировал диалог с неожиданным поворотом. Снова гений.
Проблема в температуре. Даже при temperature=0.7 результаты непредсказуемы.
Как запустить без боли (и падений)
Вы скачали модель. Запустили. Получили Exit code 6. Знакомо?
Metal API на Mac иногда ведет себя странно. Особенно с большими моделями. Я писал об этом в статье про падения LM Studio.
Вот рабочий рецепт для M2 Ultra:
- Используйте LM Studio 0.3.5 или новее. Старые версии глючат с Metal.
- Для GLM 4.7 установите контекст 8192 (не больше). 128К съест всю память.
- Квантование Q4_K_M — оптимально. Q3_K_L быстрее, но качество страдает.
- Кэш модели на SSD. Не на внешнем диске — скорость упадет в 3 раза.
- Закройте Safari. Серьезно. Он жрет память как не в себя.
Проверьте Activity Monitor. Если модель использует больше 90GB памяти — уменьшайте контекст. M2 Ultra имеет 192GB, но система и другие приложения тоже нуждаются в памяти.
Творческие промпты, которые работают
Стандартные "напиши рассказ" не работают. Нужна специфика.
Для генерации идей:
"Сгенерируй 10 неочевидных конфликтов для истории про [тема]. Каждый конфликт должен включать: 1) внешнее противоречие, 2) внутреннюю дилемму персонажа, 3) неожиданное последствие. Избегай клише."
Для развития персонажа:
"Опиши персонажа, который [качество], но при этом [противоположное качество]. Приведи три конкретных примера, как это противоречие проявляется в повседневных решениях. Добавь деталь, которая кажется незначительной, но раскрывает суть."
Для диалогов:
"Напиши диалог между [персонаж А] и [персонаж Б], где каждый говорит одно, но подразумевает другое. Используй паузы, недоговоренности, двойные смыслы. В конце — действие, которое меняет все."
Что делать, когда все плохо
Иногда модели выдают мусор. Не паникуйте. Есть приемы.
Первый — цепочка промптов. Не просите сразу готовый текст. Разбейте на этапы:
- Сгенерируй 20 случайных слов, связанных с темой
- Выбери три самых противоречивых сочетания
- Придумай ситуацию, где эти сочетания станут центральными
- Опиши первого персонажа, который противоречит сам себе
- Теперь напиши сцену
Второй прием — принудительное разнообразие. Добавьте в промпт: "Избегай следующих слов: [список клише]. Используй необычные сравнения из мира [специфичная область]."
Третий — человеческое вмешательство. Сгенерировали 5 вариантов? Возьмите из каждого по лучшей фразе. Скомбинируйте. Допишите сами.
А что насчет других моделей?
Я тестировал десятки. Большинство — не для творчества.
Mixtral 8x22B? Хорош для кода. Для прозы — сухой технический язык.
Qwen 2.5 72B? Силен в аналитике. В креативе повторяет шаблоны.
DeepSeek 67B? Отличный ассистент. Плохой соавтор.
Проблема в тренировочных данных. Модели тренируют на Wikipedia, GitHub, научных статьях. Где там художественная литература? В лучшем случае — 5%.
Поэтому ищем модели, которые либо специально дообучали на литературе, либо они изначально многозадачные с уклоном в гуманитарные науки.
Будущее, которое уже здесь
Через год ситуация изменится. Появятся модели, обученные исключительно на художественных текстах. Уже сейчас есть проекты вроде NovelAI, но они облачные.
Локально же нас ждет:
- Специализированные квантования для творческих задач (не только для скорости)
- Микширование моделей: одна генерирует сюжет, другая — диалоги, третья — описания
- Интеграция с инструментами писателей через Swift Transformers
А пока — выбирайте GLM 4.7, если готовы мириться с особенностями. Или 4.5 Air, если нужна скорость.
Intellect 3 оставьте для экспериментов. Когда не жалко времени.
И главное — не ждите от локальных моделей чуда. Они не заменят писателя. Они заменяют пустую страницу. Ту самую, которая смотрит на вас и молчит.
Теперь у вас есть хотя бы какой-то ответ.