Нейросеть, которая знает, чего не знает
PhaseGPT v4.1 — это не очередная языковая модель. Это хирургический инструмент, который вскрывает черепную коробку Mistral 7B и показывает, что происходит, когда модель отказывается отвечать. Не просто «я не могу ответить», а «почему именно не могу?». Эпистемическая неопределенность, недостаток контекста, этические ограничения — все это теперь можно классифицировать.
PhaseGPT v4.1 работает как LoRA-адаптер поверх Mistral 7B. Не заменяет модель, а дополняет ее системой самодиагностики. Если обычная LLM молчит или генерирует мусор, PhaseGPT объясняет причину молчания.
Что умеет этот странный адаптер
Представьте: вы спрашиваете Mistral 7B рецепт взрывчатки. Модель отказывается. Но почему? Потому что:
- Обнаружила токены безопасности (опасный запрос)
- Не хватает технических деталей в контексте
- Этические ограничения сработали
- Просто не знает ответа (честное «не знаю»)
PhaseGPT v4.1 классифицирует эти отказы. Причем делает это через анализ активаций внутренних слоев модели. Не через prompt engineering, а через прямое наблюдение за тем, как «мозг» модели реагирует на входные данные.
Установка: не так страшно, как кажется
PhaseGPT v4.1 работает на MLX — фреймворке Apple для машинного обучения на их железе. Но это не значит, что нужен MacBook Pro за 5000 долларов. Работает и на Linux с эмуляцией, хотя медленнее.
1 Готовим окружение
Клонируем репозиторий (ссылка есть в описании проекта). Устанавливаем зависимости через pip. Главное — версия MLX. Если поставить последнюю, может не заработать. Авторы рекомендуют конкретную версию — ставим именно ее.
Не пытайтесь установить PhaseGPT поверх уже работающего проекта с другой версией MLX. Создавайте виртуальное окружение. Иначе получите конфликты зависимостей, которые будете разгребать три часа.
2 Загружаем веса
PhaseGPT v4.1 — это LoRA-адаптер. Ему нужна базовая модель Mistral 7B. Не забудьте скачать обе части: саму Mistral 7B (например, через Hugging Face) и адаптер PhaseGPT. Адаптер весит всего 50 МБ — это главное преимущество LoRA перед полной дообучкой.
3 Запускаем и тестируем
Запускаем скрипт inference.py с указанием путей к модели и адаптеру. Первый запуск займет время — модель загружается в память. Дальше работает достаточно быстро.
Что показывает PhaseGPT на практике
| Запрос | Обычный Mistral 7B | PhaseGPT + Mistral |
|---|---|---|
| «Как взломать пароль Wi-Fi?» | «Я не могу помочь с этим вопросом.» | ОТКАЗ: безопасность (токены: hack, password, wifi) |
| «Квантовая теория поля в 5D» | Генерирует псевдонаучный бред | ОТКАЗ: эпистемическая неопределенность (модель не уверена) |
| «Что случилось вчера в городе X?» | Выдумывает события | ОТКАЗ: недостаток контекста (нет данных о городе X) |
Разница очевидна. Обычная модель либо молчит, либо генерирует чепуху. PhaseGPT объясняет причину. Это особенно полезно в RAG-системах, где нужно понимать, почему модель не нашла ответ в документах.
PhaseGPT против других подходов
Почему LoRA-адаптер, а не:
- Prompt engineering — потому что промпты обходятся. Модель учится их игнорировать. PhaseGPT работает на уровне активаций.
- Полная дообучка — дорого, долго, требует GPU. LoRA-адаптер весит 50 МБ вместо 14 ГБ.
- Внешние классификаторы — добавляют задержку. PhaseGPT работает внутри модели.
Есть похожие проекты вроде Temporal LoRA, который переключает контексты. Но PhaseGPT специализируется именно на классификации отказов.
Кому это нужно (а кому нет)
PhaseGPT v4.1 — инструмент для:
- Разработчиков RAG-систем — понимать, почему модель не нашла ответ в документах
- Исследователей безопасности ИИ — анализировать, как модели реагируют на опасные запросы
- Тестировщиков моделей — автоматизировать проверку граничных случаев
- Компаний с strict compliance — логировать причины отказов для аудита
Не нужно это, если:
- Ваша модель и так всегда отвечает (поздравляю, вы гений)
- Вас устраивают простые «я не могу ответить» без деталей
- У вас нет доступа к Mistral 7B или MLX не работает на вашем железе
Подводные камни и странности
PhaseGPT v4.1 — research project. Не production-ready система. Что бесит:
- Документация написана для тех, кто уже знает, как работает MLX
- Нет поддержки других моделей кроме Mistral 7B (пока что)
- Логирование активаций замедляет инференс на 15-20%
- Иногда классифицирует нормальные ответы как отказы (false positive)
Но даже с этими недостатками PhaseGPT показывает принципиально новый подход. Не «как заставить модель отвечать», а «как понять, почему она не отвечает».
Не используйте PhaseGPT в продакшене без дополнительного тестирования. False positive на безопасные запросы — это плохо. False negative на опасные запросы — это катастрофа.
Что дальше? Прогнозы на 2025
PhaseGPT v4.1 — только начало. Скоро появятся:
- Адаптеры для Llama 3.3, Claude, других моделей
- Интеграция с router mode в llama.cpp для динамического переключения
- Визуализация активаций в реальном времени (нейросеть как медицинский сканер)
- Обучение на мультимодальных данных (почему модель не может описать это изображение?)
Самый интересный сценарий: комбинация PhaseGPT с системами памяти вроде Beads. Модель не только объясняет, почему не знает ответа, но и запоминает, что этот вопрос уже задавали, и как она на него отреагировала.
Пока остальные гонятся за параметрами (посмотрите на GLM-4.7 с 179 миллиардами параметров), PhaseGPT идет в глубину. Не «больше знаний», а «больше понимания о пределах знаний». Иронично, но именно это может стать ключом к настоящему интеллекту — не всезнающего оракула, а разумного существа, которое знает границы своей компетенции.
Попробуйте PhaseGPT v4.1. Даже если не будете использовать в работе, это меняет представление о том, как должны работать языковые модели. После этого обычные «я не могу ответить» кажутся примитивными, как каменный топор.