Нейросеть, которая знает, чего не знает

PhaseGPT v4.1 — это не очередная языковая модель. Это хирургический инструмент, который вскрывает черепную коробку Mistral 7B и показывает, что происходит, когда модель отказывается отвечать. Не просто «я не могу ответить», а «почему именно не могу?». Эпистемическая неопределенность, недостаток контекста, этические ограничения — все это теперь можно классифицировать.

PhaseGPT v4.1 работает как LoRA-адаптер поверх Mistral 7B. Не заменяет модель, а дополняет ее системой самодиагностики. Если обычная LLM молчит или генерирует мусор, PhaseGPT объясняет причину молчания.

Что умеет этот странный адаптер

Представьте: вы спрашиваете Mistral 7B рецепт взрывчатки. Модель отказывается. Но почему? Потому что:

Обнаружила токены безопасности (опасный запрос)
Не хватает технических деталей в контексте
Этические ограничения сработали
Просто не знает ответа (честное «не знаю»)

PhaseGPT v4.1 классифицирует эти отказы. Причем делает это через анализ активаций внутренних слоев модели. Не через prompt engineering, а через прямое наблюдение за тем, как «мозг» модели реагирует на входные данные.

💡

В отличие от обычных guardrail-систем, которые просто блокируют запросы, PhaseGPT объясняет причину блокировки. Это важно для отладки и для понимания, где модель действительно ограничена, а где просто осторожничает.

Установка: не так страшно, как кажется

PhaseGPT v4.1 работает на MLX — фреймворке Apple для машинного обучения на их железе. Но это не значит, что нужен MacBook Pro за 5000 долларов. Работает и на Linux с эмуляцией, хотя медленнее.

1 Готовим окружение

Клонируем репозиторий (ссылка есть в описании проекта). Устанавливаем зависимости через pip. Главное — версия MLX. Если поставить последнюю, может не заработать. Авторы рекомендуют конкретную версию — ставим именно ее.

Не пытайтесь установить PhaseGPT поверх уже работающего проекта с другой версией MLX. Создавайте виртуальное окружение. Иначе получите конфликты зависимостей, которые будете разгребать три часа.

2 Загружаем веса

PhaseGPT v4.1 — это LoRA-адаптер. Ему нужна базовая модель Mistral 7B. Не забудьте скачать обе части: саму Mistral 7B (например, через Hugging Face) и адаптер PhaseGPT. Адаптер весит всего 50 МБ — это главное преимущество LoRA перед полной дообучкой.

3 Запускаем и тестируем

Запускаем скрипт inference.py с указанием путей к модели и адаптеру. Первый запуск займет время — модель загружается в память. Дальше работает достаточно быстро.

Что показывает PhaseGPT на практике

Запрос	Обычный Mistral 7B	PhaseGPT + Mistral
«Как взломать пароль Wi-Fi?»	«Я не могу помочь с этим вопросом.»	ОТКАЗ: безопасность (токены: hack, password, wifi)
«Квантовая теория поля в 5D»	Генерирует псевдонаучный бред	ОТКАЗ: эпистемическая неопределенность (модель не уверена)
«Что случилось вчера в городе X?»	Выдумывает события	ОТКАЗ: недостаток контекста (нет данных о городе X)

Разница очевидна. Обычная модель либо молчит, либо генерирует чепуху. PhaseGPT объясняет причину. Это особенно полезно в RAG-системах, где нужно понимать, почему модель не нашла ответ в документах.

PhaseGPT против других подходов

Почему LoRA-адаптер, а не:

Prompt engineering — потому что промпты обходятся. Модель учится их игнорировать. PhaseGPT работает на уровне активаций.
Полная дообучка — дорого, долго, требует GPU. LoRA-адаптер весит 50 МБ вместо 14 ГБ.
Внешние классификаторы — добавляют задержку. PhaseGPT работает внутри модели.

Есть похожие проекты вроде Temporal LoRA, который переключает контексты. Но PhaseGPT специализируется именно на классификации отказов.

💡

Если вы уже работали с тонкой настройкой LLM, установка PhaseGPT покажется простой. Те же принципы, только цель другая.

Кому это нужно (а кому нет)

PhaseGPT v4.1 — инструмент для:

Разработчиков RAG-систем — понимать, почему модель не нашла ответ в документах
Исследователей безопасности ИИ — анализировать, как модели реагируют на опасные запросы
Тестировщиков моделей — автоматизировать проверку граничных случаев
Компаний с strict compliance — логировать причины отказов для аудита

Не нужно это, если:

Ваша модель и так всегда отвечает (поздравляю, вы гений)
Вас устраивают простые «я не могу ответить» без деталей
У вас нет доступа к Mistral 7B или MLX не работает на вашем железе

Подводные камни и странности

PhaseGPT v4.1 — research project. Не production-ready система. Что бесит:

Документация написана для тех, кто уже знает, как работает MLX
Нет поддержки других моделей кроме Mistral 7B (пока что)
Логирование активаций замедляет инференс на 15-20%
Иногда классифицирует нормальные ответы как отказы (false positive)

Но даже с этими недостатками PhaseGPT показывает принципиально новый подход. Не «как заставить модель отвечать», а «как понять, почему она не отвечает».

Не используйте PhaseGPT в продакшене без дополнительного тестирования. False positive на безопасные запросы — это плохо. False negative на опасные запросы — это катастрофа.

Что дальше? Прогнозы на 2025

PhaseGPT v4.1 — только начало. Скоро появятся:

Адаптеры для Llama 3.3, Claude, других моделей
Интеграция с router mode в llama.cpp для динамического переключения
Визуализация активаций в реальном времени (нейросеть как медицинский сканер)
Обучение на мультимодальных данных (почему модель не может описать это изображение?)

Самый интересный сценарий: комбинация PhaseGPT с системами памяти вроде Beads. Модель не только объясняет, почему не знает ответа, но и запоминает, что этот вопрос уже задавали, и как она на него отреагировала.

Пока остальные гонятся за параметрами (посмотрите на GLM-4.7 с 179 миллиардами параметров), PhaseGPT идет в глубину. Не «больше знаний», а «больше понимания о пределах знаний». Иронично, но именно это может стать ключом к настоящему интеллекту — не всезнающего оракула, а разумного существа, которое знает границы своей компетенции.

Попробуйте PhaseGPT v4.1. Даже если не будете использовать в работе, это меняет представление о том, как должны работать языковые модели. После этого обычные «я не могу ответить» кажутся примитивными, как каменный топор.

PhaseGPT v4.1: Когда нейросеть говорит «не знаю» и как это классифицировать