Почему некоторым инструментам нужен именно /completions, а не /chat/completions?

Многие старые инструменты и специализированные плагины (особенно для автодополнения кода) были написаны до стандартизации OpenAI API. Они используют простой формат /completions для текстового завершения, в то время как /chat/completions предполагает диалоговый формат с ролями.

Можно ли добавить поддержку /completions в Open WebUI?

Технически можно через патчи или кастомные расширения, но это нетривиальная задача. Open WebUI заточен под чатовый интерфейс, и его архитектура не предполагает простого эндпоинта для текстового завершения. Проще использовать специализированные решения.

Какой фронтенд лучше для интеграции с Emacs и gptel?

LocalAI WebUI показывает лучшую совместимость благодаря полной поддержке OpenAI API и правильному формату ответов. FastChat тоже работает, но требует дополнительной настройки заголовков и CORS.

Нужна ли отдельная система аутентификации если фронтенд не поддерживает LDAP?

Да, обязательно. Самый простой вариант - reverse proxy (nginx, Caddy, Traefik) с basic auth или OAuth. Без аутентификации ваш сервер становится уязвимым для несанкционированного доступа и злоупотреблений.

Альтернативы Open WebUI: фронтенды с OpenAI-совместимым API и /completions

Почему Open WebUI иногда не работает

Знакомо: ставите локальную LLM, запускаете Open WebUI, подключаетесь к continue.dev или gptel в Emacs. А потом выясняется, что ваш любимый инструмент требует эндпоинт /completions, а Open WebUI его не поддерживает. Или нужна интеграция с корпоративным LDAP. Или вы хотите динамически переключаться между моделями без перезапуска сервера.

💡

OpenAI-совместимый API - это не только /chat/completions. Многие инструменты (особенно старые или специализированные) используют старый эндпоинт /completions для простого текстового завершения. Его отсутствие ломает половину интеграций.

Что должно быть в идеальном фронтенде

Прежде чем смотреть на альтернативы, определите требования. Скорее всего, вам нужно:

Полная поддержка OpenAI API: и /chat/completions, и /completions, и /embeddings
Аутентификация через LDAP/OAuth (если в команде больше одного человека)
Динамическое переключение моделей (llama-swap)
Поддержка нескольких моделей одновременно
API-ключи с ограничениями по моделям
Логирование запросов и мониторинг

Если вы развертываете модели для команды разработчиков, не экономьте на управлении пользователями. Одна утечка API-ключа - и ваш сервер превратится в общественный прокси.

Сравнение: кто что умеет

Фронтенд	/completions	LDAP	llama-swap	Сложность
LocalAI WebUI	Да	Нет	Да	Средняя
Ollama WebUI	Нет	Нет	Ограничено	Низкая
FastChat	Да	Плагин	Да	Высокая
Text Generation WebUI API	Да	Нет	Да	Средняя
TabbyAPI	Да	Нет	Нет	Низкая

LocalAI WebUI: максимальная совместимость

LocalAI - это не просто фронтенд, а целая экосистема. Его WebUI компонент поддерживает все эндпоинты OpenAI, включая тот самый проблемный /completions. Под капотом - Go, что дает хорошую производительность и простую установку через Docker.

1Что хорошо

Полная совместимость с OpenAI API (даже с функциями и vision)
Встроенный llama-swap: меняете модель одним запросом
Поддержка мультимодальности из коробки
Можно использовать как прокси к разным бэкендам

2Что раздражает

Управление пользователями - через базовую аутентификацию или OIDC
LDAP нет из коробки, нужны костыли
Документация иногда отстает от реальности

Если вам критично /completions - LocalAI WebUI один из лучших вариантов. Особенно если вы уже используете локальные LLM для C++ и CUDA и нужно тестировать разные модели.

FastChat: для корпоративного использования

FastChat от LMSYS - это промышленное решение. Здесь есть все: кластеризация, балансировка нагрузки, мониторинг, плагины для аутентификации. И да, /completions поддерживается.

💡

FastChat использует архитектуру контроллера и воркеров. Контроллер принимает API-запросы и распределяет их по воркерам с разными моделями. Это позволяет одновременно обслуживать десятки моделей на одном кластере.

Плюсы очевидны: масштабируемость, отказоустойчивость, мониторинг. Минусы тоже: сложность настройки, зависимость от Python окружения, требования к ресурсам.

Выбирайте FastChat если:

У вас команда больше 10 человек
Нужна интеграция с корпоративным LDAP
Планируете горизонтальное масштабирование
Хотите подробные логи и метрики

Text Generation WebUI API: просто работает

Знаменитый oobabooga/text-generation-webui имеет встроенный API сервер. Включаете флаг --api, и получаете OpenAI-совместимый эндпоинт. /completions работает, llama-swap работает, даже streaming работает.

Проблема в том, что это все же фронтенд с API, а не специализированный API-сервер. Управления пользователями нет. Аутентификации нет. Но если вам нужно быстро поднять тестовый эндпоинт для continue.dev - идеально.

Не используйте Text Generation WebUI API в продакшене без reverse proxy с аутентификацией. Любой, кто знает адрес, сможет отправлять запросы и менять модели.

TabbyAPI: минимализм для кодеров

TabbyAPI создавался специально для инструментов вроде continue.dev и GitHub Copilot альтернатив. Он легкий, быстрый, и поддерживает только то, что нужно для автодополнения кода.

/completions? Да. /chat/completions? Тоже есть. LDAP? Нет. Управление моделями? Только одна модель за раз. Но зато работает из коробки и не требует тонкой настройки.

Если ваш кейс - только автодополнение в IDE, и вы не хотите разбираться с настройками, TabbyAPI спасет ситуацию. Особенно если вы экспериментируете с разными моделями для кодинга из нашего обзора локальных LLM для C++ и CUDA.

Интеграция с Emacs: gptel и другие

Вот где начинается боль. Большинство Emacs пакетов для работы с LLM (gptel, chatgpt-shell, ellama) ожидают именно OpenAI-совместимый API. И многие используют старый формат запросов через /completions.

Проблема номер один: эти пакеты часто жестко закодированы на определенную структуру ответа. Если ваш API сервер возвращает поле "content" вместо "message" - все ломается.

3Настройка gptel

Для gptel с LocalAI WebUI работает конфиг:

(setq gptel-host "localhost:8080")
(setq gptel-backend
(gptel-make-openai "LocalAI"
:host "localhost:8080"
:endpoint "/v1/chat/completions"
:stream t))

Но если вам нужен /completions для других инструментов, придется либо патчить пакеты, либо использовать два разных API сервера.

Совместимость с continue.dev и другими IDE плагинами

Continue.dev - один из самых популярных инструментов для автодополнения с локальными моделями. И он капризный. Ожидает определенные заголовки, определенные форматы ошибок, определенные таймауты.

Из всех рассмотренных вариантов лучше всего с continue.dev работает LocalAI WebUI. Потому что:

Поддерживает streaming (обязательно для continue.dev)
Возвращает ошибки в том же формате, что и OpenAI
Позволяет настраивать таймауты на уровне сервера

FastChat тоже работает, но требует дополнительной настройки CORS и заголовков. Text Generation WebUI иногда теряет соединение при долгих запросах.

Управление моделями: llama-swap и не только

llama-swap - это возможность менять загруженную модель без перезапуска сервера. Критично, если вы тестируете разные модели или обслуживаете несколько пользователей с разными предпочтениями.

LocalAI WebUI поддерживает llama-swap через отдельный эндпоинт. Отправляете POST запрос с именем новой модели - через 10-30 секунд (зависит от размера модели) сервер переключается.

FastChat делает это через систему воркеров. У вас может быть несколько моделей загружено одновременно, а контроллер решает, какую использовать для каждого запроса.

Text Generation WebUI тоже умеет менять модели на лету, но процесс менее стабильный. Иногда виснет, иногда теряет контекст.

💡

Если вы часто меняете модели, посмотрите на Models Explorer. Инструмент помогает быстро найти open-source альтернативу любой модели, что ускоряет эксперименты.

Безопасность: API ключи и ограничения

Развернули сервер, подключили continue.dev, gptel, еще пару инструментов. А потом кто-то нашел ваш эндпоинт и начал майнить рефераты через вашу GPU.

Простейшая защита - reverse proxy с аутентификацией. Nginx с basic auth, Traefik с middleware, Caddy с plugin. Но это неудобно: нужно перевыпускать токены, обновлять конфиги во всех клиентах.

Лучший вариант - использовать фронтенд со встроенной системой API ключей. FastChat умеет, LocalAI WebUI - в планах. Пока же приходится изобретать велосипеды.

Производительность: сколько это стоит в ресурсах

Каждый дополнительный слой между клиентом и моделью добавляет задержку. Особенно если фронтенд написан на Python (FastChat) а не на Go (LocalAI).

Тесты на Ryzen 9 5950X с одной RTX 4090:

Прямой запрос к llama.cpp: 45 мс
Через LocalAI WebUI: 55-60 мс (+20%)
Через FastChat: 70-80 мс (+60%)
Через Text Generation WebUI API: 65-75 мс (+50%)

Процент кажется небольшим, но при генерации длинных ответов (1000+ токенов) разница становится заметной. Особенно если у вас не 16 карт MI50 за 15 тысяч, а скромная 3060.

Что выбрать в 2025 году

Ситуация меняется быстро. Еще год назад Open WebUI был единственным нормальным вариантом. Сейчас есть выбор.

Мой совет:

Для личного использования с continue.dev/gptel: LocalAI WebUI. Просто работает, /completions есть, производительность хорошая.
Для команды до 5 человек: LocalAI WebUI + nginx с basic auth. Дешево и сердито.
Для корпоративного развертывания: FastChat. Переплатите за сложность настройки, но получите мониторинг, LDAP и масштабируемость.
Для быстрого прототипа: Text Generation WebUI API. Включил флаг - и готово.

Главное - не зацикливайтесь на одном инструменте. Мир локальных LLM меняется так быстро, что через полгода появятся новые варианты. Следите за трендами вроде тех, что описаны в консолидации AI-рынка в 2026.

Чего ждать дальше

Тренд очевиден: фронтенды становятся универсальными прокси-серверами. В будущем мы увидим:

Единые стандарты для /completions и /chat/completions (или полный отказ от /completions)
Встроенные системы квотирования и биллинга
Автоматическое определение оптиманой модели для задачи
Интеграция с векторными базами как в OpenSpec

Пока же выбирайте то, что решает ваши конкретные проблемы сегодня. И не бойтесь мигрировать, когда появится что-то лучше. В этом мире стоять на месте - значит отстать навсегда.

Когда Open WebUI не хватает: фронтенды для OpenAI-совместимого API с поддержкой /completions