zembed-1: когда open-source эмбеддинги перестали быть компромиссом
Еще вчера выбора не было: хочешь качественные эмбеддинги - плати OpenAI или Google. Сегодня есть zembed-1. Модель с открытыми весами, которая на бенчмарках MTEB и MIRACL обгоняет text-embedding-3-large. И делает это на 100+ языках.
Авторы из Zeta AI не стали изобретать велосипед. Взяли архитектуру E5 и обучили с помощью zElo distillation. Это когда модель учится не на человеческих оценках, а на предсказаниях ансамбля более мощных моделей. Дешево и сердито.
На 05.03.2026 zembed-1 держит первое место в рейтинге MTEB для мультиязычных эмбеддингов. Оценка: 68.9 против 67.2 у OpenAI.
zElo distillation: как обучить модель, которая бьет коммерческие API
Метод zElo distillation - это не магия, а хитрость. Вместо того чтобы собирать дорогие человеческие аннотации, авторы используют ансамбль из 12 коммерческих и открытых моделей. Этот ансамбль ранжирует пары текстов по семантической близости.
Затем zembed-1 учится предсказывать эти ранжирования. Получается дистилляция знаний от множества моделей в одну. И вот что важно: ансамбль включает модели разной архитектуры и размера. Это как собрать мудрецов в комитет.
Результат? Модель, которая понимает нюансы семантики на английском, русском, китайском, арабском и еще сотне языков. И делает это с консистентностью, которую не всегда найдешь у коммерческих API.
Цифры не врут: таблица сравнения с альтернативами
| Модель | MTEB Score | MIRACL (ru) | Размер | Лицензия |
|---|---|---|---|---|
| zembed-1 | 68.9 | 89.2 | 335M | Apache 2.0 |
| OpenAI text-embedding-3-large | 67.2 | 88.1 | N/A | Проприетарная |
| Google text-embedding-004 | 66.5 | 87.3 | N/A | Проприетарная |
| BGE-M3 | 65.8 | 86.5 | 568M | MIT |
Данные на 05.03.2026. Как видите, zembed-1 не просто догоняет, а обходит коммерческие решения. При этом модель в 2 раза меньше BGE-M3. Эффективность? Да.
Кстати, если вы выбирали между BGE M3, EmbeddingGemma и Qwen3, теперь у вас есть еще один вариант. И он лучший. Наше сравнение этих моделей уже устарело. Пора обновлять бенчмарки.
Как впихнуть zembed-1 в ваш RAG пайплайн
Интеграция проще, чем кажется. Вот минимальный пример на Python с использованием Hugging Face Transformers.
import torch
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import util
# Загружаем модель и токенизатор
model_name = "zeta-ai/zembed-1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
# Переводим модель в режим оценки
model.eval()
# Подготовка текстов
texts = [
"Квантовые компьютеры изменят криптографию",
"Quantum computers will break current encryption",
"Los ordenadores cuánticos romperán la criptografía actual"
]
# Создаем эмбеддинги
with torch.no_grad():
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt", max_length=512)
outputs = model(**inputs)
embeddings = outputs.last_hidden_state[:, 0, :] # Берем эмбеддинг [CLS] токена
# Сравниваем схожесть
cosine_scores = util.cos_sim(embeddings, embeddings)
print(cosine_scores)
Этот код покажет, что все три предложения (на русском, английском и испанском) семантически близки. Модель понимает межъязыковые связи.
Важно: zembed-1 ожидает текст с префиксом "query: " для запросов и "passage: " для документов. Это наследие архитектуры E5. Не забудьте добавить эти префиксы в продакшене.
Для RAG пайплайна вам нужно индексировать документы с префиксом "passage: ", а запросы пользователя оформлять с "query: ". Тогда поиск будет максимально точным.
Если вы используете LangChain или LlamaIndex, найдутся адаптеры. Но пока их нет - не проблема. Несколько строк кода решают вопрос.
Кому действительно нужна эта модель?
zembed-1 - не для всех. Вот кому она пригодится:
- Мультиязычные проекты: если ваши пользователи говорят на разных языках, а документы на английском. Модель найдет связи.
- Локальные развертывания: 335 миллионов параметров - это около 1.3 ГБ в FP16. Запустите на одном GPU или даже на CPU с квантованием. Для мобильных устройств смотрите статью о локальном ассистенте на Android.
- Бюджетные стартапы: платить за эмбеддинги OpenAI при масштабировании - больно. С zembed-1 вы платите только за железо.
- Исследователи: модель полностью открыта. Можете дообучать, квантовать, резать. Лицензия Apache 2.0 разрешает все.
А вот кому не стоит: если у вас только английские тексты и вы уже настроили пайплайн на OpenAI. Переезд потребует времени. Или если вам нужны эмбеддинги для очень коротких текстов (твитов) - здесь zembed-1 может быть избыточной.
Что будет дальше?
zembed-1 - это первый звонок. Коммерческие API теряют монополию на качественные эмбеддинги. Скоро появятся модели, обученные дистилляцией от zembed-1. И так далее.
Совет: не цепляйтесь за одну модель. Постройте пайплайн так, чтобы можно было легко менять эмбеддинг-модель. Завтра выйдет zembed-2. Послезавтра - кто-то еще.
И помните: SOTA - это не навсегда. Но сегодня zembed-1 - лучший выбор для мультиязычного RAG. Берите, пока горячо.