zembed-1: SOTA модель для эмбеддингов в RAG | Обзор и инструкция | AiManual
AiManual Logo Ai / Manual.
05 Мар 2026 Инструмент

zembed-1: мультиязычные эмбеддинги, которые обошли OpenAI. Как использовать в RAG

Обзор zembed-1 - новой SOTA модели для мультиязычных эмбеддингов. Сравнение с OpenAI, инструкция по интеграции в RAG пайплайн.

zembed-1: когда open-source эмбеддинги перестали быть компромиссом

Еще вчера выбора не было: хочешь качественные эмбеддинги - плати OpenAI или Google. Сегодня есть zembed-1. Модель с открытыми весами, которая на бенчмарках MTEB и MIRACL обгоняет text-embedding-3-large. И делает это на 100+ языках.

Авторы из Zeta AI не стали изобретать велосипед. Взяли архитектуру E5 и обучили с помощью zElo distillation. Это когда модель учится не на человеческих оценках, а на предсказаниях ансамбля более мощных моделей. Дешево и сердито.

На 05.03.2026 zembed-1 держит первое место в рейтинге MTEB для мультиязычных эмбеддингов. Оценка: 68.9 против 67.2 у OpenAI.

zElo distillation: как обучить модель, которая бьет коммерческие API

Метод zElo distillation - это не магия, а хитрость. Вместо того чтобы собирать дорогие человеческие аннотации, авторы используют ансамбль из 12 коммерческих и открытых моделей. Этот ансамбль ранжирует пары текстов по семантической близости.

Затем zembed-1 учится предсказывать эти ранжирования. Получается дистилляция знаний от множества моделей в одну. И вот что важно: ансамбль включает модели разной архитектуры и размера. Это как собрать мудрецов в комитет.

Результат? Модель, которая понимает нюансы семантики на английском, русском, китайском, арабском и еще сотне языков. И делает это с консистентностью, которую не всегда найдешь у коммерческих API.

Цифры не врут: таблица сравнения с альтернативами

Модель MTEB Score MIRACL (ru) Размер Лицензия
zembed-1 68.9 89.2 335M Apache 2.0
OpenAI text-embedding-3-large 67.2 88.1 N/A Проприетарная
Google text-embedding-004 66.5 87.3 N/A Проприетарная
BGE-M3 65.8 86.5 568M MIT

Данные на 05.03.2026. Как видите, zembed-1 не просто догоняет, а обходит коммерческие решения. При этом модель в 2 раза меньше BGE-M3. Эффективность? Да.

Кстати, если вы выбирали между BGE M3, EmbeddingGemma и Qwen3, теперь у вас есть еще один вариант. И он лучший. Наше сравнение этих моделей уже устарело. Пора обновлять бенчмарки.

Как впихнуть zembed-1 в ваш RAG пайплайн

Интеграция проще, чем кажется. Вот минимальный пример на Python с использованием Hugging Face Transformers.

import torch
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import util

# Загружаем модель и токенизатор
model_name = "zeta-ai/zembed-1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Переводим модель в режим оценки
model.eval()

# Подготовка текстов
texts = [
    "Квантовые компьютеры изменят криптографию",
    "Quantum computers will break current encryption",
    "Los ordenadores cuánticos romperán la criptografía actual"
]

# Создаем эмбеддинги
with torch.no_grad():
    inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt", max_length=512)
    outputs = model(**inputs)
    embeddings = outputs.last_hidden_state[:, 0, :]  # Берем эмбеддинг [CLS] токена

# Сравниваем схожесть
cosine_scores = util.cos_sim(embeddings, embeddings)
print(cosine_scores)

Этот код покажет, что все три предложения (на русском, английском и испанском) семантически близки. Модель понимает межъязыковые связи.

Важно: zembed-1 ожидает текст с префиксом "query: " для запросов и "passage: " для документов. Это наследие архитектуры E5. Не забудьте добавить эти префиксы в продакшене.

Для RAG пайплайна вам нужно индексировать документы с префиксом "passage: ", а запросы пользователя оформлять с "query: ". Тогда поиск будет максимально точным.

Если вы используете LangChain или LlamaIndex, найдутся адаптеры. Но пока их нет - не проблема. Несколько строк кода решают вопрос.

Кому действительно нужна эта модель?

zembed-1 - не для всех. Вот кому она пригодится:

  • Мультиязычные проекты: если ваши пользователи говорят на разных языках, а документы на английском. Модель найдет связи.
  • Локальные развертывания: 335 миллионов параметров - это около 1.3 ГБ в FP16. Запустите на одном GPU или даже на CPU с квантованием. Для мобильных устройств смотрите статью о локальном ассистенте на Android.
  • Бюджетные стартапы: платить за эмбеддинги OpenAI при масштабировании - больно. С zembed-1 вы платите только за железо.
  • Исследователи: модель полностью открыта. Можете дообучать, квантовать, резать. Лицензия Apache 2.0 разрешает все.

А вот кому не стоит: если у вас только английские тексты и вы уже настроили пайплайн на OpenAI. Переезд потребует времени. Или если вам нужны эмбеддинги для очень коротких текстов (твитов) - здесь zembed-1 может быть избыточной.

Что будет дальше?

zembed-1 - это первый звонок. Коммерческие API теряют монополию на качественные эмбеддинги. Скоро появятся модели, обученные дистилляцией от zembed-1. И так далее.

Совет: не цепляйтесь за одну модель. Постройте пайплайн так, чтобы можно было легко менять эмбеддинг-модель. Завтра выйдет zembed-2. Послезавтра - кто-то еще.

И помните: SOTA - это не навсегда. Но сегодня zembed-1 - лучший выбор для мультиязычного RAG. Берите, пока горячо.

Подписаться на канал