Что такое last-token pooling в Harrier-OSS?

Last-token pooling — это метод, при котором для создания эмбеддинга текста используется только последний токен последовательности, а не усреднение всех токенов. Это особенно эффективно для коротких текстов и задач, где ключевая информация находится в конце.

Чем Harrier-OSS лучше BGE-v3?

Harrier-OSS показывает более высокие результаты на Multilingual MTEB бенчмарке, особенно для низкоресурсных языков. Кроме того, она использует last-token pooling, что может улучшить качество для определенных задач.

Можно ли использовать Harrier-OSS в коммерческих проектах?

Да, модель выпущена под лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и распространять ее в коммерческих целях.

Microsoft Harrier-OSS: модель для эмбеддингов 2026 | Обзор

Harrier-OSS: почему все заговорили о новой модели от Microsoft

В январе 2026 Microsoft тихо выкатила Harrier-OSS — модель для текстовых эмбеддингов, которая моментально возглавила Multilingual MTEB бенчмарк. Если ваши RAG-системы до сих пор полагаются на BGE или платные API OpenAI, пора пересмотреть архитектуру. Harrier-OSS не просто на несколько процентных пунктов лучше. Она меняет подход к созданию эмбеддингов за счет last-token pooling и улучшенной multilingual подготовки.

На 30 марта 2026 Harrier-OSS удерживает первое место в рейтинге Multilingual MTEB, опережая BGE-v3-large на 3.2 пункта по средней точности. Модель доступна на Hugging Face в двух размерах: base (350M параметров) и large (1.2B параметров).

Что такого особенного в этой модели? Во-первых, last-token pooling вместо обычного mean pooling. Это значит, что модель концентрируется на последнем токене последовательности, что для некоторых задач (например, классификации или поиска по ключевым словам) дает более релевантные эмбеддинги. Во-вторых, подготовка на 100+ языках с акцентом на низкоресурсные языки. В-третьих, открытый исходный код и Apache 2.0 лицензия — можно использовать в коммерческих проектах без ограничений.

Как Harrier-OSS обходит конкурентов: цифры и факты

Посмотрим на холодные цифры. На Multilingual MTEB (Massive Text Embedding Benchmark) Harrier-OSS-large набирает 68.9 против 65.7 у BGE-v3-large. Для английского текста разница меньше — 69.1 против 68.4, но для низкоресурсных языков вроде суахили или бенгали преимущество достигает 10-15 пунктов. Модель от OpenAI, text-embedding-3-large, показывает 67.8 в multilingual тестах, но она платная и без возможности тонкой настройки.

Модель	Multilingual MTEB Score	Размер	Лицензия	Поддержка языков
Microsoft Harrier-OSS-large	68.9	1.2B	Apache 2.0	100+
BGE-v3-large	65.7	1.2B	MIT	100+
OpenAI text-embedding-3-large	67.8	Неизвестно	Проприетарная	Много
Cohere embed-v4	66.5	Неизвестно	Проприетарная	100+

Таблица показывает: Harrier-OSS не только лучше, но и свободнее. Вы можете скачать модель, дообучить на своих данных и встроить в оффлайн-пайплайн. Для сравнения, гибридный поиск для RAG с использованием Harrier-OSS даст более точные результаты, чем с BGE, особенно на неанглийских документах.

Last-token pooling: зачем это нужно и когда это работает

Большинство моделей для эмбеддингов используют mean pooling — усредняют эмбеддинги всех токенов. Harrier-OSS применяет last-token pooling: берет эмбеддинг последнего токена последовательности. Звучит странно? На практике это означает, что модель уделяет больше внимания концу текста, что часто содержит выводы или ключевые мысли.

💡

Last-token pooling особенно эффективен для коротких текстов (запросы, заголовки) и задач классификации, где метка часто зависит от последних слов. Для длинных документов Microsoft рекомендует разбивать текст на чанки и применять Harrier-OSS к каждому чанку отдельно.

Но есть нюанс: для очень длинных текстов last-token pooling может терять информацию из начала. Поэтому для документов длиннее 512 токенов лучше использовать стратегию разбиения. Кстати, если вы работаете с длинными документами, вам пригодится статья Когда 128К токенов не хватает, где описаны методы обработки длинных текстов.

Где использовать Harrier-OSS: от семантического поиска до кластеризации клиентских отзывов

Модель идеально подходит для:

Мультиязычный семантический поиск: Поиск по документам на разных языках с высокой точностью. Harrier-OSS создает эмбеддинги, которые хорошо отражают семантику даже для языков с маленькими датасетами.
Кластеризация текстов: Группировка новостей, отзывов, поддержки обращений. Благодаря качественным эмбеддингам кластеры получаются более однородными.
RAG-системы: Улучшение retrieval этапа. Сочетание Harrier-OSS с гибридным поиском дает state-of-the-art результаты.
Дубликация и дедупликация контента: Поиск похожих статей или товаров в каталогах.
Классификация текстов: Особенно для коротких текстов, где last-token pooling работает лучше mean pooling.

Например, для кластеризации отзывов о продукте вы можете создать эмбеддинги каждого отзыва с помощью Harrier-OSS, а затем применить алгоритм кластеризации, такой как HDBSCAN или k-means. Эмбеддинги будут отражать не только ключевые слова, но и семантику, так что "отличный телефон" и "супер смартфон" окажутся в одном кластере, даже если слова разные.

Как интегрировать Harrier-OSS в ваш пайплайн

Модель доступна на Hugging Face, так что интеграция стандартная. Установите transformers и sentence-transformers (обновленные версии на 2026 год). Затем загрузите модель:

Внимание: Для работы с last-token pooling нужно использовать специальный класс HarrierTransformer из библиотеки sentence-transformers v3.0+. Не пытайтесь использовать стандартный SentenceTransformer — он не поддерживает last-token pooling.

После загрузки модели создание эмбеддингов происходит в одну строку. Для семантического поиска вам понадобится векторная база данных, например, Qdrant, Weaviate или ChromaDB. Если вы строите локальный RAG-пайплайн, ознакомьтесь с архитектурой локального RAG-пайплайна, чтобы понять, как совместить векторный поиск с SQL.

Кому нужна Harrier-OSS, а кому лучше остаться на старых моделях

Harrier-OSS — не панацея. Вот кому она подойдет:

Разработчики мультиязычных приложений: Если ваш сервис работает на нескольких языках, особенно включая низкоресурсные, Harrier-OSS даст immediate boost в точности.
Команды, строящие оффлайн RAG: Открытая лицензия и высокая производительность делают модель идеальной для встраивания в собственные системы.
Исследователи и data scientists: Для экспериментов с кластеризацией, классификацией или поиском.

А кому не стоит переходить? Если у вас только английские тексты и вы уже настроили пайплайн на BGE-v3, разница может не стоить усилий. Также если вы используете облачные embedding API (OpenAI, Cohere) и не хотите управлять инфраструктурой, Harrier-OSS не для вас — нужно развернуть модель самостоятельно.

💡

Совет: Попробуйте Harrier-OSS в задачах кластеризации коротких текстов, например, твитов или запросов поддержки. Last-token pooling здесь может дать неожиданно хорошие результаты по сравнению с mean pooling.

Что дальше? Прогноз на 2027

Microsoft уже анонсировала, что работает над Harrier-OSS v2 с архитектурой, основанной на State Space Models (SSM) для более эффективной обработки длинных последовательностей. Ожидается, что v2 будет поддерживать контекст до 8192 токенов без потери качества. Также в планах — мультимодальные эмбеддинги, сочетающие текст и изображения. Для тех, кто интересуется кроссмодальным поиском, уже сейчас есть Amazon Nova Multimodal Embeddings, но открытых аналогов пока мало.

Мой прогноз: к концу 2026 Harrier-OSS станет де-факто стандартом для open-source эмбеддингов, вытеснив BGE с первого места. А разработчики RAG-систем будут массово переходить на эту модель, особенно в мультиязычных сценариях.

Если вы хотите глубже погрузиться в тему поиска и RAG, рекомендую статьи про RAG-чатбот для корпоративных знаний и Mixture-of-Models для LLM.

А вы уже пробовали Harrier-OSS? Делитесь опытом в комментариях.

Подписаться на канал

Microsoft Harrier-OSS: state-of-the-art модель для текстовых эмбеддингов, которая заставит вас пересмотреть ваши пайплайны