Вы когда-нибудь задумывались, почему Amazon находит именно то, что вам нужно, даже если вы описали это тремя кривыми словами? Или почему описания товаров стали читаться как будто их писал живой человек, а не робот из 2010-х? За всем этим стоит Catalog AI — система, которая за последние два года перевернула представление о том, как должен работать маркетплейс. И нет, это не просто «ещё один AI-фильтр».
От хаоса данных к структурированному миру: что на самом деле делает Catalog AI
Представьте: миллионы продавцов, каждый со своим стилем, языком и уровнем грамотности. Один пишет «iPhone 16 Pro Max 1TB Silver», другой — «Айфон шестнадцать про макс серебристый терабайт», третий вообще «Смартфон Apple новый». Раньше это был ад для поиска. Сейчас — сырьё для нейросетей.
Система не просто ищет совпадения. Она понимает контекст, синонимы, даже сленг. Ищете «кроссовки для бега по асфальту»? Она найдёт «дорожные беговые sneakers», даже если продавец не указал «асфальт» нигде. Магия? Нет, многослойная архитектура из специализированных моделей.
Под капотом: какие модели крутят шестерёнки в 2026 году
Здесь всё серьёзно. Никаких универсальных GPT-4, которые «и швец, и жнец». Amazon давно перешла на ансамбли более узких, но эффективных моделей.
| Задача | Основная модель/технология (актуально на 20.01.2026) | Что делает |
|---|---|---|
| Нормализация и структурирование атрибутов | Amazon Nova Multimodal Embeddings v3 | Превращает текст и изображения в вектор, находит дубликаты, приводит названия к единому стандарту. Если интересно, как это работает на практике, у нас есть подробный разбор с примерами кода. |
| Генерация и улучшение описаний | Titan Text Premier (Amazon) + дообученные версии Llama 3.3 | Пишет продающие, но не спамные тексты, выделяет ключевые преимущества из технических характеристик. |
| Прогнозирующий поиск и исправление опечаток | Собственная трансформерная архитектура «SearchBERT-Next» | Предугадывает запрос, исправляет «кроссовки найк» на «кроссовки Nike», понимает, что «ноутбук для игр» и «геймерский лэптоп» — одно и то же. |
| Извлечение атрибутов из изображений | Мультимодальная модель на базе Florence-2, дообученная на каталоге Amazon | Определяет цвет, материал, стиль, бренд по фото, даже если продавец ничего не указал. Кстати, о детекции AI-изображений в ритейле — у Wildberries свой интересный подход. |
Ключевой момент: эти модели работают не изолированно. Они связаны в конвейер, где выход одной становится входом для другой. Сначала изображение анализируется, из него вытаскиваются атрибуты. Потом эти атрибуты вместе с сырым текстом от продавца нормализуются. Затем генерируется описание. И всё это — в реальном времени для нового товара.
Важный нюанс: Amazon не полагается на одну гигантскую модель «для всего». Это дорого, медленно и неэффективно. Вместо этого — множество маленьких, быстрых моделей, каждая из которых решает свою задачу идеально. Похожий принцип «дирижирования» специализированными ИИ сейчас применяют и в архитектуре систем — об этом мы писали здесь.
Где собака зарыта: данные и обратная связь
Любой инженер по машинному обучению скажет вам: модель — это только 20% успеха. Остальные 80% — данные. У Amazon их море. Но не просто сырых, а размеченных поведением миллионов пользователей.
- Неявная разметка: Если пользователь ввёл «дешёвый телефон», кликнул на модель за 15 тысяч, а купил за 20 — система понимает, что «дешёвый» в этом контексте значит «до 25 тысяч».
- Сигналы отказа: Быстрый возврат к результатам поиска после просмотра карточки товара — сильный сигнал, что описание или фото не соответствуют ожиданиям. Это фидбек для моделей генерации и анализа изображений.
- А/Б тестирование в промышленных масштабах: Для 1% трафика генерируется описание по новой версии модели. Сравнивается конверсия, время на странице, количество возвратов. Так отбираются лучшие модели.
Именно этот цикл обратной связи — то, что почти невозможно скопировать новым игрокам. Можно украсть архитектуру, но нельзя украсть триллионы поведенческих сигналов от реальных покупок.
Тёмная сторона: когда ИИ учится на наших предрассудках
Всё звучит идеально, пока не вспомнишь, что модели учатся на человеческих данных. А люди — существа предвзятые. Были инциденты, когда система, анализируя исторические данные о продажах, неявно ранжировала товары от определённых демографических групп ниже. Или генерировала стереотипные описания («кухонный комбайн для хозяйки»).
Amazon пришлось внедрять отдельный слой «дебиасинга» — фильтры, которые отсекают такие паттерны ещё на этапе обучения. Это сложная этическая и техническая задача. Если копнуть глубже, механизмы скрытой дискриминации в ИИ — отдельная большая тема.
Что дальше? От поиска товаров к поиску решений
Следующий логичный шаг, который уже тестируется, — переход от «поиска товара» к «поиску решения проблемы». Пользователь пишет: «Хочу сделать домашний кинотеатр в гостиной». Вместо выдачи списка проекторов и колонок, система предлагает готовые комплекты (бандлы), проверенные на совместимость, с инструкцией по настройке и списком необходимых кабелей.
Для этого Catalog AI начинает интегрироваться с агентскими системами, которые могут планировать действия. Тут уже подключаются другие технологии вроде Google UCP для общения с AI-агентами или специализированных MCP-серверов, как это сделал, например, «ВкусВилл» для заказа продуктов.
И да, это уже не про «найди мне синюю футболку». Это про «спланируй мне отпуск, забронируй всё и собери чемодан». Каталог товаров превращается в каталог возможностей. И скорость поиска для таких сложных агентов — критичный параметр. К счастью, оптимизировать поиск для ИИ-агентов уже научились.
Любопытный факт: часть технологий из Catalog AI уже перетекает в потребительские продукты Amazon. Некоторые элементы умного поиска и понимания контекста можно увидеть в обновлённом Alexa+ в браузере, который позиционируется как конкурент ChatGPT и Gemini. Битва ассистентов — это, по сути, битва архитектур поиска и понимания.
Так что в следующий раз, когда Amazon мгновенно найдёт вам странную запчасть для кофемашины 2005 года выпуска по её фотографии, знайте — это не волшебство. Это многослойный конвейер из нейросетей, который превратил гигантский цифровой хаос в самый удобный магазин на планете. И судя по всему, это только начало.