Qwen3.5 Omni Plus vs Gemini 3 Pro: тест мультимодального ИИ от Alibaba | AiManual
AiManual Logo Ai / Manual.
30 Мар 2026 Новости

Qwen3.5 Omni Plus: тест мультимодального гиганта от Alibaba и сравнение с Gemini

Тестируем Qwen3.5 Omni Plus от Alibaba — мультимодальную модель с Audio-Visual Vibe Coding. Сравнение с Gemini 3 Pro по работе с видео и кодом. Кто сильнее на п

Китайский всеядный монстр против западного левиафана

Alibaba Cloud на этой неделе тихо выкатила Qwen3.5 Omni Plus — самую мощную мультимодальную модель в своей линейке. Не просто апгрейд, а заявка на войну. В презентации прямо говорят: превосходит Gemini 3 Pro в задачах анализа видео и аудио. Мы взяли ранний доступ к API и устроили лобовой тест.

Заявки громкие. Модель понимает и генерирует текст, изображения, аудио, видео — всё нативно, без костылей из отдельных модулей. Фишка — технология Audio-Visual Vibe Coding. Звучит как маркетинговая абракадабра, но на деле это попытка закодировать «атмосферу» сцены: эмоции в голосе, движение камеры, даже саундтрек. В теории, это должно давать невероятный контекст для генерации.

💡
Актуальность на 30.03.2026: Qwen3.5 Omni Plus — последняя версия мультимодальной серии от Alibaba. Для сравнения мы использовали Gemini 3 Pro (версия от января 2026) и Gemini 3 Flash, где это было уместно. Все тесты проводились в марте 2026 года.

Audio-Visual Vibe Coding — это не магия, а очень сложная математика

Объясняют просто: модель учится связывать визуальные паттерны с аудиоволнами в едином скрытом пространстве. Видит, как герой в кадре размахивает руками, и связывает это с нарастающим громким звуком — значит, ссора. Слышит тихую фортепианную мелодию и статичный кадр — значит, грусть.

На практике это означает, что вы можете загрузить 10-секундный клип из фильма и попросить: «Опиши эмоциональную дугу персонажа». Или дать скриншот интерфейса и сказать: «Сгенерируй код для этой кнопки, но добавь анимацию, как в том видео с презентацией Apple». И модель должна понять, какая именно анимация имеется в виду.

Тест на разрыв: от скриншота до работающего веб-приложения

Мы начали с классической задачи screenshot-to-code. Дали обеим моделям (Qwen3.5 Omni Plus и Gemini 3 Pro) идентичный скриншот минималистичного дашборда из Figma. Запрос: «Напиши React-компонент с Tailwind CSS, который реализует этот интерфейс».

КритерийQwen3.5 Omni PlusGemini 3 Pro
Семантическая версткаОтлично, использует semantic tagsХорошо, но иногда div-суп
Точность стилей (Tailwind)~95%, ошибки в отступах~90%, путает flex и grid
Интерактивность (JSX)Генерирует базовый useState хукЧасто забывает обработчики событий
Скорость ответа (средняя)3.2 секунды4.1 секунды

Qwen выиграл этот раунд, но с небольшим отрывом. Интересно, что в более раннем подробном бенчмарке по screenshot-to-code разница между предшественниками была более заметной. Omni Plus явно училась на ошибках Qwen 3.5.

Главный бой: видео как контекст для генерации кода

Вот где началась настоящая магия (или её отсутствие). Мы загрузили 5-секундное видео, где круглая кнопка плавно увеличивается при наведении (мягкий bounce-эффект). Запрос для моделей был одинаковый: «Создай код этой анимации на CSS». Никаких дополнительных пояснений.

Gemini 3 Pro выдал корректный, но абсолютно generic код CSS transform: scale(). Никакого bounce. Когда мы уточнили: «Сделай точь-в-точь как в видео», модель попросила более детального текстового описания анимации. То есть, видео как контекст она проигнорировала.

Qwen3.5 Omni Plus сделал именно то, что мы хотели. Сгенерировал ключевые кадры (keyframes) с анимацией bounce, почти идеально повторив динамику из ролика. Это и есть пресловутый Audio-Visual Vibe Coding в действии — модель «поняла» характер движения.

Однако, не всё гладко. Когда мы попросили на основе этого же видео «дописать JavaScript для обработки клика с таким же feeling», Qwen сгенерировал код с debounce, но само событие сделало примитивно. Модель уловила «вибрацию» визуала, но не перенесла её на логику. Gemini в аналогичной ситуации просто отказался, сославшись на неоднозначность запроса.

💡
Для быстрых и дешевых задач, где не требуется глубокий анализ видео, возможно, лучше подойдет Gemini 3 Flash. Но если нужен именно анализ «атмосферы» медиафайла, Qwen3.5 Omni Plus — единственный вариант на рынке.

Где спотыкается новый король?

Мультимодальность — не панацея. В чисто текстовых reasoning-задачах, особенно на логику и математику, Omni Plus всё еще отстает от Gemini 3 Pro. Мы дали несколько задач из набора AIME 2025 — Gemini решил 7 из 10, Qwen — только 4.

Ещё большая проблема — доступ. API Qwen3.5 Omni Plus пока работает только через Alibaba Cloud и для китайских разработчиков (или тех, у кого есть местный бизнес-аккаунт). Попробовать модель в деле так просто не получится. Google же открыл Gemini 3 Pro и Flash для всех через AI Studio и Vertex AI еще в конце 2025 года.

И последнее — цена. Alibaba не раскрывает тарифы, но инсайдеры говорят, что стоимость вызова Omni Plus в 1.5-2 раза выше, чем у Gemini 3 Pro за тот же объем токенов. За уникальную технологию придётся платить.

И что в итоге? Выбор зависит от вашей боли

Если ваша работа завязана на анализе или генерации видео-контента, и вам критично понимать контекст, а не просто объекты в кадре — Qwen3.5 Omni Plus это единственный реальный выбор. Audio-Visual Vibe Coding — не маркетинг, а работающая фича, которая опережает всё, что есть у Google.

Если же вам нужна стабильная, всесторонне развитая модель для текста, кода, изображений и базового анализа видео — Gemini 3 Pro остаётся безопасным и более доступным вариантом. Его reasoning-способности, как показали 40 лайфхаков для Gemini 3, можно выжать до предела.

Битва гигантов в 2026 году смещается с количества параметров в качество мультимодального понимания. Alibaba сделала рискованный, но сильный ход. Google теперь придётся отвечать не просто более крупной моделью, а новой архитектурой, которая сможет «чувствовать» медиа. А пока — мы наблюдаем разделение: Запад доминирует в reasoning, Восток — в эмоциональном интеллекте для AI.

Совет? Не зацикливайтесь на одном вендоре. Для скриншот-ту-кода берите Gemini Flash (дешево и быстро). Для сложного анализа видео снимайте ранний доступ к Qwen, как только он откроется глобально. А для локального экспериментирования присмотритесь к квантованным Qwen2.5 на своей видеокарте. Будущее — за ансамблем узкоспециализированных моделей, а не за одним универсальным, но компромиссным монстром.

Подписаться на канал