Google Gemini Live: тест новой функции голосового поиска с ИИ | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Инструмент

Как Google Gemini сделал голосовой поиск по-настоящему человечным: тест новой функции Live

Обзор функции Live with Search в Google Gemini. Как новая аудио-модель делает голосовой поиск естественным и разговорным. Сравнение с аналогами.

Революция в голосовом поиске: от команд к диалогу

Голосовой поиск существует уже более десяти лет, но до недавнего времени он напоминал скорее голосовой набор команд, чем естественный разговор. Пользователь формулировал четкий запрос, система его распознавала, выполняла поиск и выдавала результат — чаще всего в виде текстового фрагмента из «Википедии». Диалога не получалось.

С выходом функции Live with Search в приложении Google Gemini ситуация кардинально изменилась. Google интегрировал в свой голосовой помощник новую, специально обученную аудио-модель на базе флагманского ИИ Gemini. Теперь взаимодействие стало по-настоящему разговорным, с естественными паузами, уточняющими вопросами и контекстным пониманием.

💡
Live with Search — это не просто голосовой ввод в чат. Это отдельный режим, активируемый нажатием на иконку микрофона, который запускает непрерывный аудио-диалог с ИИ, специально оптимизированный для поиска информации и решения задач.

Ключевые возможности Gemini Live: что умеет новая функция

После недели тестирования функции на разных устройствах можно выделить несколько ключевых особенностей, которые отличают её от всего, что было раньше.

1Естественный, непрерывный диалог

Больше не нужно каждый раз нажимать кнопку для нового запроса. Вы говорите, ИИ слушает, отвечает и ждет продолжения. Система умеет распознавать контекстную связь между репликами. Например, после вопроса «Какая погода в Сочи?» можно сразу уточнить: «А на выходные?» — и Gemini поймет, что речь всё ещё о погоде в Сочи.

2Голос с эмоциями и паузами

Это, пожалуй, самое заметное улучшение. Голос синтеза речи стал невероятно человечным. В нём появились естественные микропаузы, легкие изменения интонации в зависимости от содержания, акценты на ключевых словах. Ответы звучат так, как если бы их начитывал живой человек, а не робот. Это сильно снижает когнитивную нагрузку при восприятии информации на слух.

Важно: для работы функции требуется стабильное интернет-соединение, так как обработка аудио происходит на стороне серверов Google. Это отличает её от таких инструментов, как with.audio, где синтез речи выполняется локально в браузере.

3Умение уточнять и задавать встречные вопросы

Если запрос слишком расплывчатый, Gemini не просто выдаст общий ответ, а спросит, что именно вас интересует. Например, на вопрос «Расскажи про квантовые компьютеры» может последовать уточнение: «Вас интересуют базовые принципы работы или последние достижения в этой области?» Это делает поиск более точным и эффективным.

4Интеграция с поиском и другими сервисами Google

Live с Search не ограничивается знаниями языковой модели. Он в реальном времени ищет актуальную информацию в Google Поиске, может показывать картинки, карты, видео (на экране устройства) и параллельно комментировать их голосом. Это создает эффект полноценного ассистента, который действительно помогает исследовать тему.

Сравнение с альтернативами: кто впереди?

Платформа / АссистентТип взаимодействияЕстественность речиКонтекстный диалогИнтеграция с поиском
Google Gemini (Live)Непрерывный разговорОчень высокаяОтличнаяПрямая, в реальном времени
Apple SiriКоманда-ответСредняяОграниченнаяЧерез Safari
Amazon AlexaКоманда-ответ (с элементами диалога)СредняяХорошаяОграниченная (в основном покупки)
ChatGPT Voice (бесплатный)Диалог с задержкамиВысокаяОтличнаяНет (только знания модели)

Как видно из таблицы, главное преимущество Gemini Live — это сочетание продвинутого, естественного диалога на базе мощной LLM (Gemini) с мгновенным доступом к актуальному поиску Google. ChatGPT Voice может вести более глубокий разговор на общие темы, но без доступа к свежим данным из интернета в реальном времени.

Примеры использования в реальной жизни

Вот несколько сценариев, где функция Live with Search раскрывается полностью:

  • Планирование поездки: «Я хочу поехать в Грузию в мае. Что посмотреть?» → после ответа: «Составь примерный маршрут на 5 дней» → «Сколько это будет стоить?». Весь диалог проходит голосом, без единого нажатия на клавиатуру.
  • Помощь в обучении: Можно изучать сложную тему, задавая уточняющие вопросы и прося объяснить «как для пятилетнего». Функция работает как терпеливый репетитор.
  • Решение бытовых проблем: «У меня на Android перестал работать Wi-Fi» → Gemini может предложить пошаговую инструкцию по устранению неполадок, задавая уточняющие вопросы о модели телефона и симптомах. Это напоминает принцип работы AI-агента для SSH, но для повседневных задач обычного пользователя.
  • Исследование товаров: «Нужна новая беспроводная колонка для улицы. Что выбрать до 10 тысяч рублей?» → Ассистент найдет актуальные модели, озвучит плюсы и минусы, может перейти к сравнению.

Кому подойдет Gemini Live?

Функция станет незаменимым инструментом для:

  1. Занятых людей, которые ценят время. Готовить ужин, вести машину или заниматься спортом и параллельно получать информацию голосом — идеальный сценарий.
  2. Визуалов и аудиалов, которые лучше воспринимают информацию на слух, чем при чтении с экрана.
  3. Специалистов, которым нужно быстро погрузиться в новую тему. Live с Search работает как мощный инструмент для первоначального ресерча, подобно Skill Seekers для документации, но в голосовом формате.
  4. Людей с ограниченными возможностями, для которых голосовое управление — основной способ взаимодействия с технологиями.

Интересный факт: технология, лежащая в основе естественного голоса Gemini, — это шаг к созданию полноценных цифровых аватаров. Принципы, используемые здесь, могут быть применены в таких проектах, как Lemon Slice-2, для оживления визуальных персонажей.

Ограничения и будущее

Пока функция доступна не во всех странах и требует установки отдельного приложения Google Gemini (заменяющего старого Google Assistant на некоторых устройствах). Иногда в сложных диалогах можно «выпасть» из контекста, особенно если между репликами была большая пауза.

Однако направление развития очевидно: голосовые интерфейсы становятся основным способом взаимодействия с ИИ. Google сделал огромный шаг, превратив поиск из транзакции в беседу. И, судя по скорости развития, вскоре мы увидим интеграцию этой технологии в другие продукты, включая умные колонки, автомобили и, возможно, даже инструменты для разработчиков вроде Syrin, для отладки голосовых агентов.

Итог: Google Gemini Live with Search — это не эволюция, а маленькая революция в голосовом поиске. Он наконец-то стал по-настоящему человечным: терпеливым, разговорчивым и понимающим. И это только начало.