Transfer learning в биоакустике: Perch 2.0 от Google распознаёт китов | 17.03.2026

Голубой кит поет на частоте 14 герц. Человеческое ухо его не слышит. Даже гидрофон, записывающий эти инфразвуки, без специальной обработки выдаст только тишину. И вот вам классическая проблема биоакустики: как искать то, что не слышишь, в терабайтах океанского шума?

Ответ пришел с суши. От птиц.

Адаптер для планеты: от трелей к песням

Perch 2.0, вышедшая в начале 2026 года, - это не просто апгрейд модели, которая отлично справлялась с птицами. Это фундаментальный сдвиг в философии. Разработчики из Google DeepMind решили, что нейросеть, натренированная на щебетании воробьев и криках сов, может понять китовый диалект. Звучит как абсурд, но сработало.

💡

Transfer learning (трансферное обучение) - это когда модель, обученная решать одну задачу (распознавание птиц), дообучается на маленьком наборе данных для решения другой, но похожей задачи (распознавание китов). Perch 2.0 использует этот принцип на уровне архитектуры, что радикально снижает потребность в данных.

Вот цифры, от которых у экологов кружится голова. Для обучения классической модели на китах с нуша потребовались бы десятки тысяч размеченных часов записей. Их просто нет в природе. Perch 2.0, используя предобученные представления о биоакустических паттернах птиц, добилась точности в 89% по восьми видам китообразных, дообучившись всего на 400 часах аннотированного подводного звука. Четыреста против десятков тысяч. Это не улучшение - это другая лига.

Как заставить синицу понимать горбача

Секрет в новой модульной архитектуре Perch 2.0. Модель разделили на универсальный «слуховой кортекс» (общая часть, обученная на миллионах записей птиц, млекопитающих и амфибий) и сменные «адаптеры» для конкретных доменов. Хочешь слушать китов - загружаешь китовый адаптер, обученный на тех самых 400 часах. Нужны насекомые тропического леса - ставишь другой модуль. Это напоминает принцип EmbeddingAdapters, но для raw audio.

«Мы не учим модель слышать кита, - объясняет технический лид проекта в недавнем интервью. - Мы учим её выделять из шума структурированные вокальные коммуникации. А уж птица это, кит или, возможно, инопланетянин - решает легковесный адаптер».

Задача / Модель	Нужно данных для обучения	Точность (F1-score)	Время инференса (1 час записи)
Киты, модель с нуля (2024)	~15 000 часов	72%	45 мин.
Киты, Perch 2.0 + адаптер (2026)	400 часов	89%	3.5 мин.
Птицы, оригинальный Perch	Более 1 млн часов	96%	2.1 мин.

Тихо! ИИ слушает океан

Практическое применение уже тестируют в Тихом океане. Автономные буи с чипами, способными запускать компактную версию Perch 2.0, круглосуточно анализируют акустическую обстановку. Они не просто ищут китов. Они отслеживают маршруты их миграции в реальном времени, предупреждая суда о необходимости снизить скорость. Это может сократить смертность от столкновений на 30-40% в следующие пять лет.

Но не все так гладко. Экологи отмечают, что модель все еще путает песни горбатого кита с шумом винта некоторых ледоколов. Это та самая проблема, когда нейросети ошибаются из-за аномалий в данных. Без человека в петле проверки все равно не обойтись.

А что с другими областями? Инженеры уже экспериментируют с адаптацией подхода Perch для мониторинга технической инфраструктуры - от предсказания поломок турбин по звуку до анализа сейсмической активности. Принцип тот же: обучили на одном типе «пения» (птицы), дообучили на другом (скрежет металла).

Что дальше? Слушать то, чего нет

Самый провокационный вопрос, который задают разработчикам: сможет ли Perch 2.0 обнаружить вид, который никогда не был записан? Теоретически - да. Если в новом аудиопотоке появится сложная, повторяющаяся вокальная структура, не похожая ни на что в тренировочных данных, модель может пометить её как «аномалию, требующую изучения». Фактически, это инструмент для открытия новых видов или, что более мрачно, сигнал об исчезновении старых, когда привычная песня перестает звучать.

Фишка в том, что для работы с такими передовыми методами трансферного обучения нужна серьезная база. Если вам интересно не просто читать, а разобраться в подобных архитектурах, стоит посмотреть на практические курсы по Deep Learning, где разбирают подобные кейсы (партнерская ссылка).

Итог? Perch 2.0 не решает всех проблем биоакустики. Она создает новый шаблон для их решения. Забудьте о сборе гигантских датасетов для каждой новой задачи. Будущее - за легковесными адаптерами, которые доучивают универсальный слух AI под голос любого обитателя планеты. От китов до кузнечиков. А может, и за ее пределами. Главное - начать слушать.

Подписаться на канал

Perch 2.0: Как Google учит нейросеть слушать китов, натренировав её на птицах

Адаптер для планеты: от трелей к песням

Как заставить синицу понимать горбача

Тихо! ИИ слушает океан

Что дальше? Слушать то, чего нет

Подписывайтесь на наш канал!