Представьте: вы смотрите на снимок УЗИ, но видите не то, что мог бы увидеть прибор. Каждый пиксель уже прошел через фильтры, сглаживание и постобработку. Часть информации потеряна навсегда. Врач ставит диагноз по этой урезанной картинке. А что если нейросеть возьмет сырой radio-frequency (RF) сигнал — тот самый, который возвращается от тканей, — и вытащит из него максимум?
Именно это сделали NVIDIA и Siemens Healthineers. Их новая модель NV-Raw2Insights-US — это фундаментальная модель (foundation model) для ультразвука, обученная на сотнях тысяч необработанных RF-сигналов. Она не просто улучшает картинку, она переосмысливает сам подход к ультразвуковой диагностике. И да, модель открыта на Hugging Face.
Ключевая идея: вместо того чтобы учить нейросеть распознавать артефакты на готовом изображении, модель учится понимать физику распространения звуковой волны в тканях. Это позволяет реконструировать сцену с гораздо большей точностью.
Почему традиционное УЗИ — это компромисс
Любой ультразвуковой сканер работает в два этапа. Сначала пьезоэлемент посылает импульс, принимает отражения (RF-сигнал). Потум DSP-чип превращает этот сигнал в картинку с помощью лучевого формирования, фильтрации и логарифмического сжатия. Каждый шаг — потеря динамического диапазона, разрешения и информации о фазе сигнала.
AI-модели, которые сегодня используются в УЗИ (например, для сегментации или классификации), работают уже с готовыми B-mode изображениями. Они видят только то, что решил показать производитель сканера. NV-Raw2Insights-US берет RF-сигнал напрямую. Это как дать нейросети сырую фотографию в формате RAW вместо JPEG.
Архитектура: физически-информированное машинное обучение
Название NV-Raw2Insights-US расшифровывается как NVIDIA Raw to Insights - Ultrasound. Модель построена на основе transformer-архитектуры с весами 340M (около 340 миллионов параметров). Этого достаточно, чтобы улавливать сложные нелинейные зависимости в сигнале, но не слишком много для развертывания на GPU среднего класса.
1 Входные данные: RAW RF-сигнал
Каждый фрагмент — это временная последовательность амплитуд после вычитания Доплеровского сдвига (IQ-данные). Модель принимает 256 сэмплов за раз, что соответствует примерно 40 микросекундам реального времени.
2 Физически-информированный кодировщик
В отличие от обычных трансформеров, которые учатся любым паттернам, NV-Raw2Insights-US использует Physics-Informed Neural Network (PINN) в качестве дополнительного слоя. Этот слой принуждает сеть учитывать уравнение волнового распространения. Звучит как магия? На практике это значит, что модель не выдумывает артефакты, а опирается на законы физики — как будто она знает, как звук должен вести себя в однородной среде.
3 Декодер: реконструкция изображения и сегментация
Выход модели — сразу три вещи: чистое B-mode изображение (с улучшенным соотношением сигнал-шум), карта вероятности наличия патологий (например, опухолей) и маска анатомических структур. Всё за один проход. Никаких отдельных сеток для каждой задачи.
| Характеристика | Традиционный B-mode | NV-Raw2Insights-US |
|---|---|---|
| Входные данные | Обработанное изображение (8 бит) | Сырой RF-сигнал (16+ бит) |
| Потери информации | Высокие (этапы DSP) | Минимальные |
| Физическая согласованность | Отсутствует | Встроена через PINN |
| Мультизадачность | Нужны отдельные модели | Одна модель — три выхода |
| Размер модели | — | 340M параметров |
Сравнение с альтернативами
На рынке уже есть несколько foundation model для медицинской визуализации. Например, USFM (Ultrasound Foundation Model) от Google Health обучен на 2 миллионах B-mode изображений. Но он не видит сырой сигнал. Другой конкурент — EchoNet-Dynamic от Стэнфорда — специализируется на эхокардиографии, но тоже требует готового видео.
NV-Raw2Insights-US выигрывает за счет доступа к физической сути процесса. По данным статьи NVIDIA, на датасете Breast Ultrasound Dataset (BUS) модель показала улучшение PSNR на 3.2 дБ и SSIM на 0.12 по сравнению с best-in-class методами реконструкции из RF (DL-based). Это не просто приятное улучшение — это клинически значимая разница: тени, реверберации и аберрации подавляются без потери мелких структур.
💡 Инсайт: Физически-информированное обучение снижает риск переобучения на артефакты конкретного сканера. Обычные модели компьютерного зрения страдают от этого — мы рассказывали в статье "Почему падают модели компьютерного зрения". NV-Raw2Insights-US менее подвержена таким сбоям.
Где это применить прямо сейчас
Модель доступна в открытом доступе, и вы уже можете попробовать её на своих данных. Потребуется конвертировать RF-сигнал в формат .h5 с фиксированным числом сэмплов. Процесс описан в репозитории Hugging Face.
1 Улучшенная визуализация без замены сканера
Клиники могут подключить модель к существующему УЗИ-оборудованию с RF-выходом (например, Siemens Acuson, Philips Epiq) и получать картинку лучшего качества без апгрейда железа. Это особенно актуально в развивающихся странах, где доступ к новым сканерам ограничен — вспомните, как Бразилия платит за GPU в три раза больше, но УЗИ-аппараты там старые.
2 Автоматическая сегментация в реальном времени
Благодаря встроенному декодеру модель может выделять границы органов, сосудов или новообразований на лету. Это облегчает работу врача и сокращает время обследования. В перспективе такие модели интегрируются в клинические рабочие станции — NVIDIA уже активно работает над этим вместе с партнерами вроде AWS в облачной инфраструктуре.
3 Дообучение под конкретные клинические задачи
На основе предобученной модели можно дообучить классификатор на малый датасет (например, 50-100 размеченных случаев). Это намного быстрее и дешевле, чем обучение с нуля. Исследователи из Стэнфорда уже провели эксперименты: дообучение заняло 4 часа на одной A100.
Подводные камни
Не всё так радужно. Во-первых, модель требует RF-данных, которые не все сканеры выдают. Во-вторых, она обучена на ограниченном наборе органов (грудь, щитовидная железа, печень). Для других областей нужна адаптация. В-третьих, хотя модель открыта, для её инференса нужен GPU — не каждый ноутбук потянет 340M-параметровую сеть.
Кому нужна эта модель
- Ультразвуковым исследователям, которые хотят выжать максимум из данных, а не пересказывать банальные B-mode картинки.
- Разработчикам AI в медицине, ищущим опору в физике, а не в бесконечной аугментации данных (привет, DeepMind).
- Клиникам-новаторам, которые готовы интегрировать софт в свои процессы (особенно при поддержке IT-инфраструктуры).
- Производителям УЗИ-сканеров, которые хотят добавить AI-ускорение без полного редизайна аппаратов.
Если вы всё ещё считаете, что AI в медицине — это только красивые картинки для презентаций, взгляните на этот проект. NV-Raw2Insights-US — пример того, как союз физики и глубокого обучения способен поднять планку качества там, где традиционные методы уперлись в потолок. И при этом модель открыта — бери и пробуй.