Спутник с AI-зрением: Gemma 3 на орбите находит объекты по запросу | AiManual
AiManual Logo Ai / Manual.
15 Июн 2026 Новости

Первый в мире спутник с AI-зрением: как Gemma 3 на орбите находит объекты по текстовым запросам

Loft Orbital и JPL запустили первый спутник с VLM на борту: Gemma 3 ищет объекты по тексту в реальном времени. Как edge AI меняет космическую разведку.

Реклама
partv1

Пока мы на Земле спорим, можно ли доверить нейросети управление чат-ботом, в космосе произошло нечто иное. 14 июня 2026 года на орбиту вышел спутник, который не просто снимает Землю, а понимает, что видит. И делает это без команды с Центра управления полетами. Просто по текстовому запросу.

Миссия получила кодовое название Orbital Vision. Запуск — совместный проект Loft Orbital (они делают «шаттлы» для полезной нагрузки) и Лаборатории реактивного движения NASA (JPL). На борту CubeSat размером с обувную коробку — модель Google Gemma 3 с 2 миллиардами параметров. И да, это первая в истории демонстрация vision-language model (VLM) в реальной космической среде.

Главное отличие от предыдущих спутников с ИИ

Раньше на орбите использовали сверточные сети для детекции объектов (например, Planet Labs обрабатывает снимки Земли с помощью классификаторов, но это жестко зашитые классы). Orbital Vision понимает естественный язык: вы пишете «найди круги на полях в Небраске» — и спутник сам выбирает нужные кадры, не скачивая всё подряд.

Как это работает? Никакой магии. Только Edge AI

Спутник оснащен мультиспектральной камерой, которая делает снимки с разрешением 1,5 метра на пиксель. Обычно такие данные передаются на Землю по каналу связи — это занимает часы, а иногда и дни (если спутник вне зоны видимости). Orbital Vision режет этот цикл: вся обработка происходит прямо на борту, на одноплатном компьютере с ускорителем NPU.

Модель Gemma 3, обученная на задачу Visual Question Answering (VQA) и grounded captioning, загружена в память спутника. Оператор отправляет текстовый запрос через API Loft Orbital — например: «покажи все корабли в порту Лос-Анджелеса за последние 24 часа». Спутник, пролетая над нужной зоной, делает снимки, пропускает их через VLM и возвращает только те кадры, которые соответствуют запросу, с bounding boxes и кратким описанием. Задержка от запроса до ответа — около 5 минут, включая ожидание пролета.

💡
Для сравнения: аналогичный запрос через традиционную цепочку «снять — передать — обработать на земле — ответить» занимает в среднем 4–6 часов. Orbital Vision ускоряет процесс в 50 раз.

Почему именно Gemma 3, а не что-то помощнее?

Гугловская Gemma 3 — легковесная модель семейства, специально заточенная под edge-сценарии. На орбите каждый килограмм и каждый ватт на счету. Gemma 3 (2B) весит в сжатом виде около 1,2 ГБ и потребляет менее 5 Вт при инференсе на ускорителе. Это позволило установить её на CubeSat без увеличения массы и батарей.

(Кстати, инженеры JPL пробовали запустить Gemma 4 12B — она первая ручное тестирование показала отличную точность, но потребление 30 Вт и объем более 7 ГБ не влезли в бюджет мощности спутника. Так что компромисс: точность чуть ниже, но зато модель реально летает.)

Что уже нашли на орбите

За первые сутки тестового полета спутник обработал 47 запросов от команды JPL. Самые интересные результаты:

  • Поиск «красных крыш» в пригороде Мехико — модель нашла 83% объектов с точностью детекции 91% (валидировано по земным снимкам).
  • «Облака в форме буквы S» — казалось бы, абстрактный запрос, но Gemma 3 справилась: из 12 предполагаемых облачных структур верно идентифицировала 9.
  • «Строительная техника на стройплощадке» — 100% попадание: модель распознала экскаваторы и самосвалы, хотя на фото они были размером 10–15 пикселей.

Погрешность есть, конечно. Например, на запрос «лодки с белыми парусами» модель дважды выдала яхты с синими тентами — перепутала цвет. Но для первой версии это не провал, а повод дообучить на космических данных.

Связь с земными проектами: от слепых до лесов

Самое забавное, что Gemma 3 на орбите — близкий родственник тех моделей, которые помогают незрячим людям ориентироваться в пространстве. Ранее мы писали, как Gemma Vision помогает слепому брату — та же архитектура, но на земле. А тут — на 400 км выше. Получается, что edge AI стирает границу между помощью человеку и мониторингом планеты.

Кстати, победители недавнего Kaggle Challenge по адаптации Gemma 3n для людей с когнитивными нарушениями (читайте здесь) тоже работали с той же легковесной архитектурой. То есть технология, которая помогает видеть слабовидящим, теперь помогает «видеть» спутнику.

Ирония судьбы: когда-то космические технологии спускались на Землю (тефлон, невесомость). Теперь — наоборот. Земные модели и open-source веса Google (Gemma 3) поднимаются в космос. И это только начало.

Что дальше? Автономная группировка и Gemma 4

Loft Orbital уже анонсировали вторую фазу проекта — запуск созвездия из 6 спутников с улучшенной VLM на базе Gemma 4. Как показало тестирование Gemma 4, новая модель может обрабатывать не только изображения, но и аудио, что открывает возможности для детекции взрывов, ультразвука или даже ракетных пусков по шуму. (Правда, в вакууме звук не передается — но JPL думают о сейсмических датчиках на астероидах.)

А пока — первый блин выходит не комом. Спутник с Gemma 3 на орбите доказывает: будущее космической разведки за моделями, которые понимают человеческий язык. Не нужно больше писать сложные SQL-запросы к каталогам снимков. Можно просто сказать: «Найди мне что-нибудь интересное». И спутник сам решит, что интересно.

Кстати, для тех, кто хочет попробовать аналогичную технологию на земле: на Kaggle уже есть победитель, создавший офлайн-ассистента для слепых на Gemma 3n. Запускаете на Raspberry Pi — и у вас в руках почти спутник, только без выхода в космос.

Подписаться на канал