Nvidia на CES 2025 устроила шоу. Опять. Но на этот раз не видеокартами, а заявлением о «ChatGPT моменте для физического ИИ». Их новый инструмент — модель Alpamayo. 10 миллиардов параметров, доступ на Hugging Face, и обещание научить машины думать в реальном мире. Звучит как маркетинговая шумиха? Возможно. Но под капотом есть что посмотреть.

Что такое Alpamayo и почему все вдруг заговорили о VLA

Alpamayo — это Vision-Language-Action (VLA) модель. Грубо говоря, она смотрит на мир (видео, изображения с камер), понимает команды на естественном языке и выдает действия для робота или автомобиля. Не просто распознает объекты, а строит цепочки рассуждений: «Впереди пешеход, скорость 50 км/ч, расстояние 30 метров — нужно начать плавное торможение».

💡

VLA-модели — это следующий шаг после мультимодальных. Они не просто описывают картинку, а планируют действия в физическом пространстве. Alpamayo здесь не первая, но одна из первых, которую Nvidia выкатила в открытый доступ.

Архитектура? Основана на трансформерах, конечно. Но с хитрыми механизмами внимания, которые связывают визуальные токены с текстовыми и токенами действий. Память контекста — до 128k токенов. Это много. Достаточно для анализа длинных видеопоследовательностей.

Доступ и установка: не ждите простой кнопки «Download»

Модель выложили на Hugging Face. Но это не готовая библиотека в один клик. Вам понадобится Python, PyTorch, и, конечно, CUDA. Без GPU с хорошей памятью — даже не думайте. Для полноценного fine-tuning'а нужны ресурсы уровня дата-центра или как минимум несколько RTX 4090. Если вы выбираете железо для таких экспериментов, посмотрите сравнение RTX 5060 Ti vs RX 9060 XT для локальных LLM.

pip install transformers torch accelerate
# И еще куча зависимостей, которые обязательно сломаются
# на вашей версии Ubuntu

Загрузка модели выглядит стандартно для Hugging Face:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nvidia/alpamayo-10b-v1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

Внимание: полная модель весит около 20 ГБ в половинной точности. Убедитесь, что на диске есть место. А лучше используйте NVMe SSD, иначе загрузка затянется на часы.

Fine-tuning: где взять данные и как не сломать модель

Базовая Alpamayo обучена на огромных наборах данных: симуляционные среды, размеченные видео реального мира, синтетические сгенерированные сцены. Но для вашей конкретной задачи — например, автономной уборки склада — этого мало. Нужно дообучать.

Проблема номер один: данные. Нужны пары (видео, текст, действие). Собирать их в реальном мире дорого и долго. Поэтому Nvidia предлагает использовать синтетические данные из симуляторов вроде NVIDIA DRIVE Sim или Isaac Sim. Генерируйте тысячи сценариев, рендерите, размечайте автоматически — и вперед.

1 Подготовка датасета

Данные должны быть в формате, который понимает модель. Обычно это JSONL, где каждая строка — пример с полями «image_paths», «instruction», «action». Действие — это массив чисел (например, углы поворота руля, ускорение).

# Пример записи в датасете
{
  "image_paths": ["frame_001.png", "frame_002.png", "frame_003.png"],
  "instruction": "Поверни налево на перекрестке, уступая дорогу пешеходу",
  "action": [0.15, -0.02, 0.0, 0.1]
}

2 Запуск обучения

Используйте стандартные инструменты для fine-tuning'а LLM, например, PEFT (Parameter-Efficient Fine-Tuning) с LoRA. Это сэкономит память и время. Полное обучение 10B модели с нуля — удел корпораций с кластерами DGX. О стратегиях масштабирования для смертных читайте в этом руководстве.

from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Конфигурация LoRA
lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1,
    bias="none"
)

model = get_peft_model(model, lora_config)
# Дальше стандартный Trainer от Hugging Face

Сравнение с альтернативами: что есть на рынке кроме Alpamayo

Открытых VLA-моделей, готовых к использованию, мало. Есть исследовательские проекты вроде RT-2 от Google, но они не всегда доступны для скачивания. Tesla использует собственные наработки, но их код вы в открытом виде не найдете.

Модель	Разработчик	Доступ	Особенности
Alpamayo	Nvidia	Hugging Face	10B параметров, акцент на автономное вождение
RT-2	Google	Исследовательский, код есть	Робототехника, меньше параметров
OpenVLA	Сообщество	GitHub	На основе Llama, требует сборки

Alpamayo выделяется интеграцией с экосистемой Nvidia: симуляторы, инструменты для развертывания на Jetson Orin, оптимизация под TensorRT. Если вы уже в этой экосистеме — выбор очевиден. Если нет, готовьтесь к боли переноса на другую платформу.

Пример использования: от команды к действию за 5 строк кода

Допустим, у вас есть робот-платформа с камерой. Вы хотите, чтобы он объехал препятствие. С Alpamayo это выглядит так:

import cv2
import torch
from PIL import Image

# Захват кадров с камеры
cap = cv2.VideoCapture(0)
ret, frame = cap.read()
image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))

# Подготовка ввода
prompt = "Объезжай препятствие справа, двигаясь медленно"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
image_input = processor(images=image, return_tensors="pt").to(model.device)

# Генерация действия
with torch.no_grad():
    outputs = model.generate(**inputs, **image_input, max_new_tokens=10)
action = tokenizer.decode(outputs[0], skip_special_tokens=True)
# action теперь содержит массив чисел для контроллера

На практике все сложнее. Нужна калибровка, преобразование действий в команды моторам, обратная связь. Но основа — вот она.

Кому подойдет Alpamayo, а кому лучше бежать от нее

Эта модель — не для всех. Если вы стартап в области автономных транспортных средств и у вас есть доступ к симуляторам Nvidia — это ваш выбор. Если вы исследователь в университете и хотите поэкспериментировать с VLA — тоже подойдет, но готовьтесь к затратам на железо.

Но если вы просто хотите поиграться с ИИ на своем ноутбуке — даже не думайте. Модель сожрет всю память и не запустится. Для локальных экспериментов лучше взять что-то меньшее, например, Falcon H1R 7B для рассуждений или посмотреть на использование NPU для локальных LLM.

Интеграторы корпоративных решений — вот основная аудитория Alpamayo. Те, кто строит автономные склады, логистические системы, роботов-курьеров. Им нужна модель, которую можно дообучить под конкретный сценарий и развернуть на серийном железе.

Что будет дальше? Прогноз от скептика

Nvidia явно хочет стать стандартом для «мозгов» автономных систем. Alpamayo — только первый шаг. Дальше будут более легкие версии для edge-устройств, возможно, даже квантизация до 4 бит. Но главная битва развернется вокруг данных. Тот, у кого больше разнообразных данных из реального мира и симуляций, получит лучшую модель. Открытые датасеты для VLA пока в зачаточном состоянии.

Совет: если вы серьезно нацелены на эту область, начните с симуляций. Купите лицензию на Isaac Sim или используйте открытые альтернативы. Генерируйте свои данные. Потому что предобученная Alpamayo — это лишь основа. Магия будет в ваших дообученных весах.

И да, держите под рукой много GPU. Очень много. Или арендуйте облако. Иначе «ChatGPT момент для физического ИИ» обойдется вам в круглую сумму.

Alpamayo от Nvidia: как заставить ИИ думать за рулем (и не врезаться)