Одна картинка — готовый ассет. Минута — и ты владелец

Признайся: когда ты в последний раз вручную лепил 3D-модель? Не в Blender-е, а «с нуля» — полигон за полигоном. Если ты не профессиональный моделлер с десятилетним стажем, ответ скорее всего «никогда». Потому что это адски долго, трудоёмко и требует навыков, которых у большинства нет. Именно поэтому весь мир ждал, когда же AI научится делать из фотографии не просто кубик с текстурой, а настоящий игровой ассет. И вот — TRELLIS.2 от Microsoft.

Предыдущая версия, TRELLIS, уже умела неплохо генерировать объёмные формы, но финальный результат часто напоминал пластилиновую поделку: геометрия есть, а детализация и материалы — из 2010-го. Вторая версия превращает эту пластилиновую заготовку в объект, который не стыдно загрузить в Unreal Engine. И вот что стоит за этим апгрейдом.

Ключевое открытие: TRELLIS.2 использует новый тип 3D VAE (вариационный автоэнкодер), который сжимает разрешение объёмных данных в 16 раз — с 1536³ до 384³ токенов. Это позволяет нейросети обрабатывать огромные области без потери качества и генерировать сложные детали.

4 миллиарда параметров — это перебор или необходимость?

Давай посмотрим правде в глаза: 4B параметров — это не просто цифра для пресс-релиза. Это в 2–3 раза больше, чем у ближайших open-source конкурентов. Например, популярный Hunyuan3D 2 Mini оперирует примерно 1–1.5B параметров. Больше параметров — больше способность модели запоминать паттерны реальных объектов: фактуры дерева, ржавчины, хромированного металла. Но есть и обратная сторона: такие сети сложнее обучать и запускать. Microsoft, по слухам, тренировала TRELLIS.2 на нескольких кластерах A100 в течение месяцев. Но пользователю об этом думать не надо — инференс на одном A100 занимает около 40–60 секунд. Для любительского сегмента, где GPU скромнее, придётся использовать облачные инстансы или довольствоваться упрощённой версией.

PBR — это не просто буквы, а спасение для продакшена

Фишка, из-за которой геймдев-команды должны немедленно заинтересоваться: TRELLIS.2 генерирует PBR-материалы (Physically Based Rendering) — переводит: roughness, metallic, normal map, ambient occlusion. Все, кто хоть раз пытался получить из AI картинку «металлического робота» и потом вручную совмещать шейдеры, знают, как это бесит. Здесь же нейросеть сразу выдаёт раздельные каналы. Достаточно одного изображения — и на выходе готовый к импорту ассет с физически корректным освещением, который не поплывёт в движке.

Сравните с подходами, где сначала генерировали карту высот или нормал-мап из картинки — это было шаманство с фильтрами и пятнистыми артефактами. TRELLIS.2 делает это за один проход. Это не эволюция — это революция для 3D VAE.

Как не надо генерировать 3D: опыт ошибок

До TRELLIS.2 open-source Image-to-3D напоминал лотерею. Модели вроде Point-E от OpenAI давали облака точек — не меш, а просто «примерное расположение». Потом появились TripoSG и Modly, но они требовали 2–3 ракурса и всё равно ошибались в симметрии. Часто на выходе была «булка» с натянутым материалом. TRELLIS.2 же использует диффузию в латентном пространстве, а не просто регрессию — это даёт более качественную геометрию и избегает эффекта «сдутого шара».

Три сценария, где TRELLIS.2 уже сейчас меняет правила

1 Инди-геймдев: прототипирование за час

Вам нужен персонаж или предмет интерьера — накидываете скетч в GLM-Image или Qwen-Image, получаете картинку, скормиваете TRELLIS.2 — и вуаля, готовый меш с картами. Не нужно нанимать моделлера для прототипа.

2 E-commerce и каталоги: 3D-версии товаров из одного фото

Сфотографировали кроссовок — модель готова для AR-примера. PBR-материалы позволяют менять цвет и текстуру на лету. Раньше это делали руками, тратя по 2–3 дня на объект.

3 3D-печать: от картинки к физическому объекту без Blender

Помните полный цикл создания 3D-игрушки с помощью ИИ? С TRELLIS.2 этот цикл сокращается до пары кликов: картинка → меш → экспорт STL. Конечно, геометрию нужно будет немного почистить, но база — гораздо лучше, чем раньше.

Альтернативы: кто ещё дышит в спину

Модель	Параметры	PBR	Разрешение меша	Лицензия
TRELLIS.2	4B	Да	1536³	MIT
Hunyuan3D 2	~1.5B	Нет	1024³	CC BY-NC
TripoSG	~2B	Частично	1024³	MIT
Point-E	~1B	Нет	Только точки	MIT

Пока звание «лучший open-source Image-to-3D» остаётся за TRELLIS.2. Но Hunyuan3D и TripoSG не дремлют — возможно, к лету выйдут конкуренты. Однако PBR-материалы дают Microsoft значительное преимущество для продакшена.

Технический сок: как работает магия 16x сжатия

TRELLIS.2 основан на диффузионной модели, которая работает в латентном пространстве 3D VAE. Обычный 3D-кодировщик (например, Oktree) захлебнулся бы на 1536³ вокселях. Но новый VAE сжимает объём в 16 раз — до 384³ латентных векторов. Это позволяет обрабатывать десятки миллионов точек без взрыва памяти. К тому же VAE обучали на смеси синтетических и реальных данных, что дало робастность к разным стилям картинок.

Кстати, если сравнивать с LLaMA 3.1, генерирующей 3D-мебель, то там модель работает через автокодировщик текстовых описаний — это более грубый метод. TRELLIS.2 понимает «изображение» напрямую, что даёт детальность на уровне фото.

Кому я НЕ советую пробовать прямо сейчас

Если у вас GTX 1060 и ноутбук на 16 ГБ ОЗУ — забудьте. TRELLIS.2 требует минимум 24 ГБ видеопамяти для полной версии. Есть облегчённая версия (TRELLIS.2-Lite) с 2B параметров, которая влезает в 16 ГБ, но качество текстур там заметно хуже. Идеальный сценарий: инференс на облачном инстансе с A100 через Gradio-интерфейс. Для локального запуска можно использовать решения вроде Modly.

Важно: модель пока не стабильно генерирует лица и сложные анатомические формы. Для персонажей лучше дорабатывать вручную или использовать специализированные решения.

Будущее: 3D-генерация перестанет быть наказанием

К концу 2026 года, скорее всего, все крупные игроки (NVIDIA, OpenAI, Google) тоже выкатят свои Image-to-3D с PBR. Но Microsoft сейчас задала такую планку, что догонять придётся долго. TRELLIS.2 стал первым open-source инструментом, который решает проблему «качество-скорость-цена» без компромиссов. Мой совет: закиньте в закладки репозиторий, подпишитесь на обновления и при первой же возможности протестируйте модель на своей задаче. Потому что ручное моделирование из 2024-го — это как чистить картошку ножом, когда есть овощерезка.

А если вы всё ещё думаете, что «нейросети не умеют 3D», попробуйте запустить TRELLIS.2 сами — ваше мнение изменится через минуту.

Подписаться на канал

TRELLIS.2 от Microsoft: 4 миллиарда причин забыть о ручном моделировании