Локальная AI-платформа для умного дома: почему семья разработчика её игнорирует

Два EPYC, четыре видеокарты и тишина на кухне

Сергей, backend-разработчик из Новосибирска, показывает мне свою «игрушку»: серверную стойку в кладовке. Внутри урчит процессор AMD EPYC 9654, работают две RTX 4090 и две RTX 3090. На них крутятся модели Llama 3.2 90B Vision, три разные нейросети для речи и векторная база со всей документацией по дому. Это полгода работы и больше 2 миллионов рублей в железе. Это его локальная AI-платформа для умного дома.

«Жена вчера второй раз за месяц попросила Алису включить музыку», - говорит он без эмоций. «Сын, когда ему нужно узнать расписание уроков, пишет в семейный чат. Они знают, что мой ассистент может всё это сделать. Просто... не хотят».

💡

На 01.03.2026 локальные модели типа Llama 3.2 90B, Qwen2.5 72B и новые Mixtral 8x22B обеспечивают качество, сравнимое с GPT-4 2024 года. Но их запуск требует серьёзного железа: минимум 48-64 ГБ VRAM для квантованных версий. Стоимость «входа» в локальный AI с нуля начинается от 400-500 тыс. рублей за систему с одной RTX 4090 (24 ГБ) или использованной A100 (40/80 ГБ).

Что умел этот монстр, кроме потребления киловатт?

Сергей открывает панель управления. Там не простой веб-интерфейс, а целая система агентов.

Голос на пороге. Камера в подъезде через локальную детекцию лиц понимала, кто пришёл. Ассистент голосом сообщал дома: «К вам идёт Алексей, курьер из СДЭК». Жена сказала, что это «жутко» и попросила отключить.
RAG для всего. Система индексировала PDF-ки с инструкциями к технике, расписаниями, даже рецептами. Можно было спросить: «На какой полке лежит насадка для блендера?» и получить точный ответ из мануала. Никто не спросил ни разу.
Контекстный умный дом. Интеграция с Home Assistant была на уровне агента: «Похоже, ты собираешься спать. Выключить свет везде, кроме коридора, и понизить температуру на 2 градуса?». Семья предпочитала клацнуть выключатель.

«Я читал про проекты вроде AI-монстра в одной коробке и думал – вот, сделаю идеальную версию. Но идеальную для кого? Для себя. А пользоваться должны были другие».

Провал №1: три секунды – это вечность

Главная техническая проблема, которую Сергей так и не смог победить до конца, – латенси. Его система на полном стеке (STT → LLM → планировщик задач → TTS) отвечала за 2.5-3 секунды. Алиса или Google Assistant отвечают за 0.8-1.2 секунды.

«Для меня, инженера, разница в 1.5 секунды – это вызов. Я оптимизировал конвейеры, кэшировал эмбеддинги, игрался с квантованием. Спустился до 2.1 секунды. Но эти адские 0.9 секунды до «коммерческого» уровня требовали или нереального инженерного труда, или перехода на модели сильно меньше, что убивало качество. Выбор между «умный, но медленный» и «глупый, но быстрый» – это выбор в пользу проигрыша».

На 2026 год главный тренд в edge-AI – микроархитектуры, работающие на малых (<3B) или даже крошечных (<1B) моделях с фокусом на мгновенный отклик. Подходы вроде Sarvam AI и микро-ИИ на краю сети показывают, что будущее за специализированными, а не универсальными агентами.

Провал №2: «Просто скажи, какая погода»

Сергей построил систему с глубоким контекстом и планированием. Его ассистент мог вести многоуровневый диалог, строить граф знаний о предпочтениях семьи. Но 95% запросов в быту – примитивны. «Включи свет», «Поставь таймер», «Какая погода». Для этого не нужен Llama 3.2 90B. Для этого хватит скрипта на старом Raspberry Pi.

«Я создал Cognitive OS для дома, а семья хотела улучшенный голосовой пульт. Мы говорили на разных языках. Моя жена однажды сказала гениальную вещь: «Мне не нужен искусственный интеллект. Мне нужен искусственный внимательный слуга, который не умничает».

Что теперь? Свалка железа или урок на миллион?

Сергей не собирается останавливать сервер. Часть мощностей он отдал под fine-tuning моделей для своих pet-проектов. Интеграцию с Home Assistant оставил, но переключил на триггеры по расписанию, а не по голосу. Система теперь молча делает свою работу: ночью понижает температуру, утром включает кофеварку.

«Это горький, но самый полезный урок в моей карьере, – резюмирует он. – Локальный AI – не про то, чтобы запихнуть самую крутую модель в свою кладовку. Это про то, чтобы решить конкретную проблему человека, который даже не знает, что такое RAG или векторная база. Если ты не можешь объяснить преимущество твоего монстра перед кнопкой на стене – ты проиграл. Семья мне это доказала».

Его история – не уникальна. В чатах энтузиастов умного дома таких «заброшенных проектов» десятки. Люди собирают своего Jarvis на Python, экспериментируют с запуском моделей на смартфонах, но сталкиваются с одной стеной: технологии принимают, только когда они становятся невидимыми.

Иронично, но самая востребованная «AI-фича» в доме Сергея сейчас – это не его многомодельный монстр, а простая нейросеть в камере видеонаблюдения, которая беззвучно шлет уведомление «Во дворе кошка». Эту штуку используют все. Потому что она делает одну вещь. И делает её вовремя.

Подписаться на канал

AI-сервер на 4 видеокартах, RAG и умный дом: история, которую никто не оценил

Два EPYC, четыре видеокарты и тишина на кухне

Что умел этот монстр, кроме потребления киловатт?

Провал №1: три секунды – это вечность

Провал №2: «Просто скажи, какая погода»

Что теперь? Свалка железа или урок на миллион?

Подписывайтесь на наш канал!