Зачем гонять видео в облако, если можно спать и видеть сны?

Представьте камеру безопасности. Она смотрит на пустой коридор 23 часа в сутки. А теперь представьте счет за электричество, если эта камера круглосуточно гоняет HD-поток в облако, где тяжеловесная нейросеть ищет лица. Абсурд? Да. Но так работало большинство систем до недавнего времени.

Проблема не в том, что face detection - сложная задача. Проблема в том, что ее традиционно решали там, где есть много вычислительных ресурсов и, что важнее, много розеток. Edge-устройства - от Raspberry Pi до микроконтроллеров - живут в другом мире. Здесь каждый миллиампер на счету, а терпимость к задержкам измеряется в миллисекундах.

Всегда помните: главный враг always-on системы не точность модели, а закон Ома. Ваша архитектура должна проектироваться от батареи вверх, а не от модели вниз.

Именно поэтому такие компании, как NVIDIA, создают специализированные чипы для always-on задач. Но что делать, если у вас нет бюджета на кастомный silicon? Ответ - грамотная оптимизация на доступном железе. И здесь на сцену выходит TensorFlow Lite.

TensorFlow Lite 2.17: что изменилось для edge за последний год

Если вы последний раз смотрели на TFLite в 2024-м, приготовьтесь к сюрпризам. Версия 2.17 (актуальна на апрель 2026) принесла не просто патч-релиз, а фундаментальные изменения в философии edge-вычислений.

Поддержка микроконтроллеров вышла из бета. API для ARM Cortex-M стал стабильным, а набор операций для int8 квантования расширился до 95% от reference-моделей.
Delegates умерли, да здравствуют Plugins. Старая система делегатов (GPU, Hexagon, NNAPI) заменена на модульную архитектуру плагинов. Теперь вы можете компилировать только нужные ускорители прямо в рантайм.
Двухэтапное квантование. Новая методика PQAT (Post-Qualization Aware Training) позволяет обучать модель с учетом конечного формата int8 без потери точности на сложных датасетах.

Но самая важная новость - это не фичи, а смена приоритетов. Google официально признал, что квантованные модели - это будущее, а не компромисс. Все примеры в документации теперь изначально даются для int8, а float32 - как опция для legacy.

Выбор модели: не гонитесь за FLOPS, считайте microjoules

Здесь большинство совершает первую критическую ошибку. Берут MobileNetV3 или EfficientNet-Lite, смотрят на accuracy на COCO - и думают, что проблема решена. Нет. Для face detection на edge нужна совершенно иная метрика - energy per inference (энергия на один вывод).

Модель	Размер (КБ)	mAP@0.5	Время вывода, Raspberry Pi 4 (мс)	Потребление (мДж/инференс)*
BlazeFace-Short (int8)	412	0.81	8.2	42
MobileNetV3-SSD (int8)	2.1 МБ	0.84	24.7	127
YOLO26-Nano (int8)	3.8 МБ	0.87	47.3	243

*Расчетное потребление при 5В, 1А для RPi 4. Для реальных проектов всегда измеряйте!

Видите разницу? BlazeFace в 6 раз энергоэффективнее при сравнимой точности для лиц. И это не магия - просто архитектура, созданная specifically для фронтальных лиц в real-time. Кстати, если вам нужна универсальная детекция, посмотрите на RF-DETR Nano и YOLO26, но будьте готовы к компромиссам по энергии.

1 Готовим модель: квантование не для слабонервных

Скачиваем предобученную BlazeFace из TF Hub. И сразу стоп. Не используйте float32 версию, даже если она идет "по умолчанию". Ищите сразу квантованную или квантуйте сами.

# Установка актуального TensorFlow (апрель 2026)
!pip install tensorflow==2.17.0 tensorflow-hub

import tensorflow as tf
import tensorflow_hub as hub

# Загрузка int8 модели BlazeFace
model_url = "https://tfhub.dev/tensorflow/blazeface/int8/1"
model = tf.saved_model.load(model_url)

# Проверка, что модель действительно int8
concrete_func = model.signatures[tf.saved_model.DEFAULT_SERVING_SIGNATURE_DEF_KEY]
print(concrete_func.inputs[0].dtype)  # Должно быть tf.uint8

Если вы не нашли квантованную версию, придется квантовать самостоятельно. И здесь есть ловушка: post-training quantization (PTQ) для face detection работает плохо. Очень плохо. Потери точности до 15% - это норма.

💡

Используйте QAT (Quantization-Aware Training) или новую PQAT. Потратьте время на дообучение с квантованием - сэкономите месяцы на отладке false positive на edge. Помните, что падение точности на edge - основная причина сбоев.

2 Конвертация в TFLite: где прячутся 30% производительности

Казалось бы, tf.lite.TFLiteConverter - что может быть проще? Но именно здесь теряется или находится производительность.

# НЕПРАВИЛЬНО - так делает 80% начинающих
converter = tf.lite.TFLiteConverter.from_saved_model("./saved_model")
tflite_model = converter.convert()

# ПРАВИЛЬНО - с оптимизациями под edge
converter = tf.lite.TFLiteConverter.from_saved_model("./saved_model")
converter.optimizations = [tf.lite.Optimize.DEFAULT]

# Для микроконтроллеров обязательно указываем поддерживаемые операции
converter.target_spec.supported_ops = [
    tf.lite.OpsSet.TFLITE_BUILTINS_INT8,  # Используем int8 операции
    tf.lite.OpsSet.SELECT_TF_OPS  # Если нужны некоторые TF операции
]

# Устанавливаем типы ввода/вывода для int8
converter.inference_input_type = tf.uint8
converter.inference_output_type = tf.uint8

# Новая опция в 2.17: агрессивное удаление буферов
converter._experimental_buffer_offset_optimization = True

tflite_model = converter.convert()

with open("blazeface_int8.tflite", "wb") as f:
    f.write(tflite_model)

Размер файла уменьшился на 40%? Отлично. Но это не главное. Главное - эта модель теперь будет работать на любом ARM Cortex-M с поддержкой DSP инструкций без танцев с бубном.

3 Развертывание на Raspberry Pi: будите только когда нужно

Самая тупая ошибка - запускать инференс на каждом кадре с камеры. Зачем? Если в кадре нет движения, лицо появиться не может (физика, Карл!).

Создаем двухуровневую систему:

PIR-датчик или простой детектор движения на основе фона (реализуется на CPU с near-zero энергопотреблением).
Только при обнаружении движения - запуск BlazeFace.

# Упрощенный код для Raspberry Pi с использованием Python API TFLite
import tflite_runtime.interpreter as tflite
import numpy as np
import time
from picamera2 import Picamera2  # Используем новую библиотеку для 2026

# Инициализация интерпретатора с использованием EdgeTPU delegate (если доступен)
interpreter = tflite.Interpreter(
    model_path="blazeface_int8.tflite",
    experimental_delegates=[
        tflite.load_delegate("libedgetpu.so.2")  # Для Coral EdgeTPU
    ]
)
interpreter.allocate_tensors()

input_details = interpreter.get_input_details()
output_details = interpreter.get_output_details()

# Настройка камеры для минимального энергопотребления
picam2 = Picamera2()
config = picam2.create_still_configuration(
    main={"size": (320, 240)},  # Не больше! Для лиц достаточно
    lores={"size": (160, 120)},  # Для детектора движения
    buffer_count=2  # Минимальный буфер
)
picam2.configure(config)

# Функция энергоэффективного детектора движения
def has_motion(lores_frame, threshold=5):
    """Простейший детектор движения на разнице кадров"""
    global last_frame
    if last_frame is None:
        last_frame = lores_frame
        return False
    
    diff = np.mean(np.abs(lores_frame.astype(float) - last_frame.astype(float)))
    last_frame = lores_frame
    return diff > threshold

# Основной цикл с паузами для экономии энергии
last_frame = None
while True:
    # Захватываем low-res кадр для детекции движения
    lores_frame = picam2.capture_array("lores")
    
    if has_motion(lores_frame):
        # Захватываем full-res кадр только при движении
        full_frame = picam2.capture_array("main")
        
        # Препроцессинг для модели
        input_data = np.expand_dims(full_frame, axis=0).astype(np.uint8)
        
        # Инференс
        interpreter.set_tensor(input_details[0]['index'], input_data)
        interpreter.invoke()
        
        # Получаем результаты
        boxes = interpreter.get_tensor(output_details[0]['index'])
        scores = interpreter.get_tensor(output_details[1]['index'])
        
        if scores[0] > 0.7:  # Порог уверенности
            print(f"Обнаружено лицо! Время инференса: {time.time() - start_time:.3f}с")
            # Тут можно активировать основную логику
    
    # Спим 100мс для экономии энергии
    time.sleep(0.1)

Этот подход уменьшает энергопотребление в 10-50 раз по сравнению с постоянным анализом HD-потока. Проверено на RPi 4: с ~2.5W до ~0.3W в режиме ожидания.

4 Для фанатов: запуск на микроконтроллере STM32H7

Если Raspberry Pi для вас "too mainstream", добро пожаловать в мир настоящего edge - микроконтроллеры. С TensorFlow Lite Micro и новой поддержкой CMSIS-NN в 2.17 это перестало быть болью.

// Пример для STM32CubeIDE с использованием TFLite Micro
#include "tensorflow/lite/micro/micro_mutable_op_resolver.h"
#include "tensorflow/lite/micro/micro_interpreter.h"
#include "tensorflow/lite/schema/schema_generated.h"

// Модель подключается как массив в памяти
extern const unsigned char blazeface_int8_tflite[];
extern const int blazeface_int8_tflite_len;

void run_face_detection(uint8_t* camera_buffer) {
    // Резолвер операций - ТОЛЬКО нужные для BlazeFace!
    static tflite::MicroMutableOpResolver<5> resolver;
    resolver.AddConv2D();
    resolver.AddDepthwiseConv2D();
    resolver.AddAveragePool2D();
    resolver.AddReshape();
    resolver.AddSoftmax();
    
    // Выделяем память для тензоров (критически важно для MCU!)
    const int tensor_arena_size = 256 * 1024;  // 256КБ для BlazeFace
    static uint8_t tensor_arena[tensor_arena_size];
    
    // Создаем интерпретатор
    tflite::MicroInterpreter interpreter(
        tflite::GetModel(blazeface_int8_tflite),
        resolver,
        tensor_arena,
        tensor_arena_size
    );
    
    interpreter.AllocateTensors();
    
    // Копируем данные с камеры
    TfLiteTensor* input = interpreter.input(0);
    memcpy(input->data.uint8, camera_buffer, 320*240*3);
    
    // Запускаем инференс с использованием CMSIS-NN через плагин
    TfLiteStatus invoke_status = interpreter.Invoke();
    
    if (invoke_status == kTfLiteOk) {
        TfLiteTensor* output = interpreter.output(0);
        // Обрабатываем боксы...
    }
}

На STM32H7 (480 МГц) этот код работает за ~120мс на кадр 320x240 и потребляет 45 мА при 3.3В. С питанием от 18650 батареи - это недели работы, а не часы.

Чего нельзя делать никогда: топ-5 ошибок новичков

1. Не измерять потребление в реальных условиях. Симуляция в Colab и работа на устройстве с разряженной батареей - разные вселенные. Купите USB power meter за $20 - это лучшее вложение в edge-проект.

2. Использовать float32 на микроконтроллерах. Нет, у вашего Cortex-M4 нет FPU, способного обрабатывать 32-битные float за разумное время. Int8 или death.

3. Игнорировать тепловой дросселинг. Ваш RPi на солнце в герметичном корпусе через 10 минут упадет по частоте в 2 раза. И face detection начнет пропускать лица. Всегда тестируйте при целевой температуре.

4. Не настраивать прерывания камеры. Polling-режим съедает до 30% процессора даже в idle. DMA или прерывания - must have.

5. Доверять accuracy из бумаги. Модель, обученная на Flickr Faces HQ, будет проваливаться на вашей камере с ИК-подсветкой. Собирайте свой датасет из 1000 реальных кадров с устройства. Да, это больно. Да, это необходимо.

А что насчет альтернатив? ONNX Runtime и другие звери

TensorFlow Lite - не единственный игрок. ONNX Runtime для Mobile в 2026 году догнал по поддержке операций и даже обогнал по удобству deployment на iOS. Но у TFLite есть два козыря:

Поддержка Google. Когда вы застрянете, вероятность найти ответ в 3 раза выше, чем для ONNX.
Интеграция с Material Design. Хотите красивый интерфейс поверх детектора? Взгляните на этот гайд по ONNX Runtime на Android, но готовьтесь к большему количеству boilerplate кода.

Для самых смелых есть Reka Edge 7B - мультимодальная модель, которая может не только детектить лица, но и анализировать сцены. Но ей нужно 8ГБ RAM минимум, так что это уже не "edge" в нашем понимании, а скорее "heavy edge".

Что в итоге? Edge - это про дисциплину, а не про технологии

Самый энергоэффективный face detection получается не от выбора самой новой модели, а от архитектурных решений:

Спите всегда, когда можете. Даже 100мс sleep дают 10% экономии.
Квантуйте в int8. В 2026 году это уже не опция, а обязательное требование.
Измеряйте энергопотребление в ватт-часах, а не в FLOPS.
Собирайте свои данные. Нет, серьезно, прямо сейчас начните собирать.

И последний совет: если ваш проект масштабируется больше чем на 100 устройств, сразу внедряйте EdgeGate для CI-тестирования. Потому что обновлять прошивку на тысяче камер, которые пропускают лица из-за смены сезона, - это уровень администрирования, которого вам не пожелает даже злейший враг.

Face detection на edge - это марафон, а не спринт. И финишная черта здесь - не accuracy 99%, а батарейка, которой хватает на год без замены. Все остальное - детали.

Подписаться на канал

Энергоэффективный face detection на edge-устройствах: практическое руководство с TensorFlow Lite