Птицы съели клубнику. Яндекс.Практикум молчит

Каждое утро выходишь в сад, а там – перья, погрызенные ягоды и чувство глубокой несправедливости. Платные отпугиватели стоят как подержанный ноутбук, а облачные камерные сервисы сливают твое видео в непонятные дата-центры. Знакомая история? Мне надоело. За две недели и 12 долларов на детали я собрал систему, которая отличает синицу от кошки, работает на старом Chromebook и не требует ни облаков, ни ежемесячных подписок.

💡

Фишка не в самой идее (обнаруживать объекты камерой – дело десятое), а в том, как заставить две нейросети работать в паре на процессоре, который с трудом тянет 4K-видео. Секрет – в разделении труда: YOLO быстро ищет 'что-то движущееся', а CLIP вдумчиво отвечает 'птица ли это'.

Что взял из корзины

Железо – это то, на чем нельзя экономить, если не хочешь, чтобы система засыпала при виде воробья. Мой набор:

Chromebook с Intel Celeron N4020 (4 ГБ ОЗУ). Нашел на Amazon за копейки. Подойдет любой ноут с Linux или даже Raspberry Pi 5.
Веб-камера Logitech C270 (дешевая, но сносная для 720p).
Реле на 5В и пьезодинамик – для отпугивания. Купил в местном магазине радиодеталей.

Софт – здесь все интереснее. Вместо того чтобы гонять тяжелые модели в облаке, взял самые легкие версии, оптимизированные для CPU:

Инструмент	Версия (актуально на 30.03.2026)	Задача
Ultralytics YOLO	v11.0.28	Обнаружение всех объектов в кадре (~50 мс)
OpenCLIP	ViT-B/32 (веса от LAION-2B)	Точная классификация 'птица/не птица' (~80 мс)
OpenCV	4.9.0	Работа с видеопотоком

Не вздумай ставить YOLO из pip без указания версии. В марте 2026-го v11 стабильна и быстра на CPU, а v12 (если вышла) может быть сырой. Зафиксируй зависимости в requirements.txt, иначе через месяц все сломается.

1 Ставим Linux на Chromebook и готовим Python-болото

Большинство Chromebook'ов на Intel позволяют включить режим разработчика и поставить полноценный Linux (Debian). Потратил час на гугление – и вот уже bash вместо Chrome OS. Дальше – классика:

sudo apt update
sudo apt install python3.11 python3.11-venv git
mkdir ~/bird_scarer && cd ~/bird_scarer
python3.11 -m venv venv
source venv/bin/activate

Важно: бери Python 3.11 или новее. В 3.12 изменили механизм GIL, и под капотом PyTorch работает на 5-7% быстрее на таких процессорах.

2 Качаем и ужимаем YOLO

YOLOv11n (nano) – наша рабочая лошадка. Она маленькая, но для обнаружения 'чего-то похожего на птицу' хватает с головой. Ставить будем через ultralytics, но сразу отключим загрузку ненужных весов и ускорим инференс.

pip install ultralytics==11.0.28 torch==2.3.0 torchvision --index-url https://download.pytorch.org/whl/cpu

Проверяем, работает ли:

from ultralytics import YOLO
model = YOLO('yolo11n.pt')  # Автоматически скачает
results = model('test.jpg', verbose=False)
print(len(results[0].boxes))  # Число найденных объектов

Если видишь цифру больше нуля – детектор жив. Пора его учить. Но не тренировать с нуля (это долго), а использовать готовую модель и просто подрезать вывод под нужные классы. В своем прошлом материале про YOLO я разбирал тонкую настройку, здесь ограничимся фильтрацией: оставим только классы 'bird', 'cat', 'dog'.

3 Подключаем CLIP – мозг системы

YOLO – паникер. Он кричит 'птица!' при виде воздушного шарика или летучей мыши. Чтобы не включать сирену почем зря, добавим OpenCLIP, который сравнивает вырезанный объект с текстовыми описаниями 'a photo of a bird', 'a photo of a cat', 'a photo of a balloon'.

pip install open-clip-torch==2.24.0

import open_clip
import torch

model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='laion2b_s34b_b79k')
tokenizer = open_clip.get_tokenizer('ViT-B-32')

# Переводим в режим оценки и на CPU
model.eval()
model.to('cpu')

text = tokenizer(['a photo of a bird', 'a photo of a cat', 'a photo of a dog', 'a photo of a balloon'])
with torch.no_grad():
    text_features = model.encode_text(text)
    text_features /= text_features.norm(dim=-1, keepdim=True)

Эта штука жрет 80 миллисекунд на классификацию одного объекта, но зато точность под 95%. Без нее система будет орать на каждый лист бумаги, пролетающий мимо.

4 Сшиваем детектор и классификатор в один конвейер

Алгоритм простой: получаем кадр с камеры → прогоняем через YOLO → для каждого объекта с классом 'bird' вырезаем регион → отправляем в CLIP → если CLIP уверен, что это птица, включаем реле.

Самый важный кусок кода – передача данных между моделями без лишних копирований в память. Вот как это выглядит в работе:

import cv2
from PIL import Image

cap = cv2.VideoCapture(0)  # Или ссылка на IP-камеру
while True:
    ret, frame = cap.read()
    if not ret:
        break
    
    # YOLO
    yolo_results = yolo_model(frame, classes=[14, 15, 16], verbose=False)[0]  # Классы птиц, кошек, собак
    
    for box in yolo_results.boxes:
        if box.cls == 14:  # Предположительно птица
            x1, y1, x2, y2 = map(int, box.xyxy[0])
            crop = frame[y1:y2, x1:x2]
            if crop.size == 0:
                continue
            
            # CLIP
            image = preprocess(Image.fromarray(cv2.cvtColor(crop, cv2.COLOR_BGR2RGB))).unsqueeze(0)
            with torch.no_grad():
                image_features = model.encode_image(image)
                image_features /= image_features.norm(dim=-1, keepdim=True)
                similarity = (image_features @ text_features.T).softmax(dim=-1)
            
            if similarity[0][0] > 0.85:  # Порог уверенности для 'bird'
                print('Птица! Включаю отпугиватель...')
                # Код для GPIO или USB-реле
                activate_scarer()

Используй IP-камеру на старом телефоне с приложением вроде IP Webcam, если не хочешь тянуть USB-кабель через весь сад. Главное – поставить WiFi-точку в зоне покрытия. А если интересно, как встроить ИИ прямо в браузер без копирования пикселей, посмотри материал про Neural-Chromium.

5 Подключаем 'физику' и тестируем

Реле купил за 3 доллара на AliExpress. Подключаю к GPIO Chromebook'а через USB-адаптер (вместо Raspberry Pi). Пьезодинамик – из сломанного будильника. Код для управления:

import RPi.GPIO as GPIO  # Для Raspberry Pi
# Или для USB-реле:
import serial
ser = serial.Serial('/dev/ttyUSB0', 9600)

def activate_scarer():
    ser.write(b'ON')
    time.sleep(2)
    ser.write(b'OFF')

Первый тест показал смешное: система срабатывала на мою кепку с птичьим принтом. Пришлось добавить в CLIP запрос 'a photo of a hat with bird print'. Точность выросла. Общее время обработки одного кадра с одной птицей – 130 мс (50 мс YOLO + 80 мс CLIP). Камера 5 FPS – более чем достаточно, птицы не успевают ничего склевать.

А что если хочется еще проще?

Не у всех есть время возиться с пайкой реле. Альтернативы:

Только YOLO – быстрее, но ложные срабатывания будут. Можно повысить порог уверенности, но тогда пропустишь мелких птиц.
Заменить CLIP на крошечную модель вроде Falcon-H1-Tiny. Она классифицирует изображения за 10 мс, но придется дообучать на своих данных.
Купить готовое устройство – но зачем, если можно собрать свое, которое не шпионит? (Гляньте, как Chrome тайно качает Gemini Nano – моя система так не делает).

Кому этот проект в руки

Если ты – дачник с техническим бэкграундом, студент, изучающий computer vision, или просто человек, уставший от дорогущих 'умных' устройств, этот проект для тебя. Он не требует глубоких знаний в ML (я все шаги расписал), но дает понимание, как работает современный edge-AI.

Дальше можно улучшать: добавить звуковое отпугивание разными сигналами, вести логи с фото нарушителей, или даже подключить Telegram-бота для уведомлений. Главное – система уже работает, потребляет 5 Вт и не зависит от интернета.

Следующий шаг – научить ее отличать ворон от голубей и включать для ворон ультразвук, а для голубей – запись крика ястреба. Но это уже тема для отдельного хакатона.

Подписаться на канал

Как собрать ИИ-отпугиватель птиц на слабом устройстве: YOLO + CLIP на Chromebook за 130 мс