Чем ваш AI-агент отличается от Ansible или Terraform?

Наш AI-агент не заменяет традиционные инструменты автоматизации, а дополняет их. В отличие от Ansible, который работает по жестким playbook'ам, наш агент может анализировать ситуацию, адаптироваться к нестандартным условиям и принимать решения на основе контекста.

Насколько безопасно давать ИИ доступ к инфраструктуре через SSH?

Безопасность — наш приоритет. Мы используем многоуровневую систему защиты: ограниченные привилегии, обязательное подтверждение критических операций, полный аудит всех действий, изоляцию SSH-сессий. Пользователь всегда контролирует, какие команды может выполнять ИИ.

Какие ИИ-модели вы используете?

Мы используем комбинацию моделей: компактные локальные модели для простых задач (например, Liquid AI LFM2-2.6B) и мощные облачные модели (OpenAI, Anthropic, GLM 4.7) для сложного анализа. Это позволяет балансировать между скоростью, стоимостью и качеством.

Можно ли использовать ваш инструмент в полностью локальной среде?

Да, мы предлагаем как облачную версию, так и возможность развернуть решение локально. Для локального развертывания можно использовать локальные LLM через инструменты вроде LM Studio или llama.cpp.

Стартап: ИИ для DevOps через SSH | AI-агенты для инфраструктуры

От идеи к продукту: как родился проект

Всё началось с простой, но болезненной проблемы: наши DevOps-инженеры тратили часы на рутинные задачи по обслуживанию инфраструктуры. Проверка логов, перезапуск сервисов, мониторинг дискового пространства — всё это требовало постоянного внимания и отвлекало от стратегических задач.

Мы попробовали использовать существующие инструменты автоматизации, но они либо были слишком сложными в настройке, либо не могли адаптироваться к нестандартным ситуациям. Именно тогда пришла идея: а что если научить ИИ работать с инфраструктурой напрямую, через SSH, как это делает человек?

💡

Ключевое отличие нашего подхода — ИИ работает не через API или специальные интерфейсы, а через SSH-сессию, точно так же, как опытный системный администратор. Это позволяет интегрироваться с любой инфраструктурой, независимо от её конфигурации.

Техническая реализация: как работает наш AI-агент

Основная сложность заключалась в том, чтобы научить языковую модель не просто генерировать команды, а понимать контекст инфраструктуры, анализировать результаты выполнения команд и принимать решения на основе этой информации.

1Архитектура решения

Мы построили систему на основе трёх ключевых компонентов:

SSH-шлюз — безопасный прокси для подключения к целевым серверам
Оркестратор задач — планировщик и монитор выполнения операций
AI-ядро — языковая модель, которая анализирует, планирует и выполняет задачи

2Рабочий процесс AI-агента

Когда пользователь ставит задачу (например, "проверь, почему медленно работает сайт"), система работает по следующему алгоритму:

# Упрощенный пример рабочего процесса
async def diagnose_slow_website(server_ip):
    # 1. Установка SSH-соединения
    async with SSHClient(server_ip) as client:
        
        # 2. Сбор диагностической информации
        commands = [
            "top -bn1 | head -20",
            "df -h",
            "netstat -tulpn | grep :80",
            "tail -100 /var/log/nginx/access.log"
        ]
        
        results = {}
        for cmd in commands:
            output = await client.execute(cmd)
            results[cmd] = output
            
        # 3. Анализ данных AI-моделью
        analysis = await ai_analyze(results)
        
        # 4. Выполнение корректирующих действий
        if "high load" in analysis:
            await client.execute("systemctl restart nginx")
            return "Перезапущен nginx из-за высокой нагрузки"
        
    return analysis

Ключевые возможности платформы

Возможность	Описание	Пример использования
Автоматическая диагностика	ИИ анализирует состояние системы и выявляет проблемы	"Найди причину медленной работы базы данных"
Плановое обслуживание	Автоматическое выполнение рутинных задач	"Очисти старые логи, если диск заполнен на 80%"
Аварийное реагирование	Автоматическое восстановление после сбоев	"Если сервис упал — перезапусти его и отправь уведомление"
Безопасность	Контроль доступа и аудит всех действий	Все команды логируются и требуют подтверждения для критических операций

Сравнение с альтернативами

На рынке существует несколько подходов к автоматизации инфраструктуры:

Важно понимать, что наш продукт не заменяет традиционные инструменты вроде Ansible или Terraform, а дополняет их, добавляя интеллектуальный слой поверх существующей автоматизации.

Решение	Преимущества	Недостатки	Когда выбирать
Наш AI-агент	Гибкость, адаптивность, работа с нестандартными ситуациями	Требует обучения под конкретную инфраструктуру	Для динамических сред, где нужен интеллектуальный анализ
Ansible/Terraform	Декларативность, идемпотентность, сообщество	Жесткие playbook'и, сложность с нестандартными задачами	Для повторяющихся, хорошо определенных задач
Кастомные скрипты	Полный контроль, оптимизация под конкретные нужды	Сложность поддержки, нет адаптивности	Для уникальных, редко меняющихся процессов
Мониторинг (Prometheus)	Отличный сбор метрик, алертинг	Только мониторинг, без автоматических действий	Для наблюдения и алертинга

Реальный кейс: автоматизация обслуживания кластера Kubernetes

Один из наших первых клиентов — компания со сложным Kubernetes-кластером из 50+ нод. Их проблема: инженеры постоянно отвлекались на рутинные задачи типа:

Поиск и удаление завершенных Pod'ов
Очистка Docker-образов
Мониторинг использования ресурсов
Диагностика проблем с сетевыми политиками

Мы настроили AI-агента, который теперь выполняет эти задачи автоматически. Вот пример конфигурации:

# Конфигурация задачи для Kubernetes-кластера
tasks:
  - name: "cleanup_finished_pods"
    trigger:
      schedule: "0 */2 * * *"  # Каждые 2 часа
      condition: "pods_finished > 10"
    actions:
      - "kubectl get pods --all-namespaces | grep Completed | awk '{print \"kubectl delete pod \" $2 \" -n \" $1}' | sh"
    notification:
      on_success: false
      on_failure: true

  - name: "monitor_node_resources"
    trigger:
      schedule: "*/15 * * * *"  # Каждые 15 минут
    actions:
      - "kubectl top nodes"
      - "kubectl describe nodes | grep -A 10 -B 5 'OutOfMemory\|OutOfDisk'"
    ai_analysis:
      enabled: true
      instructions: "Проанализируй использование ресурсов. Если какая-то нода использует больше 90% памяти или CPU более 10 минут, предложи решение."

Результат: команда DevOps сократила время на рутинные задачи на 70%, а количество инцидентов, связанных с нехваткой ресурсов, уменьшилось на 40%.

Технические детали реализации

Для работы с ИИ мы рассмотрели несколько вариантов. Изначально пробовали локальные модели через LM Studio и llama.cpp, но для продакшена выбрали облачные API из-за стабильности и скорости.

Интересно, что для некоторых задач мы используем компактные модели вроде Liquid AI LFM2-2.6B для предварительной обработки команд, а уже затем отправляем сложные задачи в более мощные модели.

Архитектурный стек:

Бэкенд: Python + FastAPI + AsyncSSH
AI-модели: Комбинация локальных и облачных (OpenAI, Anthropic, GLM 4.7 от Zhipu)
Очереди задач: Redis + RQ
Хранилище: PostgreSQL для метаданных, S3 для логов
Интерфейс: React + Tailwind CSS

Кому подойдет наш инструмент?

Аудитория	Проблема	Как мы помогаем
Стартапы	Нет бюджета на полноценную DevOps-команду	Автоматизируем рутину за небольшую плату
Крупные компании	DevOps-инженеры перегружены рутиной	Освобождаем время для стратегических задач
Агентства	Много клиентов с разной инфраструктурой	Единый инструмент для всех клиентов
Разработчики	Нужно управлять инфраструктурой без глубоких знаний DevOps	Интерфейс на естественном языке

Будущее развития

Сейчас мы работаем над несколькими ключевыми улучшениями:

Поддержка большего количества протоколов — кроме SSH, добавим WinRM, Telnet, Serial
Интеграция с существующими системами — Ansible, Terraform, Kubernetes Operators
Улучшенное обучение моделей — специализированные модели для разных типов инфраструктуры
Сообщество шаблонов — пользователи смогут делиться конфигурациями задач

Мы верим, что будущее DevOps — за интеллектуальной автоматизацией, где ИИ не просто выполняет скрипты, а понимает контекст, учится на ошибках и предлагает оптимальные решения.

💡

Если вы хотите попробовать наш инструмент в действии или обсудить потенциальное сотрудничество — напишите нам. Мы всегда открыты к диалогу с инженерами и единомышленниками.

Выводы и рекомендации

Создание стартапа на стыке ИИ и DevOps оказалось сложной, но невероятно интересной задачей. Ключевые уроки, которые мы извлекли:

Безопасность — прежде всего: Любой инструмент, работающий с SSH, должен иметь многоуровневую систему защиты
Постепенное внедрение: Начинайте с самых болезненных, но наименее критичных задач
Человек в цикле: ИИ должен помогать, а не заменять инженеров полностью
Постоянное обучение: Каждая ошибка — возможность улучшить модель

Если вы рассматриваете подобные технологии для своей инфраструктуры, начните с малого: автоматизируйте одну конкретную задачу, измерьте эффект, и только потом масштабируйтесь. И помните — лучший инструмент тот, который решает вашу конкретную проблему, а не тот, у которого больше всего функций.

Как мы сделали стартап, научив ИИ работать с реальной инфраструктурой через SSH