Зачем собирать эту коллекцию? Потому что выбор инструментов сломал мозг

Открываешь Hacker News или GitHub Trending и видишь очередной 'революционный' инструмент для работы с LLM. Через неделю о нем забывают, появляются три новых. Попробуй собери здесь работающий стек для проекта - упрешься в стену из 300 опенсорсных репозиториев, половина из которых заброшена.

Эта шпаргалка - результат месяцев тестов, слива воды и разочарований в непонятных README. Здесь только то, что работает в 2026 году. Никаких теоретических рассуждений, только железо и софт.

Важный момент: все инструменты проверены на актуальность 11.04.2026. Если читаете это позже - некоторые детали могли устареть. Всегда смотрите дату последнего коммита.

Локальные модели: когда интернет - для слабаков

Запускать 70-миллиардные модели на ноутбуке - уже не фантастика, а рутина. Но какой движок выбрать? Вот три столпа, на которых все держится.

Ollama 0.5.7 (актуально на апрель 2026)

Стандарт де-факто. Установил, скачал модель одной командой, запустил. Под капотом - оптимизированный llama.cpp, но вам об этом думать не надо.

# Базовая установка и запуск модели Llama 3.2 11B
ollama run llama3.2:11b\n

Почему все его используют? Потому что не надо возиться с компиляцией, квантование на лету, встроенный API. Идеально для прототипирования. Хотите глубже - читайте наш полный гид по Ollama и альтернативам.

llama.cpp + менеджеры моделей

Если Ollama - это автоматическая коробка, то llama.cpp - механика с турбонаддувом. Больше контроля, больше оптимизаций под ваше железо. Но и больше боли.

Для тех, кто не хочет собирать из исходников, есть обертки. LM Studio когда-то был королем, но сейчас выбор гораздо шире. На Mac обратите внимание на AFM MLX 0.9.7 - обертка для Apple Silicon с кучей фич вроде Telegram-бота. Полный обзор здесь.

Совет по железу: если у вас свежая RTX 6000 Pro Blackwell 96GB и вы думаете, какую модель для кодирования на ней гонять, у нас есть отдельный разбор. Спойлер: Qwen2.5-Coder-32B-Instruct на полной точности - монстр.

Бесплатные API: когда свое железо кончилось

Локально - это круто, но не у всех есть GPU за 10 тысяч долларов. Для тестов, для продакшена с переменной нагрузкой - берем облако.

Сервис	Что дает бесплатно	Подвох
OpenRouter	$1 на старте, доступ к 100+ моделям	Кредиты быстро кончаются
Together AI	Бесплатный тариф с лимитами	Очереди на бесплатных моделях
Hugging Face Inference Endpoints	2 бесплатных инстанса	Только для публичных моделей

OpenRouter - мой фаворит для экспериментов. Единый API для десятков провайдеров. Не понравилась одна модель - тут же переключился на другую, без переписывания кода.

IDE и редакторы: где код пишет сам себя

ChatGPT в браузере - это для новичков. Настоящие разработчики интегрируют LLM прямо в среду разработки.

Cursor (и его опенсорсные клоны)

Cursor взорвал рынок в 2024. Потом команда куда-то пропала, а сообщество создало открытые альтернативы. История странная, но Kilo Code стал убийцей.

Если не хотите рисковать с молодыми проектами, берите VS Code с расширениями. Установите модифицированный VS Code для локальных LLM и подключите Ollama. Работает почти как Cursor, но бесплатно и под вашим контролем.

MCP (Model Context Protocol) - следующий уровень

MCP - это не просто автодополнение кода. Это когда IDE подключается к вашим данным, инструментам, API. Представьте: вы пишете 'найди баг в последнем коммите', и IDE лезет в git, анализирует изменения, запускает тесты.

Хотите попробовать? Explyt Spring MCP - мощный сервер с кучей коннекторов. Для работы с кодом-графами есть MCP-сервер с 120x сокращением токенов. Для реверс-инжиниринга - Ghidra MCP Server с 110 инструментами.

💡

MCP серверы - самая быстрорастущая категория инструментов. За месяц появляется штук 10 новых. Если работаете с узкоспециализированными данными (Jira, Figma, внутренние базы), ищите или делайте свой MCP сервер.

RAG фреймворки: чтобы модель не врала про ваши данные

Все эти 'умные' чат-боты на сайтах - почти всегда RAG (Retrieval-Augmented Generation). Берете документы, индексируете, ищете релевантные куски, подсовываете модели вместе с вопросом.

LlamaIndex 0.12.0 - если хотите максимальный контроль над пайплайном. Сложнее, но гибче.
LangChain 0.3.0 - если нужны готовые цепочки и интеграции со всем на свете.
Haystack 2.0+ - если думаете о продакшене с первого дня.
Unstructured + EmbedChain - если данные в разных форматах (PDF, PPT, Excel).

Мой совет: начните с LlamaIndex для понимания механики, потом переходите на LangChain для скорости разработки. Haystack берите, когда нужна отказоустойчивость и мониторинг.

Как не провалиться в кроличью нору? Практичный выбор стека

Вот алгоритм, который спасает от паралича выбора.

1Определите задачу четко

Не 'хочу поиграться с AI', а 'хочу чат-бота для ответов на вопросы по моей документации в Confluence'. Или 'нужен ассистент для рефакторинга Python кода в моей кодовой базе'. Конкретика убивает 80% ненужных инструментов.

2Выберите модель под hardware

Нет 48 ГБ VRAM? Забудьте про Llama 3.1 405B. Берите Qwen2.5 7B или Phi-4. Они удивляют. Для API - смотрите не на хайп, а на price/performance. DeepSeek-V3 через OpenRouter часто оказывается дешевле и умнее раскрученных аналогов.

3Соберите минимальный работающий прототип за день

Ollama + LiteLLM (для роутинга между локальной и облачной моделью) + простой RAG на LlamaIndex. Не идеально, но покажет, работает ли ваша идея в принципе.

4Только потом оптимизируйте и масштабируйте

Замените Ollama на vLLM для батчинга. Добавьте кэширование эмбеддингов. Настройте мониторинг с помощью Phoenix или WhyLabs. Но не раньше, чем прототип начнет приносить пользу.

Частые ошибки (делайте наоборот)

Ошибка 1: Качать 100-гигабайтную модель 'на всякий случай'. Качайте под задачу. Большинству хватает 7B-14B параметров с хорошим квантованием.

Ошибка 2: Писать все с нуля на низкоуровневых библиотеках. Используйте абстракции вроде Litellm или Outlines, пока они не стали узким местом.

Ошибка 3: Игнорировать квоты и стоимость API. Запустили пет-проект на GPT-4o, забыли про него, а через месяц пришел счет на $500. Всегда ставьте хард лимиты.

Вопросы, которые задают каждый день

Где взять полный список 550+ инструментов?

Я веду живую GitHub Wiki, где все структурировано по категориям (модели, серверы, клиенты, оценки, деплой). Ссылку не дам (правила), но ищите по 'awesome-llm-tools-2026'. Первые 3 репозитория в поиске - то, что надо.

Что будет актуально через год?

Тренд ясен: еще больше специализированных маленьких моделей (3B, 7B), которые будут бить большие в узких задачах. Инструменты сойдутся к нескольким стандартам (MCP уже выигрывает). Локальный запуск станет еще проще - одна команда для любой ОС и архитектуры.

Какую одну вещь освоить в первую очередь?

Ollama. Точно. Установите, поиграйтесь с разными моделями через командную строку. Потом подключите к нему какую-нибудь простую обертку вроде Open WebUI или AnythingLLM. За выходные поймете 90% концепций, о которых другие читают месяцами.

И последнее: не гонитесь за количеством инструментов. Лучше глубоко освоить 5-6 ключевых, чем поверхностно пробежаться по сотням. Экономия времени - это хорошо, но понимание, как все работает под капотом, спасет вас, когда что-то пойдет не так. А оно пойдет.

Подписаться на канал

Мега-гид: 550+ бесплатных инструментов для работы с LLM - от локальных моделей до API и IDE