Зачем собирать эту коллекцию? Потому что выбор инструментов сломал мозг
Открываешь Hacker News или GitHub Trending и видишь очередной 'революционный' инструмент для работы с LLM. Через неделю о нем забывают, появляются три новых. Попробуй собери здесь работающий стек для проекта - упрешься в стену из 300 опенсорсных репозиториев, половина из которых заброшена.
Эта шпаргалка - результат месяцев тестов, слива воды и разочарований в непонятных README. Здесь только то, что работает в 2026 году. Никаких теоретических рассуждений, только железо и софт.
Важный момент: все инструменты проверены на актуальность 11.04.2026. Если читаете это позже - некоторые детали могли устареть. Всегда смотрите дату последнего коммита.
Локальные модели: когда интернет - для слабаков
Запускать 70-миллиардные модели на ноутбуке - уже не фантастика, а рутина. Но какой движок выбрать? Вот три столпа, на которых все держится.
Ollama 0.5.7 (актуально на апрель 2026)
Стандарт де-факто. Установил, скачал модель одной командой, запустил. Под капотом - оптимизированный llama.cpp, но вам об этом думать не надо.
# Базовая установка и запуск модели Llama 3.2 11B
ollama run llama3.2:11b\nПочему все его используют? Потому что не надо возиться с компиляцией, квантование на лету, встроенный API. Идеально для прототипирования. Хотите глубже - читайте наш полный гид по Ollama и альтернативам.
llama.cpp + менеджеры моделей
Если Ollama - это автоматическая коробка, то llama.cpp - механика с турбонаддувом. Больше контроля, больше оптимизаций под ваше железо. Но и больше боли.
Для тех, кто не хочет собирать из исходников, есть обертки. LM Studio когда-то был королем, но сейчас выбор гораздо шире. На Mac обратите внимание на AFM MLX 0.9.7 - обертка для Apple Silicon с кучей фич вроде Telegram-бота. Полный обзор здесь.
Совет по железу: если у вас свежая RTX 6000 Pro Blackwell 96GB и вы думаете, какую модель для кодирования на ней гонять, у нас есть отдельный разбор. Спойлер: Qwen2.5-Coder-32B-Instruct на полной точности - монстр.
Бесплатные API: когда свое железо кончилось
Локально - это круто, но не у всех есть GPU за 10 тысяч долларов. Для тестов, для продакшена с переменной нагрузкой - берем облако.
| Сервис | Что дает бесплатно | Подвох |
|---|---|---|
| OpenRouter | $1 на старте, доступ к 100+ моделям | Кредиты быстро кончаются |
| Together AI | Бесплатный тариф с лимитами | Очереди на бесплатных моделях |
| Hugging Face Inference Endpoints | 2 бесплатных инстанса | Только для публичных моделей |
OpenRouter - мой фаворит для экспериментов. Единый API для десятков провайдеров. Не понравилась одна модель - тут же переключился на другую, без переписывания кода.
IDE и редакторы: где код пишет сам себя
ChatGPT в браузере - это для новичков. Настоящие разработчики интегрируют LLM прямо в среду разработки.
Cursor (и его опенсорсные клоны)
Cursor взорвал рынок в 2024. Потом команда куда-то пропала, а сообщество создало открытые альтернативы. История странная, но Kilo Code стал убийцей.
Если не хотите рисковать с молодыми проектами, берите VS Code с расширениями. Установите модифицированный VS Code для локальных LLM и подключите Ollama. Работает почти как Cursor, но бесплатно и под вашим контролем.
MCP (Model Context Protocol) - следующий уровень
MCP - это не просто автодополнение кода. Это когда IDE подключается к вашим данным, инструментам, API. Представьте: вы пишете 'найди баг в последнем коммите', и IDE лезет в git, анализирует изменения, запускает тесты.
Хотите попробовать? Explyt Spring MCP - мощный сервер с кучей коннекторов. Для работы с кодом-графами есть MCP-сервер с 120x сокращением токенов. Для реверс-инжиниринга - Ghidra MCP Server с 110 инструментами.
RAG фреймворки: чтобы модель не врала про ваши данные
Все эти 'умные' чат-боты на сайтах - почти всегда RAG (Retrieval-Augmented Generation). Берете документы, индексируете, ищете релевантные куски, подсовываете модели вместе с вопросом.
- LlamaIndex 0.12.0 - если хотите максимальный контроль над пайплайном. Сложнее, но гибче.
- LangChain 0.3.0 - если нужны готовые цепочки и интеграции со всем на свете.
- Haystack 2.0+ - если думаете о продакшене с первого дня.
- Unstructured + EmbedChain - если данные в разных форматах (PDF, PPT, Excel).
Мой совет: начните с LlamaIndex для понимания механики, потом переходите на LangChain для скорости разработки. Haystack берите, когда нужна отказоустойчивость и мониторинг.
Как не провалиться в кроличью нору? Практичный выбор стека
Вот алгоритм, который спасает от паралича выбора.
1Определите задачу четко
Не 'хочу поиграться с AI', а 'хочу чат-бота для ответов на вопросы по моей документации в Confluence'. Или 'нужен ассистент для рефакторинга Python кода в моей кодовой базе'. Конкретика убивает 80% ненужных инструментов.
2Выберите модель под hardware
Нет 48 ГБ VRAM? Забудьте про Llama 3.1 405B. Берите Qwen2.5 7B или Phi-4. Они удивляют. Для API - смотрите не на хайп, а на price/performance. DeepSeek-V3 через OpenRouter часто оказывается дешевле и умнее раскрученных аналогов.
3Соберите минимальный работающий прототип за день
Ollama + LiteLLM (для роутинга между локальной и облачной моделью) + простой RAG на LlamaIndex. Не идеально, но покажет, работает ли ваша идея в принципе.
4Только потом оптимизируйте и масштабируйте
Замените Ollama на vLLM для батчинга. Добавьте кэширование эмбеддингов. Настройте мониторинг с помощью Phoenix или WhyLabs. Но не раньше, чем прототип начнет приносить пользу.
Частые ошибки (делайте наоборот)
Ошибка 1: Качать 100-гигабайтную модель 'на всякий случай'. Качайте под задачу. Большинству хватает 7B-14B параметров с хорошим квантованием.
Ошибка 2: Писать все с нуля на низкоуровневых библиотеках. Используйте абстракции вроде Litellm или Outlines, пока они не стали узким местом.
Ошибка 3: Игнорировать квоты и стоимость API. Запустили пет-проект на GPT-4o, забыли про него, а через месяц пришел счет на $500. Всегда ставьте хард лимиты.
Вопросы, которые задают каждый день
Где взять полный список 550+ инструментов?
Я веду живую GitHub Wiki, где все структурировано по категориям (модели, серверы, клиенты, оценки, деплой). Ссылку не дам (правила), но ищите по 'awesome-llm-tools-2026'. Первые 3 репозитория в поиске - то, что надо.
Что будет актуально через год?
Тренд ясен: еще больше специализированных маленьких моделей (3B, 7B), которые будут бить большие в узких задачах. Инструменты сойдутся к нескольким стандартам (MCP уже выигрывает). Локальный запуск станет еще проще - одна команда для любой ОС и архитектуры.
Какую одну вещь освоить в первую очередь?
Ollama. Точно. Установите, поиграйтесь с разными моделями через командную строку. Потом подключите к нему какую-нибудь простую обертку вроде Open WebUI или AnythingLLM. За выходные поймете 90% концепций, о которых другие читают месяцами.
И последнее: не гонитесь за количеством инструментов. Лучше глубоко освоить 5-6 ключевых, чем поверхностно пробежаться по сотням. Экономия времени - это хорошо, но понимание, как все работает под капотом, спасет вас, когда что-то пойдет не так. А оно пойдет.