Зачем это вообще нужно? (Спойлер: не только ради хайпа)
Представьте ситуацию: вы в метро, связи нет, а нужно срочно дописать код, перевести текст или просто поболтать с ИИ. ChatGPT завис, Gemini требует Wi-Fi. Знакомо? Вот тут-то и пригодится свой, домашний, локальный мозг в кармане.
Запуск LLM на Android — это не трюк для гиков. Это реальный способ получить приватного, всегда доступного помощника, который не следит за вами и не сжирает трафик. А еще — отличный способ дать вторую жизнь старому телефону, который пылится в ящике. После прочтения этого руководства у вас в кармане будет работать полноценный ИИ.
Внимание! Это не волшебная таблетка. На старом слабом аппарате вы не запустите Llama 3.1 405B. Но модели размером 2-7 миллиардов параметров — вполне. Если ваш телефон древний, сначала прочтите гайд по оптимизации для слабого Android.
Что нам потребуется?
Перед тем как ломать систему, убедитесь, что у вас есть:
- Android 8.0 или новее. В теории, Termux работает и на 7, но настройки превращаются в ад.
- Минимум 4 ГБ оперативной памяти. Для комфортной работы — 6-8 ГБ. Модели жрут память, как студенты на сессии — пельмени.
- 10-15 ГБ свободного места. Сам Ollama весит немного, а вот модели могут занимать от 1.5 до 10+ ГБ.
- Терпение и стабильное соединение Wi-Fi на этапе установки. Качать зависимости и модели через мобильный интернет — плохая идея.
1 Ставим Termux и готовим среду
Первым делом — не качайте Termux с Play Маркета. Там лежит древняя, не поддерживаемая версия, которая сломает вам всю малину. Идем только на F-Droid и берем последний стабильный релиз. На момент написания (март 2026) это Termux v0.119+.
# После установки, первым делом обновляем пакеты
pkg update -y && pkg upgrade -y
# Устанавливаем базовый набор утилит
pkg install -y git wget curl proot nano
# И самое главное — компиляторы и зависимости для сборки
pkg install -y golang cmake make clang ninja-build
2 Собираем Ollama из исходников (официальной сборки нет)
Вот здесь многие спотыкаются. Ollama не предоставляет готовые бинарники под ARM Android. Значит, будем компилировать сами. Это не так страшно, как звучит.
# Клонируем репозиторий. На 2026 год актуальная ветка — main.
git clone https://github.com/ollama/ollama.git
cd ollama
# Проверяем, что Go установлен корректно
go version
# Должно быть что-то вроде go version go1.23.2 linux/arm64
# Собираем проект. Это займет 5-10 минут.
go build .
Если сборка завершилась без ошибок, в директории появится исполняемый файл ollama. Да, вот так просто. Но не спешите запускать. Нужно настроить переменные окружения, потому что по умолчанию Ollama будет искать модели в ~/.ollama, что в Termux не всегда оптимально.
# Создаем удобный алиас для запуска. Добавим в ~/.bashrc
echo "alias ollama='OLLAMA_MODELS=$HOME/.ollama ./ollama'" >> ~/.bashrc
source ~/.bashrc
3 Запускаем сервер и качаем первую модель
Ollama работает в режиме клиент-сервер. Сначала нужно запустить сервер, а затем общаться с ним через CLI или API. Открываем два сеанса Termux (удобно через вкладки).
В первом окне:
# Запускаем сервер. Он будет висеть в фоне.
ollama serve
Во втором окне: начинаем самое интересное — загрузку моделей. Начнем с чего-то компактного, но умного. На 2026 год отлично показывают себя Qwen3.5:2B и LFM2.5-Thinking (последняя — экспериментальная ветка развития LFM2).
# Качаем и запускаем Qwen3.5:2B — отличный баланс скорости и качества.
ollama run qwen2.5:2b
# Или пробуем LFM2.5-Thinking, если хотите что-то с более глубоким "размышлением".
# ollama run lfm2.5-thinking:latest
Первая загрузка модели займет время (от 1 до 10 минут в зависимости от скорости интернета и размера модели). Убедитесь, что вы на Wi-Fi. После загрузки модель будет сохранена локально и больше не потребует сети.
Если видите приглашение вроде >>> — поздравляю, ИИ жив и готов к диалогу. Задавайте вопросы на английском (для большинства моделей это предпочтительнее).
4 Оптимизация и работа в фоне
Держать два окна Termux открытыми неудобно. Используем tmux или nohup. Я предпочитаю простой способ:
# Устанавливаем tmux, если еще нет
pkg install tmux -y
# Создаем новую сессию, запускаем в ней сервер
tmux new-session -d -s ollama_server 'ollama serve'
# Теперь можно отключиться, сервер продолжит работу
# Чтобы вернуться к сессии: tmux attach-session -t ollama_server
# А в основном окне просто обращаемся к клиенту
ollama run qwen2.5:2b
Что делать, если модель тормозит? У Ollama есть параметры для контроля ресурсов. Например, можно ограничить количество используемых CPU-потоков и задать максимальный объем оперативной памяти.
# Запуск модели с явными параметрами (пример)
OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=1 ollama run qwen2.5:2b
Но честно? Если телефон слабый, лучше выбрать модель поменьше или присмотреться к llama.cpp, который заточен под мобильные устройства. Ollama — это удобство и простота, а llama.cpp — чистая скорость и эффективность.
Частые грабли и как на них не наступить
Я собрал топ ошибок, которые сведут с ума новичка. Сохраните себе.
- "Segmentation fault" при запуске ollama serve. Почти наверняка проблема в неправильной сборке. Убедитесь, что установлены все зависимости (cmake, clang, go). Попробуйте очистить кэш go и пересобрать:
go clean -cache; go build . - Модель не загружается, пишет "connection refused". Сервер не запущен или упал. Проверьте, что
ollama serveработает в другом процессе. Используйтеps aux | grep ollama. - Не хватает места на диске. Модели скачиваются во внутреннее хранилище Termux. Посмотреть, сколько занято:
df -h $HOME. Очистить кэш загрузок Ollama можно, удалив файлы в~/.ollama/models. - Телефон греется как утюг. Это нормально. LLM — тяжелая нагрузка. Рекомендую снять чехол и не запускать модель во время зарядки. Если перегрев критический — ограничьте CPU в настройках Termux (через утилиту
termux-cpu).
Вопросы, которые вы боялись задать
| Вопрос | Краткий ответ |
|---|---|
| Можно ли использовать GPU? | На Android — практически нет. Ollama на ARM использует только CPU. Но для некоторых чипов (например, Snapdragon с поддержкой Vulkan) есть экспериментальные сборки llama.cpp с использованием GPU. Это тема для отдельной статьи. |
| Как обновить Ollama? | Просто зайдите в директорию с исходниками, сделайте git pull и пересоберите: go build . |
| Какие модели самые быстрые на телефоне? | Qwen2.5:1.5B, LFM2.5-Thinking:2B, Phi-3-mini. Избегайте моделей с контекстом больше 4k на слабом железе. |
| Это легально? | Да. Вы скачиваете открытые модели (обычно с лицензией Apache 2.0 или MIT) и запускаете их на своем устройстве. Вопросы могут быть к коммерческому использованию — читайте лицензию конкретной модели. |
А что дальше? Куда развиваться?
Вы запустили модель. Поболтали. Что теперь? Настоящая магия начинается, когда вы подключаете LLM к внешнему миру.
Например, можно написать простой скрипт на Python в том же Termux, который будет через API Ollama (http://localhost:11434) обрабатывать ваши заметки, сортировать файлы или даже управлять другим софтом через ADB. Звучит как фантастика? Это уже реальность. Для вдохновения посмотрите, как ребята запускают распределенные LLM на нескольких телефонах.
И последний совет — не зацикливайтесь на Ollama. Это отличный инструмент для начала. Но когда упретесь в ограничения производительности, посмотрите в сторону llama.cpp или даже попробуйте собрать автономного AI-агента. А если забудете про безопасность, ваш локальный ИИ может превратиться в утечку данных.
Главное — вы сделали первый шаг. Теперь у вас в кармане не просто телефон, а портативная нейросеть. Используйте ее с умом.