Зачем это вообще нужно? (Спойлер: не только ради хайпа)

Представьте ситуацию: вы в метро, связи нет, а нужно срочно дописать код, перевести текст или просто поболтать с ИИ. ChatGPT завис, Gemini требует Wi-Fi. Знакомо? Вот тут-то и пригодится свой, домашний, локальный мозг в кармане.

Запуск LLM на Android — это не трюк для гиков. Это реальный способ получить приватного, всегда доступного помощника, который не следит за вами и не сжирает трафик. А еще — отличный способ дать вторую жизнь старому телефону, который пылится в ящике. После прочтения этого руководства у вас в кармане будет работать полноценный ИИ.

Внимание! Это не волшебная таблетка. На старом слабом аппарате вы не запустите Llama 3.1 405B. Но модели размером 2-7 миллиардов параметров — вполне. Если ваш телефон древний, сначала прочтите гайд по оптимизации для слабого Android.

Что нам потребуется?

Перед тем как ломать систему, убедитесь, что у вас есть:

Android 8.0 или новее. В теории, Termux работает и на 7, но настройки превращаются в ад.
Минимум 4 ГБ оперативной памяти. Для комфортной работы — 6-8 ГБ. Модели жрут память, как студенты на сессии — пельмени.
10-15 ГБ свободного места. Сам Ollama весит немного, а вот модели могут занимать от 1.5 до 10+ ГБ.
Терпение и стабильное соединение Wi-Fi на этапе установки. Качать зависимости и модели через мобильный интернет — плохая идея.

1 Ставим Termux и готовим среду

Первым делом — не качайте Termux с Play Маркета. Там лежит древняя, не поддерживаемая версия, которая сломает вам всю малину. Идем только на F-Droid и берем последний стабильный релиз. На момент написания (март 2026) это Termux v0.119+.

# После установки, первым делом обновляем пакеты
pkg update -y && pkg upgrade -y

# Устанавливаем базовый набор утилит
pkg install -y git wget curl proot nano

# И самое главное — компиляторы и зависимости для сборки
pkg install -y golang cmake make clang ninja-build

💡

Termux работает в изолированном окружении. Не пытайтесь получить root-доступ через него без дополнительных манипуляций (proot). Для нашей задачи root не нужен.

2 Собираем Ollama из исходников (официальной сборки нет)

Вот здесь многие спотыкаются. Ollama не предоставляет готовые бинарники под ARM Android. Значит, будем компилировать сами. Это не так страшно, как звучит.

# Клонируем репозиторий. На 2026 год актуальная ветка — main.
git clone https://github.com/ollama/ollama.git
cd ollama

# Проверяем, что Go установлен корректно
go version
# Должно быть что-то вроде go version go1.23.2 linux/arm64

# Собираем проект. Это займет 5-10 минут.
go build .

Если сборка завершилась без ошибок, в директории появится исполняемый файл ollama. Да, вот так просто. Но не спешите запускать. Нужно настроить переменные окружения, потому что по умолчанию Ollama будет искать модели в ~/.ollama, что в Termux не всегда оптимально.

# Создаем удобный алиас для запуска. Добавим в ~/.bashrc
echo "alias ollama='OLLAMA_MODELS=$HOME/.ollama ./ollama'" >> ~/.bashrc
source ~/.bashrc

3 Запускаем сервер и качаем первую модель

Ollama работает в режиме клиент-сервер. Сначала нужно запустить сервер, а затем общаться с ним через CLI или API. Открываем два сеанса Termux (удобно через вкладки).

В первом окне:

# Запускаем сервер. Он будет висеть в фоне.
ollama serve

Во втором окне: начинаем самое интересное — загрузку моделей. Начнем с чего-то компактного, но умного. На 2026 год отлично показывают себя Qwen3.5:2B и LFM2.5-Thinking (последняя — экспериментальная ветка развития LFM2).

# Качаем и запускаем Qwen3.5:2B — отличный баланс скорости и качества.
ollama run qwen2.5:2b

# Или пробуем LFM2.5-Thinking, если хотите что-то с более глубоким "размышлением".
# ollama run lfm2.5-thinking:latest

Первая загрузка модели займет время (от 1 до 10 минут в зависимости от скорости интернета и размера модели). Убедитесь, что вы на Wi-Fi. После загрузки модель будет сохранена локально и больше не потребует сети.

Если видите приглашение вроде >>> — поздравляю, ИИ жив и готов к диалогу. Задавайте вопросы на английском (для большинства моделей это предпочтительнее).

4 Оптимизация и работа в фоне

Держать два окна Termux открытыми неудобно. Используем tmux или nohup. Я предпочитаю простой способ:

# Устанавливаем tmux, если еще нет
pkg install tmux -y

# Создаем новую сессию, запускаем в ней сервер
tmux new-session -d -s ollama_server 'ollama serve'

# Теперь можно отключиться, сервер продолжит работу
# Чтобы вернуться к сессии: tmux attach-session -t ollama_server

# А в основном окне просто обращаемся к клиенту
ollama run qwen2.5:2b

Что делать, если модель тормозит? У Ollama есть параметры для контроля ресурсов. Например, можно ограничить количество используемых CPU-потоков и задать максимальный объем оперативной памяти.

# Запуск модели с явными параметрами (пример)
OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=1 ollama run qwen2.5:2b

Но честно? Если телефон слабый, лучше выбрать модель поменьше или присмотреться к llama.cpp, который заточен под мобильные устройства. Ollama — это удобство и простота, а llama.cpp — чистая скорость и эффективность.

Частые грабли и как на них не наступить

Я собрал топ ошибок, которые сведут с ума новичка. Сохраните себе.

"Segmentation fault" при запуске ollama serve. Почти наверняка проблема в неправильной сборке. Убедитесь, что установлены все зависимости (cmake, clang, go). Попробуйте очистить кэш go и пересобрать: go clean -cache; go build .
Модель не загружается, пишет "connection refused". Сервер не запущен или упал. Проверьте, что ollama serve работает в другом процессе. Используйте ps aux | grep ollama.
Не хватает места на диске. Модели скачиваются во внутреннее хранилище Termux. Посмотреть, сколько занято: df -h $HOME. Очистить кэш загрузок Ollama можно, удалив файлы в ~/.ollama/models.
Телефон греется как утюг. Это нормально. LLM — тяжелая нагрузка. Рекомендую снять чехол и не запускать модель во время зарядки. Если перегрев критический — ограничьте CPU в настройках Termux (через утилиту termux-cpu).

Вопросы, которые вы боялись задать

Вопрос	Краткий ответ
Можно ли использовать GPU?	На Android — практически нет. Ollama на ARM использует только CPU. Но для некоторых чипов (например, Snapdragon с поддержкой Vulkan) есть экспериментальные сборки llama.cpp с использованием GPU. Это тема для отдельной статьи.
Как обновить Ollama?	Просто зайдите в директорию с исходниками, сделайте `git pull` и пересоберите: `go build .`
Какие модели самые быстрые на телефоне?	Qwen2.5:1.5B, LFM2.5-Thinking:2B, Phi-3-mini. Избегайте моделей с контекстом больше 4k на слабом железе.
Это легально?	Да. Вы скачиваете открытые модели (обычно с лицензией Apache 2.0 или MIT) и запускаете их на своем устройстве. Вопросы могут быть к коммерческому использованию — читайте лицензию конкретной модели.

А что дальше? Куда развиваться?

Вы запустили модель. Поболтали. Что теперь? Настоящая магия начинается, когда вы подключаете LLM к внешнему миру.

Например, можно написать простой скрипт на Python в том же Termux, который будет через API Ollama (http://localhost:11434) обрабатывать ваши заметки, сортировать файлы или даже управлять другим софтом через ADB. Звучит как фантастика? Это уже реальность. Для вдохновения посмотрите, как ребята запускают распределенные LLM на нескольких телефонах.

И последний совет — не зацикливайтесь на Ollama. Это отличный инструмент для начала. Но когда упретесь в ограничения производительности, посмотрите в сторону llama.cpp или даже попробуйте собрать автономного AI-агента. А если забудете про безопасность, ваш локальный ИИ может превратиться в утечку данных.

Главное — вы сделали первый шаг. Теперь у вас в кармане не просто телефон, а портативная нейросеть. Используйте ее с умом.

Подписаться на канал

Запуск LLM на Android через Termux и Ollama: полное руководство для энтузиастов