Ollama и Open WebUI на VPS без GPU: как запустить без проблем
Запустить Ollama и Open WebUI на VPS без GPU реально: достаточно правильно подобрать образ, настроить оптимизацию и использовать лёгкие модели — всё работает за 5‑10 минут.
Запустить Ollama и Open WebUI на VPS без GPU реально, если выбрать подходящий образ Linux, установить оптимизированные модели и настроить ограничение ресурсов. На практике процесс занимает от 5 до 10 минут, а нагрузка на процессор остаётся в пределах 30‑40 % при запросах среднего объёма. Это делает такой вариант рабочим, а не «болью» для небольших проектов в 2026 году.
Как установить Ollama на VPS без GPU?
Установить Ollama на VPS без видеокарты проще, чем кажется: достаточно выполнить несколько команд и включить режим CPU‑only. Сначала выбираем дистрибутив Ubuntu 22.04 LTS, который поддерживает последние версии библиотек.
- 1. Подключитесь к серверу через SSH:
ssh root@your-vps-ip. - 2. Обновите пакеты:
apt update && apt upgrade -y. - 3. Установите зависимости:
apt install -y curl git python3-pip. - 4. Скачайте скрипт установки Ollama:
curl -sSL https://ollama.com/install.sh | bash. - 5. Запустите Ollama в режиме без GPU:
OLLAMA_CPU_ONLY=1 ollama serve.
После этих шагов сервис будет слушать порт 11434, готовый принимать запросы от Open WebUI.
Почему Open WebUI работает на VPS без видеокарты?
Open WebUI использует лёгкую обёртку над API Ollama, поэтому он не требует прямого доступа к GPU. Главное — правильно настроить пул процессов и ограничить количество одновременных запросов.
- • В конфигурации
config.yamlзадаёмmax_concurrency: 2, чтобы процессор не перегружался. - • Устанавливаем
timeout: 120секунд, что достаточно для моделей среднего размера (≈ 1.2 ГБ). - • Включаем кэширование ответов в Redis, экономя до 35 % времени генерации.
Эти настройки позволяют обслуживать до 150 запросов в час без падения производительности.
Что делать, если модель «тормозит» на CPU?
Если модель работает медленно, первым делом уменьшите её размер или включите quantization до 4‑бит. Это снижает потребление ОЗУ с 8 ГБ до 2‑3 ГБ и ускоряет инференс на 1.8‑2.2 раза.
- 1. Скачайте лёгкую модель, например
llama2:7b-chat-q4_0. - 2. Перезапустите Ollama с параметром
OLLAMA_MODEL=llama2:7b-chat-q4_0. - 3. Проверьте скорость: запрос «Какой сегодня день?» должен отвечать за ≤ 3 секунды.
В 2026 году такие модели уже поддерживают инструкцию LoRA, позволяя до 20 % улучшения качества без роста нагрузки.
Как обеспечить безопасность доступа к Open WebUI на публичном VPS?
Для защиты от несанкционированных запросов используйте базовую аутентификацию и ограничьте доступ по IP. Это простейший, но эффективный способ, который не требует дополнительных сервисов.
- • В файле
.envзадайтеWEBUI_USERNAME=adminиWEBUI_PASSWORD=StrongPass2026!. - • Настройте firewall:
ufw allow from 203.0.113.0/24 to any port 8080(разрешаем только ваш офис). - • Включите HTTPS через
letsencrypt:certbot --nginx -d ai.yourdomain.com.
После этого все запросы будут шифроваться, а доступ получат только доверенные пользователи.
Сколько стоит поддерживать такой VPS в 2026 году?
Средняя стоимость VPS с 4 CPU, 8 ГБ RAM и SSD‑диском 100 ГБ в 2026 году составляет 850 рублей в месяц. При использовании эконом‑режима (2 CPU, 4 ГБ RAM) цена падает до 520 рублей, а нагрузка остаётся приемлемой для лёгких моделей.
- • Провайдеры DigitalOcean, Linode и Vultr предлагают такие тарифы.
- • При оплате за год экономия достигает 15 % (≈ 102 рубля).
- • Дополнительные расходы: сертификат Let’s Encrypt — бесплатно, резервные копии — 120 рублей в месяц.
Таким образом, общий бюджет проекта может быть ограничен 1000 рублями в месяц, включая все необходимые сервисы.
Воспользуйтесь бесплатным инструментом Ollama Playground на toolbox-online.ru — работает онлайн, без регистрации.
Теги