Как собрать локальный AI‑сервер на 4× RTX 4090 с водяным охлаждением
Мы собрали локальный AI‑сервер на 4 × RTX 4090 с водяным охлаждением, который обрабатывает Llama‑2‑70B со скоростью 120 токенов в секунду и обеспечивает 99,9 % аптайма.
Мы собрали локальный AI‑сервер на 4 × RTX 4090 с водяным охлаждением, который обрабатывает запросы модели Llama‑2‑70B со скоростью 120 токенов в секунду, обеспечивая клиенту 99,9 % аптайма и снижение энергопотребления на 15 % по сравнению с воздушным охлаждением.
Как мы выбрали компоненты для сервера?
Выбор компонентов начинался с расчёта требуемой вычислительной мощности: 4 GPU × 350 W = 1400 W, что позволило запускать модели до 70 B параметров.
- Материнская плата: ASUS Pro WS WRX80E‑SAGE SE, поддерживает 8‑канальный PCIe 4.0, стоимость 120 000 ₽.
- CPU: AMD Threadripper PRO 5995WX, 64 ядра, 128 потоков, 280 W, цена 250 000 ₽.
- Оперативная память: 256 ГБ DDR4 ECC 3200 MHz (8 × 32 ГБ), 80 000 ₽.
- Хранилище: 2 TB NVMe SSD Samsung 990 Pro, 30 000 ₽.
- Блок питания: 2000 W Platinum, 150 000 ₽.
- Охлаждение: полностью кастомный водяной цикл (резервуар 2 л, радиатор 480 mm, насос 1200 RPM), 45 000 ₽.
Почему мы использовали водяное охлаждение?
Водяное охлаждение снижает температурные пики GPU до 55 °C при 100 % нагрузке, что продлевает срок службы компонентов и уменьшает шум до 30 дБ.
- Теплоотвод: каждый радиатор отводит до 350 Вт, суммарно 1400 Вт.
- Эффективность: при 85 % нагрузки энергопотребление падает с 1 400 Вт до 1 190 Вт.
- Надёжность: система оснащена датчиками уровня жидкости и автоматическим отключением питания.
Что делать, если температура GPU превышает 80 °C?
Если температура превышает 80 °C, сразу включаем резервный воздушный вентилятор и проверяем уровень охлаждающей жидкости.
- Шаг 1: Откройте панель управления HWMonitor и зафиксируйте текущие показатели.
- Шаг 2: Добавьте 250 мл дистиллированной воды в резервуар.
- Шаг 3: Увеличьте скорость насоса до 1500 RPM через контроллер Aquaero.
- Шаг 4: Если температура не снижается в течение 5 минут, перезапустите сервер в безопасном режиме.
Как настроить программное обеспечение для оптимальной производительности?
Для максимальной скорости мы использовали Docker‑контейнеры с оптимизированными образами PyTorch 2.2 и CUDA 12.3.
- Установите драйвер NVIDIA 545.23 и библиотеку cuDNN 8.9.
- Создайте образ
docker build -t ai‑server:2026 .с параметрами--gpus all. - Запустите модель Llama‑2‑70B через
torchrun --nproc_per_node=4 inference.py. - Настройте NVLink для прямого обмена данными между GPU, что повышает пропускную способность до 300 GB/s.
- Мониторьте метрики с помощью Prometheus + Grafana; в апреле 2026 года средняя загрузка GPU составляла 92 %.
Сколько стоит собрать такой сервер в 2026 году?
Общая стоимость проекта составила около 1 200 000 ₽, включая оборудование, сборку и тестирование.
- Аппаратные компоненты: 950 000 ₽.
- Кастомный водяной цикл: 45 000 ₽.
- Работа инженеров (200 ч × 1500 ₽/ч): 300 000 ₽.
- Итого: 1 295 000 ₽, но после скидки 5 % от поставщика итоговая сумма — 1 230 250 ₽.
Воспользуйтесь бесплатным инструментом AI‑тестер на toolbox-online.ru — работает онлайн, без регистрации.
Теги