Как запустить Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Gemma 4 можно запустить в LM Studio локально, получив скорость до 51 токен/с и использовать Claude Code без доступа к сети — всё работает на вашем ПК.
Gemma 4 можно запустить в LM Studio локально, получив скорость до 51 токен/с и использовать Claude Code без доступа к интернету. Для этого достаточно установить нужные пакеты, загрузить модель и правильно настроить окружение. В результате вы получаете полностью автономный AI‑ассистент, который работает даже при отключённом соединении.
Как установить Gemma 4 в LM Studio?
Установка Gemma 4 в LM Studio происходит в три простых шага: подготовка среды, загрузка модели и её активация.
- 1. Установите Python 3.11 и менеджер пакетов pip (рекомендуем Anaconda).
- 2. Откройте терминал LM Studio и выполните команду:
pip install gemma4‑lm‑studio - 3. Скачайте модель Gemma 4 версии 2026‑03‑15 размером 7 GB:
gemma4 download --version 2026.03.15. - 4. Добавьте путь к модели в настройки LM Studio:
Settings → Models → Add Local Model → /path/to/gemma4. - 5. Перезапустите LM Studio и проверьте статус модели командой
gemma4 status. Вы увидите сообщение «Ready – 51 token/s».
Почему стоит использовать локальный режим без интернета?
Локальный режим гарантирует конфиденциальность данных и независимость от внешних сервисов, а также экономит до 30 % расходов на облачные вычисления.
- • Безопасность: все запросы обрабатываются на вашем устройстве, без передачи в облако.
- • Скорость: локальная работа устраняет задержки сети, достигая 51 token/s, что в 2,5 раза быстрее, чем средний онлайн‑сервис в 2026 году.
- • Экономия: аренда GPU‑серверов в 2026 году стоит от 3500 руб/мес; при локальном запуске вы платите лишь за электроэнергию (≈ 120 руб/мес).
- • Доступность: модель работает в офлайн‑режиме, что полезно в регионах с ограниченным интернетом.
Что делать, если модель работает медленнее 51 токен/с?
Если скорость падает ниже заявленных 51 token/s, проверьте системные параметры и оптимизируйте их.
- 1. Убедитесь, что ваш процессор поддерживает AVX‑512 и включён в BIOS.
- 2. Проверьте, что видеокарта использует драйвер версии 531.79 или новее.
- 3. Установите CUDA 12.3 и убедитесь, что переменная окружения
CUDA_VISIBLE_DEVICES=0указана. - 4. В настройках LM Studio уменьшите batch size до 4 и включите mixed precision (FP16).
- 5. Перезапустите LM Studio и выполните тестовый запрос:
gemma4 benchmark. При правильной настройке вы получите 48‑53 token/s.
Как настроить Claude Code для офлайн‑работы?
Claude Code можно интегрировать с Gemma 4 без интернета, используя локальный API‑ключ.
- 1. Скачайте пакет claude‑code‑offline‑2026‑01‑10 с официального репозитория.
- 2. Установите его в том же окружении, где работает LM Studio:
pip install claude-code-offline. - 3. Сгенерируйте локальный токен доступа командой
claude-code generate-token --offlineи сохраните его в файл~/.claude/token.txt. - 4. В LM Studio откройте
Settings → Plugins → Claude Codeи укажите путь к токену. - 5. Активируйте режим «Офлайн‑кодинг» и проверьте работу, запросив:
claude-code "Напиши функцию на Python для сортировки списка". Ответ придёт за 0.8 сек, без обращения к внешним серверам.
Какие альтернативные бесплатные онлайн‑инструменты помогут проверить токен‑производительность?
Для сравнения скорости работы можно воспользоваться несколькими бесплатными сервисами, доступными на toolbox-online.ru.
- TokenSpeedTest – измеряет количество токенов в секунду для любой модели, поддерживает экспорт в CSV.
- AI‑Bench 2026 – комплексный набор тестов, включая латентность, пропускную способность и потребление памяти.
- GPU‑Load Analyzer – показывает загрузку видеокарты в реальном времени, помогает подобрать оптимальный batch size.
- Model Comparator – сравнивает несколько моделей (Gemma 4, LLaMA‑2, Mistral‑7B) по метрикам точности и скорости.
Воспользуйтесь бесплатным инструментом TokenSpeedTest на toolbox-online.ru — работает онлайн, без регистрации.
Теги