Запускаем LLM локально через Ollama: гайд от установки до Claude Code
Запускаем большие языковые модели прямо на ноутбуке: без API-ключей, VPN и облачных сервисов. Полный гайд от установки Ollama до Claude Code на локальной модели.
Если вы пишете код с помощью Claude Code, Codex или любого другого ИИ-ассистента — а тратиться на API-ключи не хочется (или просто не получается из РФ), есть рабочая альтернатива: запустить модель прямо на ноутбуке. Ollama — бесплатный open-source инструмент, который скачивает и крутит LLM на вашем железе. Никаких API-ключей, никаких облачных сервисов, никакого VPN. Промпты остаются на машине, за токены никто не списывает. Перевод пошагового гайда от Real Python (автор Леоданис Позо Рамос) с пояснениями для российской аудитории.
Главное
Что нужно знать про Ollama
TL;DR гайда — от установки до Claude Code на локальной модели
- Ollama — бесплатный open-source инструмент (MIT) для локального запуска LLM. Доступен из РФ без VPN
- Минимальные требования: 8 ГБ RAM (16 ГБ для крупных моделей), 5–16 ГБ места под модели, GPU не обязателен
- Стартовая модель —
llama3.2:latest(3,2B параметров, 2 ГБ на диск) - Команда
ollama launchподключает локальную модель к Claude Code, Codex, Droid и OpenCode без ручной настройки - Для кодинг-задач рекомендованы
qwen3-coder,gpt-oss:20bиgpt-oss:120b - Промпты не уходят в облако — подходит для коммерческого кода и чувствительных данных
Что понадобится
Чтобы повторить шаги, нужно несколько вещей со стороны железа и софта:
- macOS 14 Sonoma или новее, Windows 10+ или относительно свежий Linux-дистрибутив
- Минимум 8 ГБ RAM, для крупных моделей — 16 ГБ и больше
- 5–16 ГБ свободного места под модели
- Базовые навыки работы в терминале: открыть, ввести команду, прочитать вывод
Python для гайда не нужен — всё через CLI. Если позже захотите программно вызывать модели из Python-кода, у Real Python есть отдельный туториал How to Integrate Local LLMs With Ollama and Python.
Шаг 1: установить Ollama и скачать первую модель
Установка одной командой. На Windows откройте PowerShell и выполните:
На Linux и macOS — одна строка в терминале:
Через минуту Ollama установлена. На некоторых Linux-дистрибутивах может не хватать curl и библиотеки zstd — на Debian/Ubuntu ставятся одной командой:
Альтернатива — отдельные инсталляторы для Windows и macOS на странице ollama.com/download. У macOS и Windows также есть GUI-приложение, но в этом гайде разбираем только CLI — он одинаков на всех платформах. Описание GUI-версии — в блоге Ollama.
Проверить, что CLI установлен:
Сервис Ollama должен сам подняться в фоне на порту 11434. Если в ответ на команду выше появилось предупреждение — поднимите вручную:
На некоторых Linux-дистрибутивах эту команду нужно вызывать явно. На этом установка закончена — пора скачать первую модель.
Скачиваем llama3.2
Стартовая модель — llama3.2:latest: 3,2 миллиарда параметров, около 2 ГБ на диске. Это разумный баланс между качеством ответов и требованиями к железу:
Скорость зависит от интернета. Это единственный момент, когда соединение нужно — после скачивания модель работает офлайн. Проверить, что модель установилась:
Полный каталог моделей — на ollama.com/models. Если RAM мало, берите более лёгкую llama3.2:1b — всего 1,3 ГБ. Для мощного железа есть llama3.3:70b с заметно более сильными reasoning-способностями.
Посмотреть характеристики модели:
Что важно из вывода: модель — 3,2 миллиарда параметров, контекст — 131 072 токена (это сколько текста модель «видит» за один разговор). Поддерживает completion (ответы на промпты) и tools — то есть может работать как агент с инструментами.
Если решили освободить место или больше не нужна конкретная модель — удалите её с диска:
Команда ollama --help покажет полный список опций CLI. Готово — можно общаться с локальной моделью.
Шаг 2: чат с локальной моделью
Чтобы запустить интерактивный чат, в терминале:
Когда модель загрузится, появится >>> — режим чата. Заглушка «Send a message (/? for help)» подскажет, что делать дальше. Введите первый промпт:
Конкретный ответ у вас может отличаться, но смысл тот же. Первый ответ может задержаться — модель догружается в RAM. Дальше отвечает быстрее. Текст течёт инкрементально — поток токенов делает чат отзывчивым ещё до окончания ответа.
Контекст разговора держится в пределах сессии — можете задавать follow-up без повторения предыстории:
В вопросе нет слова GIL, но модель помнит контекст. Чтобы убедиться, что всё работает офлайн, отключите интернет и отправьте ещё один промпт. Ответ всё равно придёт — никакие токены никуда не уходят.
В CLI есть слеш-команды для управления сессией. Команда /? покажет полный список:
Полезные команды — попробуйте сами. Многострочные промпты — через тройные кавычки ("""). Чтобы сменить модель, выйдите из сессии командой /bye и запустите ollama run <другая-модель>.
Шаг 3: подключить Ollama к Claude Code и другим ИИ-ассистентам
Самое интересное. Команда ollama launch цепляет локальную модель как бэкенд для популярных ИИ-инструментов кодинга — без ручной настройки конфигов.
Чтобы команда ollama launch работала, нужна Ollama версии 0.15+. Проверить версию: ollama -v.
Перед запуском убедитесь, что у вас уже установлен сам Claude Code (через официальный гайд Anthropic — npm install -g @anthropic-ai/claude-code). Команда ollama launch сама не ставит Claude Code, она только переключает его на локальный backend. Запускаем:
Команда настраивает Claude Code на локальный API на localhost:11434, совместимый с Anthropic API, и сразу запускает Claude Code в текущем терминале — вы окажетесь в его интерактивной сессии. Чтобы убедиться, что бэкенд именно локальный — отключите интернет и задайте любой вопрос: ответ всё равно придёт. Чтобы только настроить интеграцию, не запуская инструмент сразу — добавьте флаг --config:
Перед запуском Claude Code имеет смысл скачать модель, заточенную под код. Рекомендованные локальные модели для генерации кода и агентских воркфлоу:
- qwen3-coder — оптимизирована под кодогенерацию. Размеры: 19 ГБ (вариант 30b, для машин с ≥ 24 ГБ RAM) или 290 ГБ (вариант 480b, для серверов). Контекст: 256K
- gpt-oss:20b — добротный среднеуровневый вариант. Размер: 14 ГБ. Контекст: 128K
- gpt-oss:120b — высокое качество, требует серьёзного железа. Размер: 65 ГБ. Контекст: 128K
Кодинг-инструменты и агентские задачи требуют большого контекстного окна — для Claude Code рекомендовано минимум 64K токенов.
Эти модели существенно тяжелее llama3.2. Перед скачиванием убедитесь, что у системы хватит RAM и места на диске.
Чтобы продолжить туториал на минимальном железе, скачайте самую лёгкую из coder-моделей:
После скачивания запускаем Claude Code в режиме конфигурации:
Появится список установленных и рекомендованных моделей. Стрелками вверх-вниз — выбор, Enter — подтверждение. С этого момента Claude Code будет использовать вашу локальную модель вместо облачного API. Ответы генерируются только на вашем железе, код и промпты не покидают машину.
Ollama сейчас поддерживает не только Claude Code: работает с Codex, Droid и OpenCode. Команда та же — ollama launch <инструмент>.
Поиграйтесь с Claude Code на локальной модели и сравните результаты. Качество ответов сильно зависит от модели: gpt-oss:120b приближается к облачным моделям по качеству, но может тормозить без мощного железа. Маленькие модели жертвуют качеством ради скорости и скромных требований к ресурсам.
От редакции: что важно для российских пользователей
Несколько практических замечаний от Tproger, которых нет в оригинале Real Python:
- Доступность. На момент апреля 2026 года ollama.com и репозиторий моделей ollama.com/models доступны из РФ без VPN. Модели хостятся на CDN, который пока не блокирован. Если корпоративная сеть всё-таки фильтрует — см. следующий пункт.
- Скачивание моделей. Если корпоративная сеть всё-таки закрыла
ollama.com, можно подтянуть модели напрямую с Hugging Face в формате GGUF и подключить черезollama createс собственнымModelfile - Альтернативы для тех, у кого мало RAM. На 8 ГБ комфортно работают
llama3.2:1b,qwen2.5:3bиphi-4-mini. Для русского языка из коробки лучше всего себя показываетqwen2.5иgemma3 - GPU. Если есть видеокарта NVIDIA с CUDA (технология параллельных вычислений NVIDIA) или AMD с ROCm (open-source аналог CUDA для AMD) — Ollama сама её подхватит. Важно: ROCm работает не на всех картах AMD, в основном на свежих RX 6000/7000 и Radeon Pro/Instinct. Apple Silicon (M1+) использует Metal (графический API Apple) автоматически. На голом CPU тоже работает, но в 5–10 раз медленнее.
- Системный сервис. Если хочется, чтобы Ollama стартовала с системой и слушала порт постоянно — на Linux это уже systemd-сервис. Проверить статус:
systemctl status ollama; включить автозапуск:systemctl enable --now ollama. На macOS работает через launchd.
Часто задаваемые вопросы
Нужен ли интернет после установки модели?
Нет. После ollama pull модель работает полностью офлайн. Интернет нужен только для самой первой загрузки и при обновлении моделей.
Сколько стоит Ollama?
Ничего. Open source под лицензией MIT. Никаких API-сборов, подписок или лимитов на токены.
Нужен ли GPU?
Нет. Модели крутятся и на CPU, но GPU значительно ускоряет ответы — особенно на крупных моделях. На Apple Silicon (M1+) работает через Metal автоматически. На NVIDIA — через CUDA, на AMD — через ROCm.
С какой модели начать?
llama3.2:latest — лучший старт: разумный баланс качества и ресурсов. Если не тянет — llama3.2:1b (1,3 ГБ). Для кодинга — qwen3-coder, gpt-oss:20b или gpt-oss:120b. Главное — чтобы железо тянуло.
Можно запустить несколько чат-сессий одновременно?
Да. Открывайте несколько терминалов и запускайте ollama run <model> в каждом. RAM умножается на число сессий — следите через ollama ps, какие модели загружены и сколько памяти занимают.
Где Ollama хранит скачанные модели?
На macOS и Linux — в ~/.ollama/models. На Windows — в %USERPROFILE%\\.ollama\\models. Удаляются командой ollama rm <name>.
Куда двигаться дальше
Ollama настроена — есть несколько направлений для следующих шагов:
- Подключение из Python. Программно вызывать модели через REST API или официальный SDK
ollama-python— туториал How to Integrate Local LLMs With Ollama and Python - Другие модели. На ollama.com/models есть модели под конкретные задачи: vision (
llava,llama3.2-vision), embeddings (nomic-embed-text), domain-specific (medllama2,deepseek-coder) - Тонкая настройка. Через
Modelfileможно задать свой системный промпт, температуру, top-p, контекстное окно — превратить общую модель в специализированного ассистента под задачи команды
Выводы
Ollama закрывает три пробела разом: даёт ИИ-ассистента без подписок, делает работу с кодом приватной (промпты не уходят в облако) и снимает зависимость от иностранных платёжных систем — а это уже само по себе аргумент для российских разработчиков. CLI-интерфейс и команда ollama launch делают барьер входа минимальным: от curl ... | sh до Claude Code на локальной модели — минут пятнадцать, считая скачивание.
Большие языковые модели традиционно требуют дорогих API-подписок и постоянного интернета. Ollama снимает оба требования.
Попробуйте запустить любимый промпт на локальной модели и сравните ответ с облачной версией — разница в скорости и качестве зависит от железа сильнее, чем кажется. Свои находки — какая модель оказалась лучшей для русскоязычных задач, какое железо смогло потянуть gpt-oss:20b — ждём в комментариях.
Источник: Real Python — How to Use Ollama to Run Large Language Models Locally. Автор оригинала — Леоданис Позо Рамос.