Запускаем LLM локально через Ollama: гайд от установки до Claude Code

Запускаем большие языковые модели прямо на ноутбуке: без API-ключей, VPN и облачных сервисов. Полный гайд от установки Ollama до Claude Code на локальной модели.

Обложка: Запускаем LLM локально через Ollama: гайд от установки до Claude Code

Если вы пишете код с помощью Claude Code, Codex или любого другого ИИ-ассистента — а тратиться на API-ключи не хочется (или просто не получается из РФ), есть рабочая альтернатива: запустить модель прямо на ноутбуке. Ollama — бесплатный open-source инструмент, который скачивает и крутит LLM на вашем железе. Никаких API-ключей, никаких облачных сервисов, никакого VPN. Промпты остаются на машине, за токены никто не списывает. Перевод пошагового гайда от Real Python (автор Леоданис Позо Рамос) с пояснениями для российской аудитории.

Главное
Что нужно знать про Ollama
TL;DR гайда — от установки до Claude Code на локальной модели
  • Ollama — бесплатный open-source инструмент (MIT) для локального запуска LLM. Доступен из РФ без VPN
  • Минимальные требования: 8 ГБ RAM (16 ГБ для крупных моделей), 5–16 ГБ места под модели, GPU не обязателен
  • Стартовая модель — llama3.2:latest (3,2B параметров, 2 ГБ на диск)
  • Команда ollama launch подключает локальную модель к Claude Code, Codex, Droid и OpenCode без ручной настройки
  • Для кодинг-задач рекомендованы qwen3-coder, gpt-oss:20b и gpt-oss:120b
  • Промпты не уходят в облако — подходит для коммерческого кода и чувствительных данных

Что понадобится

Чтобы повторить шаги, нужно несколько вещей со стороны железа и софта:

  • macOS 14 Sonoma или новее, Windows 10+ или относительно свежий Linux-дистрибутив
  • Минимум 8 ГБ RAM, для крупных моделей — 16 ГБ и больше
  • 5–16 ГБ свободного места под модели
  • Базовые навыки работы в терминале: открыть, ввести команду, прочитать вывод

Python для гайда не нужен — всё через CLI. Если позже захотите программно вызывать модели из Python-кода, у Real Python есть отдельный туториал How to Integrate Local LLMs With Ollama and Python.

Шаг 1: установить Ollama и скачать первую модель

Установка одной командой. На Windows откройте PowerShell и выполните:

			PS> irm https://ollama.com/install.ps1 | iex
		

На Linux и macOS — одна строка в терминале:

			$ curl -fsSL https://ollama.com/install.sh | sh
		

Через минуту Ollama установлена. На некоторых Linux-дистрибутивах может не хватать curl и библиотеки zstd — на Debian/Ubuntu ставятся одной командой:

			$ sudo apt update && sudo apt install curl zstd
		

Альтернатива — отдельные инсталляторы для Windows и macOS на странице ollama.com/download. У macOS и Windows также есть GUI-приложение, но в этом гайде разбираем только CLI — он одинаков на всех платформах. Описание GUI-версии — в блоге Ollama.

Проверить, что CLI установлен:

			$ ollama -v
ollama version is 0.17.7
		

Сервис Ollama должен сам подняться в фоне на порту 11434. Если в ответ на команду выше появилось предупреждение — поднимите вручную:

			$ ollama serve
		

На некоторых Linux-дистрибутивах эту команду нужно вызывать явно. На этом установка закончена — пора скачать первую модель.

Скачиваем llama3.2

Стартовая модель — llama3.2:latest: 3,2 миллиарда параметров, около 2 ГБ на диске. Это разумный баланс между качеством ответов и требованиями к железу:

			$ ollama pull llama3.2:latest
pulling manifest
pulling dde5aa3fc5ff: 100% ████████████ 2.0 GB
...
verifying sha256 digest
writing manifest
success
		

Скорость зависит от интернета. Это единственный момент, когда соединение нужно — после скачивания модель работает офлайн. Проверить, что модель установилась:

			$ ollama ls
NAME               ID              SIZE      MODIFIED
llama3.2:latest    a80c4f17acd5    2.0 GB    About a minute ago
		

Полный каталог моделей — на ollama.com/models. Если RAM мало, берите более лёгкую llama3.2:1b — всего 1,3 ГБ. Для мощного железа есть llama3.3:70b с заметно более сильными reasoning-способностями.

Посмотреть характеристики модели:

			$ ollama show llama3.2:latest
Model
  architecture        llama
  parameters          3.2B
  context length      131072
  embedding length    3072
  quantization        Q4_K_M
Capabilities
  completion
  tools
...
		

Что важно из вывода: модель — 3,2 миллиарда параметров, контекст — 131 072 токена (это сколько текста модель «видит» за один разговор). Поддерживает completion (ответы на промпты) и tools — то есть может работать как агент с инструментами.

Если решили освободить место или больше не нужна конкретная модель — удалите её с диска:

			$ ollama rm <model-name>
		

Команда ollama --help покажет полный список опций CLI. Готово — можно общаться с локальной моделью.

Шаг 2: чат с локальной моделью

Чтобы запустить интерактивный чат, в терминале:

			$ ollama run llama3.2:latest
>>> Send a message (/? for help)
		

Когда модель загрузится, появится >>> — режим чата. Заглушка «Send a message (/? for help)» подскажет, что делать дальше. Введите первый промпт:

			>>> Explain Python's GIL in one sentence.
Python's Global Interpreter Lock (GIL) is a mechanism that prevents
multiple native threads from executing Python bytecodes at once,
thereby limiting the performance benefits of multithreading for
CPU-bound tasks.
		

Конкретный ответ у вас может отличаться, но смысл тот же. Первый ответ может задержаться — модель догружается в RAM. Дальше отвечает быстрее. Текст течёт инкрементально — поток токенов делает чат отзывчивым ещё до окончания ответа.

Контекст разговора держится в пределах сессии — можете задавать follow-up без повторения предыстории:

			>>> What issues does it cause?
The Global Interpreter Lock (GIL) in Python causes several issues:

1. **Performance overhead**: The GIL introduces a performance bottleneck
due to context switching between threads, which can lead to slower execution
times compared to languages without GILs.
2. **Limited multithreading benefits**: For CPU-bound tasks, the GIL
actually prevents true parallelism, as only one thread can execute Python
bytecodes at a time. This means that multithreading may not provide
the expected performance improvements.
...
		

В вопросе нет слова GIL, но модель помнит контекст. Чтобы убедиться, что всё работает офлайн, отключите интернет и отправьте ещё один промпт. Ответ всё равно придёт — никакие токены никуда не уходят.

В CLI есть слеш-команды для управления сессией. Команда /? покажет полный список:

			>>> /?
Available Commands:
  /set            Set session variables
  /show           Show model information
  /load <model>   Load a session or model
  /save <model>   Save your current session
  /clear          Clear session context
  /bye            Exit
  /?, /help       Help for a command
  /? shortcuts    Help for keyboard shortcuts

Use """ to begin a multiline message.
		

Полезные команды — попробуйте сами. Многострочные промпты — через тройные кавычки ("""). Чтобы сменить модель, выйдите из сессии командой /bye и запустите ollama run <другая-модель>.

Шаг 3: подключить Ollama к Claude Code и другим ИИ-ассистентам

Самое интересное. Команда ollama launch цепляет локальную модель как бэкенд для популярных ИИ-инструментов кодинга — без ручной настройки конфигов.

Чтобы команда ollama launch работала, нужна Ollama версии 0.15+. Проверить версию: ollama -v.

Перед запуском убедитесь, что у вас уже установлен сам Claude Code (через официальный гайд Anthropicnpm install -g @anthropic-ai/claude-code). Команда ollama launch сама не ставит Claude Code, она только переключает его на локальный backend. Запускаем:

			$ ollama launch claude
		

Команда настраивает Claude Code на локальный API на localhost:11434, совместимый с Anthropic API, и сразу запускает Claude Code в текущем терминале — вы окажетесь в его интерактивной сессии. Чтобы убедиться, что бэкенд именно локальный — отключите интернет и задайте любой вопрос: ответ всё равно придёт. Чтобы только настроить интеграцию, не запуская инструмент сразу — добавьте флаг --config:

			$ ollama launch claude --config
		

Перед запуском Claude Code имеет смысл скачать модель, заточенную под код. Рекомендованные локальные модели для генерации кода и агентских воркфлоу:

  • qwen3-coder — оптимизирована под кодогенерацию. Размеры: 19 ГБ (вариант 30b, для машин с ≥ 24 ГБ RAM) или 290 ГБ (вариант 480b, для серверов). Контекст: 256K
  • gpt-oss:20b — добротный среднеуровневый вариант. Размер: 14 ГБ. Контекст: 128K
  • gpt-oss:120b — высокое качество, требует серьёзного железа. Размер: 65 ГБ. Контекст: 128K

Кодинг-инструменты и агентские задачи требуют большого контекстного окна — для Claude Code рекомендовано минимум 64K токенов.

Эти модели существенно тяжелее llama3.2. Перед скачиванием убедитесь, что у системы хватит RAM и места на диске.

Чтобы продолжить туториал на минимальном железе, скачайте самую лёгкую из coder-моделей:

			$ ollama pull gpt-oss:20b
		

После скачивания запускаем Claude Code в режиме конфигурации:

			$ ollama launch claude --config
Model Configuration
Select model:
  Type to filter...
  > gpt-oss:20b
    llama3.2
    ...
		
			$ ollama launch claude
? Use which model: gpt-oss:20b

* Welcome to Claude Code (using local model: gpt-oss:20b)

>>> Объясни, как работает GIL в Python в одном предложении.

Global Interpreter Lock (GIL) — мьютекс CPython, который не даёт нескольким
потокам одновременно исполнять Python-байткод, ограничивая параллельность
для CPU-bound задач.

>>> Создай тестовый файл test_hello.py с функцией hello()

* Создаю файл test_hello.py...
* Готово.
		

Появится список установленных и рекомендованных моделей. Стрелками вверх-вниз — выбор, Enter — подтверждение. С этого момента Claude Code будет использовать вашу локальную модель вместо облачного API. Ответы генерируются только на вашем железе, код и промпты не покидают машину.

Ollama сейчас поддерживает не только Claude Code: работает с Codex, Droid и OpenCode. Команда та же — ollama launch <инструмент>.

Поиграйтесь с Claude Code на локальной модели и сравните результаты. Качество ответов сильно зависит от модели: gpt-oss:120b приближается к облачным моделям по качеству, но может тормозить без мощного железа. Маленькие модели жертвуют качеством ради скорости и скромных требований к ресурсам.

От редакции: что важно для российских пользователей

Несколько практических замечаний от Tproger, которых нет в оригинале Real Python:

  • Доступность. На момент апреля 2026 года ollama.com и репозиторий моделей ollama.com/models доступны из РФ без VPN. Модели хостятся на CDN, который пока не блокирован. Если корпоративная сеть всё-таки фильтрует — см. следующий пункт.
  • Скачивание моделей. Если корпоративная сеть всё-таки закрыла ollama.com, можно подтянуть модели напрямую с Hugging Face в формате GGUF и подключить через ollama create с собственным Modelfile
  • Альтернативы для тех, у кого мало RAM. На 8 ГБ комфортно работают llama3.2:1b, qwen2.5:3b и phi-4-mini. Для русского языка из коробки лучше всего себя показывает qwen2.5 и gemma3
  • GPU. Если есть видеокарта NVIDIA с CUDA (технология параллельных вычислений NVIDIA) или AMD с ROCm (open-source аналог CUDA для AMD) — Ollama сама её подхватит. Важно: ROCm работает не на всех картах AMD, в основном на свежих RX 6000/7000 и Radeon Pro/Instinct. Apple Silicon (M1+) использует Metal (графический API Apple) автоматически. На голом CPU тоже работает, но в 5–10 раз медленнее.
  • Системный сервис. Если хочется, чтобы Ollama стартовала с системой и слушала порт постоянно — на Linux это уже systemd-сервис. Проверить статус: systemctl status ollama; включить автозапуск: systemctl enable --now ollama. На macOS работает через launchd.
Часто задаваемые вопросы
1
Нужен ли интернет после установки модели?

Нет. После ollama pull модель работает полностью офлайн. Интернет нужен только для самой первой загрузки и при обновлении моделей.

2
Сколько стоит Ollama?

Ничего. Open source под лицензией MIT. Никаких API-сборов, подписок или лимитов на токены.

3
Нужен ли GPU?

Нет. Модели крутятся и на CPU, но GPU значительно ускоряет ответы — особенно на крупных моделях. На Apple Silicon (M1+) работает через Metal автоматически. На NVIDIA — через CUDA, на AMD — через ROCm.

4
С какой модели начать?

llama3.2:latest — лучший старт: разумный баланс качества и ресурсов. Если не тянет — llama3.2:1b (1,3 ГБ). Для кодинга — qwen3-coder, gpt-oss:20b или gpt-oss:120b. Главное — чтобы железо тянуло.

5
Можно запустить несколько чат-сессий одновременно?

Да. Открывайте несколько терминалов и запускайте ollama run <model> в каждом. RAM умножается на число сессий — следите через ollama ps, какие модели загружены и сколько памяти занимают.

6
Где Ollama хранит скачанные модели?

На macOS и Linux — в ~/.ollama/models. На Windows — в %USERPROFILE%\\.ollama\\models. Удаляются командой ollama rm <name>.

Куда двигаться дальше

Ollama настроена — есть несколько направлений для следующих шагов:

  • Подключение из Python. Программно вызывать модели через REST API или официальный SDK ollama-python — туториал How to Integrate Local LLMs With Ollama and Python
  • Другие модели. На ollama.com/models есть модели под конкретные задачи: vision (llava, llama3.2-vision), embeddings (nomic-embed-text), domain-specific (medllama2, deepseek-coder)
  • Тонкая настройка. Через Modelfile можно задать свой системный промпт, температуру, top-p, контекстное окно — превратить общую модель в специализированного ассистента под задачи команды

Выводы

Ollama закрывает три пробела разом: даёт ИИ-ассистента без подписок, делает работу с кодом приватной (промпты не уходят в облако) и снимает зависимость от иностранных платёжных систем — а это уже само по себе аргумент для российских разработчиков. CLI-интерфейс и команда ollama launch делают барьер входа минимальным: от curl ... | sh до Claude Code на локальной модели — минут пятнадцать, считая скачивание.

Большие языковые модели традиционно требуют дорогих API-подписок и постоянного интернета. Ollama снимает оба требования.
Леоданис Позо Рамосавтор оригинала, Real Python

Попробуйте запустить любимый промпт на локальной модели и сравните ответ с облачной версией — разница в скорости и качестве зависит от железа сильнее, чем кажется. Свои находки — какая модель оказалась лучшей для русскоязычных задач, какое железо смогло потянуть gpt-oss:20b — ждём в комментариях.

Источник: Real Python — How to Use Ollama to Run Large Language Models Locally. Автор оригинала — Леоданис Позо Рамос.