Gemma 4 запустилась оффлайн на iPhone через AI Edge Gallery

В App Store появилось приложение Google для запуска Gemma 4 прямо на iPhone — с Thinking Mode, мультимодальным инпутом и без единого запроса к облаку.

Обложка: Gemma 4 запустилась оффлайн на iPhone через AI Edge Gallery

Если хочется локальный ИИ-чат на iPhone без отправки данных в облако — теперь есть официальное приложение от Google. AI Edge Gallery вышел в App Store и запускает Gemma 4 прямо на устройстве: ответы, распознавание фото, расшифровка голоса — всё локально, без интернета.

Gemma — семейство открытых моделей Google, построенное на тех же исследованиях, что и Gemini, но под лицензией Apache 2.0. Четвёртая версия вышла в четырёх размерах: E2B и E4B для мобильных устройств, 26B MoE и 31B Dense для серверов. На iPhone в Gallery реально запускаются E2B и E4B — остальные требуют H100-класса GPU.

Ранее AI Edge Gallery было приложением только для Android. Вместе с iOS-версией Google выкатил апдейт с поддержкой Gemma 4 и двух заметных функций: Thinking Mode (chain-of-thought с видимыми шагами рассуждений) и Agent Skills (плагины-инструменты, которые модель вызывает сама — tool use на телефоне). Полный исходный код — на GitHub под Apache 2.0, 21,3 тыс. звёзд на момент публикации.

Ключевые выводы
  • Что это: приложение Google для запуска open-source LLM (варианты Gemma 4 E2B/E4B, FunctionGemma 270m и др.) локально на iPhone и Android
  • Где взять: App Store (iOS 17+), Google Play или APK с GitHub (Android 12+)
  • Что нового: поддержка Gemma 4, Thinking Mode с видимыми шагами рассуждений, модульные Agent Skills
  • Мультимодальность: ввод через камеру, фото или голос — Audio Scribe делает расшифровку и перевод в реальном времени
  • Приватность: инференс на устройстве, интернет нужен только для первичной загрузки моделей
  • Статус: Experimental Beta, 4,0/5 в App Store, 35,4 МБ (модели качаются отдельно)

Что умеет Gemma 4 в AI Edge Gallery

На Android AI Edge Gallery с мая 2025 года служил витриной on-device ML от Google. iOS-версия вышла в феврале 2026 сразу с полным набором функций. Разберём ключевые.

AI Chat с Thinking Mode

Это обычный диалог с Gemma 4 и тумблером Thinking Mode: включаете — и видите шаги, которыми модель приходит к ответу (тот самый chain-of-thought). Полезно для задач, где хочется проверить ход рассуждения: логические головоломки, код, математика. Пока режим доступен начиная с семейства Gemma 4 — в будущем обещают добавить другие модели.

Agent Skills — tool use на телефоне

Это модульные инструменты, которые модель подключает сама по запросу пользователя: Wikipedia для проверки фактов, интерактивные карты, визуальные summary-карточки. Можно загрузить свой скилл по URL или взять готовый из community-обсуждений. По сути, это tool use — модель сама решает, какой инструмент вызвать, чтобы ответить точнее.

Ask Image — мультимодальный ввод

Задаёте вопрос по фото или картинке с камеры: «что это за растение», «реши задачу на экране», «опиши сцену». Работает через E2B/E4B варианты Gemma 4 — на старших размерах multimodal тоже есть, но на iPhone влезают только edge-варианты.

Audio Scribe и Prompt Lab

Audio Scribe расшифровывает голосовые записи и переводит их в текст на другом языке — обе операции в реальном времени и на устройстве. Prompt Lab — песочница, где можно подкручивать temperature и top-k, тестируя разные формулировки промпта.

Mobile Actions и Tiny Garden

Две функции на базе FunctionGemma 270m — отдельной модели Google на 270 миллионов параметров, построенной на архитектуре Gemma 3 270M и обученной под function calling. В Gallery она дополнительно дообучена под команды устройству: включить фонарик, выполнить простое действие, вернуть структурированный ответ. Tiny Garden — мини-игра, где вы «сажаете» растения обычными фразами — демонстрация того, как 270M-модель превращает свободный текст в вызов конкретной функции.

Что под капотом

Приложение построено на Google AI Edge — SDK для запуска моделей на устройстве. Главные компоненты:

  • LiteRT — лёгкий рантайм для оптимизированного запуска моделей на CPU и GPU устройства
  • Hugging Face Integration — встроенный каталог моделей: можно загрузить любую совместимую LiteRT-модель из LiteRT Community
  • Model Management & Benchmark — локальный бенчмарк прогоняет модель на вашем железе и показывает, сколько токенов в секунду выдаёт именно ваш iPhone

Для тех, кто уже работает с локальными моделями через llama.cpp или Ollama, AI Edge Gallery — другой подход. По данным Google, в бенчмарках на Samsung Galaxy S25 Ultra Gemma 3 1B через LiteRT обгоняет llama.cpp на CPU и GPU для операций prefill и decode. На NPU разрыв ещё больше — до 3×. Независимых сравнений LiteRT и llama.cpp на iOS пока нет.

Как установить и откуда качать

Официальные ссылки:

Для российских пользователей. В App Store приложение доступно в зарубежных регионах — нужен Apple ID с другим регионом (для бесплатной загрузки платёжная карта не требуется, достаточно подтвердить регион без указания оплаты). Google Play в России не работает, поэтому самый прямой путь для Android — APK с GitHub. Модели Gemma на Hugging Face — не gated, скачиваются из России без VPN (в отличие от Llama и подобных моделей с ограничениями).

Ограничения и что не работает

AI Edge Gallery — Experimental Beta, и пользователи App Store в отзывах жалуются на типичные для ранних релизов баги:

  • При переходе между диалогами модель приходится перезагружать — это занимает время даже при небольшом размере
  • Нет адаптации под iPad — приложение открывается в мелком окне
  • Нет виджета на главном экране: чтобы задать вопрос, надо сначала открыть само приложение
  • Mobile Actions умеют базовое управление устройством (фонарик, простые задачи), но не умеют открывать произвольные приложения или создавать события календаря

Оценка в App Store — 4,0/5 на 87 отзывах. Это песочница для изучения возможностей on-device ИИ, а не замена ChatGPT или облачного Gemini — там модели мощнее и с большим контекстом.

Что это значит для разработчиков

Приложение — рабочая витрина LiteRT и Google AI Edge. Если вы планируете добавить локальный LLM в своё мобильное приложение, AI Edge Gallery даёт:

  • Полный код на Kotlin (91% репозитория) — можно вытащить архитектурные решения
  • Готовую интеграцию с Hugging Face LiteRT Community для загрузки моделей
  • Примеры использования FunctionGemma 270m для function calling на мобильном железе
  • Встроенный бенчмарк — измерить, потянет ли ваш сценарий iPhone A15 или нужен A17 Pro

Остальные open-source LLM на рынке — Qwen, DeepSeek, Llama, Mistral — тоже можно гонять через LiteRT, если они уже сконвертированы в формат. Выбор за вами; Google даёт готовую интеграцию, а не эксклюзив.

FAQ
1
Что такое Gemma 4?

Gemma 4 — новое семейство открытых моделей Google, построенное на тех же исследованиях, что и Gemini, под лицензией Apache 2.0. Четыре размера: E2B, E4B (effective 2B/4B с Per-Layer Embeddings — для мобильных устройств), 26B MoE и 31B Dense (для серверов). Веса — на Hugging Face.

2
Какой iPhone нужен?

Минимум iOS 17. На iPhone 15 Pro и новее варианты E2B и E4B запускаются комфортно. На более старых устройствах скорость генерации заметно ниже — точные цифры покажет встроенный бенчмарк в самом приложении.

3
Нужен ли интернет?

Интернет нужен только один раз — для скачивания моделей и скиллов. После этого приложение работает полностью офлайн: инференс происходит локально, данные не уходят на серверы Google.

4
Можно ли загружать свои модели?

Да. В разделе Model Management добавляется любая LiteRT-совместимая модель. Каталог Hugging Face LiteRT Community доступен прямо из приложения.

5
Что такое FunctionGemma 270m?

Отдельная модель Google на 270 миллионов параметров, построенная на архитектуре Gemma 3 270M и специально обученная под function calling — то есть под распознавание намерения и вызов нужной функции. Достаточно маленькая, чтобы бежать на телефоне мгновенно.

Выводы

AI Edge Gallery закрывает нишу, которую Apple Intelligence делает на iOS закрыто и ограниченно: on-device ИИ со сменой моделей, видимым кодом и возможностью форка. Вы видите, какие веса загружаются, как они работают, и можете использовать это как образец для собственного приложения.

Если вы хотите поиграться с Gemma 4, протестировать function calling на реальном железе или иметь офлайн-чат без разрешений на отправку данных — ставьте AI Edge Gallery из App Store и выбирайте модель под размер вашей памяти. Для Android — APK с GitHub. Список остальных свежих on-device ИИ-инструментов мы недавно разбирали в обзоре GitHub Trending.

Источники: страница приложения в App Store, репозиторий google-ai-edge/gallery, документация Google AI Edge, обсуждение на Hacker News.