Gemma 4 запустилась оффлайн на iPhone через AI Edge Gallery
В App Store появилось приложение Google для запуска Gemma 4 прямо на iPhone — с Thinking Mode, мультимодальным инпутом и без единого запроса к облаку.
Новости TprogerЕсли хочется локальный ИИ-чат на iPhone без отправки данных в облако — теперь есть официальное приложение от Google. AI Edge Gallery вышел в App Store и запускает Gemma 4 прямо на устройстве: ответы, распознавание фото, расшифровка голоса — всё локально, без интернета.
Gemma — семейство открытых моделей Google, построенное на тех же исследованиях, что и Gemini, но под лицензией Apache 2.0. Четвёртая версия вышла в четырёх размерах: E2B и E4B для мобильных устройств, 26B MoE и 31B Dense для серверов. На iPhone в Gallery реально запускаются E2B и E4B — остальные требуют H100-класса GPU.
Ранее AI Edge Gallery было приложением только для Android. Вместе с iOS-версией Google выкатил апдейт с поддержкой Gemma 4 и двух заметных функций: Thinking Mode (chain-of-thought с видимыми шагами рассуждений) и Agent Skills (плагины-инструменты, которые модель вызывает сама — tool use на телефоне). Полный исходный код — на GitHub под Apache 2.0, 21,3 тыс. звёзд на момент публикации.
Ключевые выводы
- Что это: приложение Google для запуска open-source LLM (варианты Gemma 4 E2B/E4B, FunctionGemma 270m и др.) локально на iPhone и Android
- Где взять: App Store (iOS 17+), Google Play или APK с GitHub (Android 12+)
- Что нового: поддержка Gemma 4, Thinking Mode с видимыми шагами рассуждений, модульные Agent Skills
- Мультимодальность: ввод через камеру, фото или голос — Audio Scribe делает расшифровку и перевод в реальном времени
- Приватность: инференс на устройстве, интернет нужен только для первичной загрузки моделей
- Статус: Experimental Beta, 4,0/5 в App Store, 35,4 МБ (модели качаются отдельно)
Что умеет Gemma 4 в AI Edge Gallery
На Android AI Edge Gallery с мая 2025 года служил витриной on-device ML от Google. iOS-версия вышла в феврале 2026 сразу с полным набором функций. Разберём ключевые.
AI Chat с Thinking Mode
Это обычный диалог с Gemma 4 и тумблером Thinking Mode: включаете — и видите шаги, которыми модель приходит к ответу (тот самый chain-of-thought). Полезно для задач, где хочется проверить ход рассуждения: логические головоломки, код, математика. Пока режим доступен начиная с семейства Gemma 4 — в будущем обещают добавить другие модели.
Agent Skills — tool use на телефоне
Это модульные инструменты, которые модель подключает сама по запросу пользователя: Wikipedia для проверки фактов, интерактивные карты, визуальные summary-карточки. Можно загрузить свой скилл по URL или взять готовый из community-обсуждений. По сути, это tool use — модель сама решает, какой инструмент вызвать, чтобы ответить точнее.
Ask Image — мультимодальный ввод
Задаёте вопрос по фото или картинке с камеры: «что это за растение», «реши задачу на экране», «опиши сцену». Работает через E2B/E4B варианты Gemma 4 — на старших размерах multimodal тоже есть, но на iPhone влезают только edge-варианты.
Audio Scribe и Prompt Lab
Audio Scribe расшифровывает голосовые записи и переводит их в текст на другом языке — обе операции в реальном времени и на устройстве. Prompt Lab — песочница, где можно подкручивать temperature и top-k, тестируя разные формулировки промпта.
Mobile Actions и Tiny Garden
Две функции на базе FunctionGemma 270m — отдельной модели Google на 270 миллионов параметров, построенной на архитектуре Gemma 3 270M и обученной под function calling. В Gallery она дополнительно дообучена под команды устройству: включить фонарик, выполнить простое действие, вернуть структурированный ответ. Tiny Garden — мини-игра, где вы «сажаете» растения обычными фразами — демонстрация того, как 270M-модель превращает свободный текст в вызов конкретной функции.
Что под капотом
Приложение построено на Google AI Edge — SDK для запуска моделей на устройстве. Главные компоненты:
- LiteRT — лёгкий рантайм для оптимизированного запуска моделей на CPU и GPU устройства
- Hugging Face Integration — встроенный каталог моделей: можно загрузить любую совместимую LiteRT-модель из LiteRT Community
- Model Management & Benchmark — локальный бенчмарк прогоняет модель на вашем железе и показывает, сколько токенов в секунду выдаёт именно ваш iPhone
Для тех, кто уже работает с локальными моделями через llama.cpp или Ollama, AI Edge Gallery — другой подход. По данным Google, в бенчмарках на Samsung Galaxy S25 Ultra Gemma 3 1B через LiteRT обгоняет llama.cpp на CPU и GPU для операций prefill и decode. На NPU разрыв ещё больше — до 3×. Независимых сравнений LiteRT и llama.cpp на iOS пока нет.
Как установить и откуда качать
Официальные ссылки:
- iOS (17 и выше): App Store
- Android (12 и выше): Google Play или APK с GitHub Releases
- Исходники: github.com/google-ai-edge/gallery (Apache 2.0, Kotlin 91%)
Для российских пользователей. В App Store приложение доступно в зарубежных регионах — нужен Apple ID с другим регионом (для бесплатной загрузки платёжная карта не требуется, достаточно подтвердить регион без указания оплаты). Google Play в России не работает, поэтому самый прямой путь для Android — APK с GitHub. Модели Gemma на Hugging Face — не gated, скачиваются из России без VPN (в отличие от Llama и подобных моделей с ограничениями).
Ограничения и что не работает
AI Edge Gallery — Experimental Beta, и пользователи App Store в отзывах жалуются на типичные для ранних релизов баги:
- При переходе между диалогами модель приходится перезагружать — это занимает время даже при небольшом размере
- Нет адаптации под iPad — приложение открывается в мелком окне
- Нет виджета на главном экране: чтобы задать вопрос, надо сначала открыть само приложение
- Mobile Actions умеют базовое управление устройством (фонарик, простые задачи), но не умеют открывать произвольные приложения или создавать события календаря
Оценка в App Store — 4,0/5 на 87 отзывах. Это песочница для изучения возможностей on-device ИИ, а не замена ChatGPT или облачного Gemini — там модели мощнее и с большим контекстом.
Что это значит для разработчиков
Приложение — рабочая витрина LiteRT и Google AI Edge. Если вы планируете добавить локальный LLM в своё мобильное приложение, AI Edge Gallery даёт:
- Полный код на Kotlin (91% репозитория) — можно вытащить архитектурные решения
- Готовую интеграцию с Hugging Face LiteRT Community для загрузки моделей
- Примеры использования FunctionGemma 270m для function calling на мобильном железе
- Встроенный бенчмарк — измерить, потянет ли ваш сценарий iPhone A15 или нужен A17 Pro
Остальные open-source LLM на рынке — Qwen, DeepSeek, Llama, Mistral — тоже можно гонять через LiteRT, если они уже сконвертированы в формат. Выбор за вами; Google даёт готовую интеграцию, а не эксклюзив.
FAQ
Что такое Gemma 4?
Gemma 4 — новое семейство открытых моделей Google, построенное на тех же исследованиях, что и Gemini, под лицензией Apache 2.0. Четыре размера: E2B, E4B (effective 2B/4B с Per-Layer Embeddings — для мобильных устройств), 26B MoE и 31B Dense (для серверов). Веса — на Hugging Face.
Какой iPhone нужен?
Минимум iOS 17. На iPhone 15 Pro и новее варианты E2B и E4B запускаются комфортно. На более старых устройствах скорость генерации заметно ниже — точные цифры покажет встроенный бенчмарк в самом приложении.
Нужен ли интернет?
Интернет нужен только один раз — для скачивания моделей и скиллов. После этого приложение работает полностью офлайн: инференс происходит локально, данные не уходят на серверы Google.
Можно ли загружать свои модели?
Да. В разделе Model Management добавляется любая LiteRT-совместимая модель. Каталог Hugging Face LiteRT Community доступен прямо из приложения.
Что такое FunctionGemma 270m?
Отдельная модель Google на 270 миллионов параметров, построенная на архитектуре Gemma 3 270M и специально обученная под function calling — то есть под распознавание намерения и вызов нужной функции. Достаточно маленькая, чтобы бежать на телефоне мгновенно.
Выводы
AI Edge Gallery закрывает нишу, которую Apple Intelligence делает на iOS закрыто и ограниченно: on-device ИИ со сменой моделей, видимым кодом и возможностью форка. Вы видите, какие веса загружаются, как они работают, и можете использовать это как образец для собственного приложения.
Если вы хотите поиграться с Gemma 4, протестировать function calling на реальном железе или иметь офлайн-чат без разрешений на отправку данных — ставьте AI Edge Gallery из App Store и выбирайте модель под размер вашей памяти. Для Android — APK с GitHub. Список остальных свежих on-device ИИ-инструментов мы недавно разбирали в обзоре GitHub Trending.
Источники: страница приложения в App Store, репозиторий google-ai-edge/gallery, документация Google AI Edge, обсуждение на Hacker News.