Vespa, движок обработки «больших данных» сервисов Yahoo, стал открытым проектом

Новости

Компания Oath, владеющая активами Yahoo, выпустила в открытый доступ движок обработки данных Vespa, являющийся основой большинства сервисов Yahoo.

517 открытий534 показов

Об этом компания объявила в своём пресс-релизе. Отмечается, что Oath всегда была нацелена на выпуск всех своих продуктов обработки Big Data в свободный доступ — от открытия исходного кода Hadoop в 2006 году до состоявшегося открытия GitHub-репозитория движка Vespa.

Vespa, движок обработки «больших данных» сервисов Yahoo, стал открытым проектом 1

Зачем нужен Vespa?

Создание приложений подразумевает использование огромных объёмов данных. Разработчики могут использовать Hadoop для хранения и обработки Big Data, Storm для потоковой обработки данных, однако до нынешнего момента не было технологии, позволяющей показывать результаты в удобном для конечного пользователя виде.

Обработка запросов пользователей для поиска в большом объёме данных является серьёзным вызовом, особенно, когда необходимо вернуть ответ на запрос моментально. Именно с этим может помочь Vespa. Проект может находить ответы на запросы среди больших объёмов данных в режиме реального времени с минимальными задержками, вне зависимости от размера данных.

Хорошим примером использования являются поисковые системы, системы персональных рекомендаций, генерируемые в зависимости от предпочтений пользователя навигационные блоки, отображение облаков тегов. В общем, все приложения, результаты работы которых зависят от запроса пользователя, а не заранее рассчитанных ответов.

Где используется Vespa?

В настоящее время Vespa используется во многих сервисах Yahoo, включая Yahoo.com, Yahoo News, Yahoo Sports, Yahoo Gemini, Flickr и другие, и позволяет выполнять миллиарды запросов пользователей для миллиардов существующих документов. Например, в сервисе Flickr Vespa осуществляет сотни запросов в секунду к базе данных, состоящей из миллиардов изображений.

Ключевые особенности Vespa:

Выбор контента с использованием SQL-подобных запросов и текстового поиска;
Группировка всех результатов для компоновки итоговых страниц;
Ранжирование записей с применением машинных моделей релевантности;
Вывод результата на запрос в течение нескольких миллисекунд;
Обеспечение записи данных для постоянного хранения в режиме реального времени; несколько тысяч записей в секунду на один узел;
Перенастройка кластеров без перевода серверов в режим офлайн;
Применение распределённой системы вычислений без использования мастер-нода для избежания потери производительности;
Запуск системы как на одном узле, так и на кластере.

Приступаем к работе

Для облегчения установки Vespa команда разработчиков подготовила Docker-контейнеры и rpm-пакеты, а также руководства по установке системы на рабочем компьютере или облачных сервисах AWS.

Также разработчики обещают выпустить серию руководств, объясняющих, как создать приложение с использованием Vespa. Но уже доступна документация продукта, которая поможет начать работу с Vespa прямо сейчас.

517 открытий534 показов

Также рекомендуем

Как настроить интеграцию между Great Expectations и Impala для работы с большими данными

Рассказываем, как мы заставили GX подружиться с Impala.

5 open-source моделей, в которые можно вписаться до конца 2025 года — Qwen, Gemma, DeepSeek, Mistral, OpenAI

Open-source ИИ набирает обороты: запускайте Qwen, Gemma, DeepSeek, Mistral и GPT-OSS на обычном ноуте и создавайте рабочие прототипы

Инференс любой модели по API теперь доступен в РФ. Что такое Evolution AI Factory от Cloud.ru

Доступ к open source моделям с лёгким развёртыванием без лишнего кода. Приятные тарифы, SLA, круглосуточная поддержка и возможность масштабировать нагрузку.

🔥 AMD выпустила open-source драйвер для виртуализации GPU на Linux

AMD выпустила open-source драйвер GIM для SR-IOV на Linux — теперь один GPU можно делить между ВМ без потери производительности