Pandas AI — ИИ-библиотека для работы с Big Data
OpenAI выпустила Pandas AI — это помощник для библиотеки Pandas на Python на основе языковой модели LLM. Рассказываем, как его использовать.
3К открытий5К показов
Представьте, что у вас есть огромная база данных на миллиарды строк, из которой нужно вытянуть одно нужное значение. Скорее всего, даже поиск этого значения займёт приличное время, не говоря уже об обработке данных.
Но что, если теперь вы можете поговорить со своей БД и просто задать нужный вопрос, а в ответ получить нужное вам значение? Именно так и работает Pandas AI!
Что такое Pandas AI
Pandas AI — это библиотека Python со встроенным генеративным искусственным интеллектом или языковой моделью. Она превращает ваши фреймы данных в собеседников. Больше никаких бесконечных часов разглядывания строк и столбцов.
Pandas AI при этом не позиционирует себя как замена Pandas. Это скорее улучшение для стандартной Pandas.
Pandas AI — это ИИ-помощник, который позволяет быстрее и глубже анализизировать данные и управлять ими.
Представьте себе фрейм данных, который может писать собственные отчеты, или фрейм, который может анализировать сложные данные и предоставлять вам простые для понимания сводки.
Pandas AI — это:
Круто, языковые модели и в будущем хочется видеть встроенными в инструменты
Отстой, нейросетевые помощники плодят малограмотных специалистов
Мне абсолютно всё равно
Установка Pandas AI с помощью pip
Установить Pandas AI можно при помощи этой pip-команды:
После установки нужно импортировать библиотеку pandasai
и функцию LLM (Large Language Model). Пока что, в мае 2023 года, pandasai поддерживает только эту языковую модель от OpenAI.
Чтобы использовать LLM, вам потребуется доступ к API OpenAI, а значит, ключ API. Для этого создайте учетную запись OpenAI.
После создания учетной записи вы получите кредит в размере $5, который можно использовать для изучения API.
После успешного импорта OpenAI в Pandas AI можно начать работу.
Используем Pandas AI
Для работы pandas_ai.run
нужны два параметра:
- датафрейм, с которым вы работаете,
- вопрос, на который вы ищете ответ.
Наш датафрейм содержит информацию о различных странах, включая их ВВП (в миллионах долларов США) и показатели индекса счастья. Он состоит из 10 строк и 3 столбцов.
Теперь попросим Pandas AI назвать топ-5 самых счастливых стран на основе предоставленного датафрейма.
Давайте проверим, может ли он рисовать для нас графики на основе данных в датафрейме?
Вот, какой график построил Pandas AI:
Теперь давайте немного усложним задачу, создав новый датафрейм со значением NAN, и посмотрим, как поведёт себя Pandas AI.
Если попросить убрать значение NaN из датафрейма, Pandas AI ответит:
Однако если снова набрать df
, Pandas AI удалит значения NAN из базы данных вместо со всей строкой.
Заключение
Pandas AI — это крутой инструмент, который наверняка хотя бы немного снизит порог входа в профессии дата-аналитиков и дата-саентистов.
У инструмента огромные возможности, и вы можете изучить их все, посетив их официальный репозиторий GitHub.
Однако стоимость Pandas AI зависит от ценообразования и политики OpenAI. По состоянию на май 2023 года цена составляет примерно $0,0200 за 1000 токенов за (для модели GPT-3,5-Turbo).
Также нужно помнить, что Pandas AI обрабатывает весь фрейм данных, когда вы задаёте ей вопрос. Такое ограничение подойдёт не для каждой задачи в Big Data.
3К открытий5К показов