PrivateGPT — модель для работы с личным набором данных
PrivateGPT — это конфиденциальная GPT-модель, которая позволяет загружать свои данные в датасет и работать с ними без риска утечек.
4К открытий7К показов
PrivateGPT — это локальная языковая модель, с помощью которой вы можете работать со своими документами.
Языковая модель не подключается к Интернету, поэтому PrivateGPT гарантирует 100% конфиденциальность данных, которые вы используете для датасета.
В этой статье мы рассказываем, как работает эта модель, как установить её и как собрать свой личный датасет.
Как работает PrivateGPT
Используя локальные модели LangChain, вы можете запустить всю модель на своём ПК, и данные не будут покидать вашу среду. При этом разработчики гарантируют хорошую производительность.
ingest.py
использует инструменты LangChain для анализа документа и локального создания вложений с помощью HuggingFaceEmbeddings (SentenceTransformers)
. Затем Он сохраняет результат в локальной векторной базе данных, используя хранилище векторов Chroma.
privateGPT.py
использует локальный LLM на основе GPT4All-J или LlamaCpp для анализа вопросов и генерации ответов. Контекст для ответов извлекается из локального хранилища векторов с помощью поиска по сходству.
Устанавливаем PrivateGPT
Чтобы подготовить среду для запуска, сперва нужно установить все зависимости:
Затем загрузите модель LLM и поместите её в нужный вам каталог.
По умолчанию используется языковая модель ggml-gpt4all-j-v1.3-groovy.bin
. Если вы хотите использовать другую модель, совместимую с GPT4All-J, просто загрузите её и укажите в своем файле .env
.
После загрузки модели, переименуйте файл example.env
в .env
и отредактируйте содержимое файла по примеру ниже.
Примечание: из-за того, что модель загружает вложения SentenceTransformers, при первом запуске скрипта потребуется подключение к Интернету.
Как собрать свой датасет для PrivateGPT
Поместите все файлы с нужной вам информацией в каталог source_documents
.
Вот, какие расширения поддерживает PrivateGPT:
- .csv: CSV,
- .docx: Word Document,
- .doc: Word Document,
- .enex: EverNote,
- .eml: Email,
- .epub: EPub,
- .html: HTML File,
- .md: Markdown,
- .msg: Outlook Message,
- .odt: Open Document Text,
- .pdf: Portable Document Format (PDF),
- .pptx : PowerPoint Document,
- .ppt : PowerPoint Document,
- .txt: Text file (UTF-8),
Выполните следующую команду, чтобы загрузить все данные в модель.
Вывод должен выглядеть так:
Эта команда создаст папку db
, содержащую локальный векторный магазин.
Создание папки займет около 20-30 секунд на один документ, в зависимости от размера документа.
Вы можете загрузить столько документов, сколько захотите, и все они будут собраны в локальной базе данных вложений.
Если вы хотите очистить базу данных, просто удалите папку db
.
Примечание. Во время загрузки данных, они не покидают вашу локальную среду. Подгружать документы в датасет можно без подключения к Интернету. Подключение к Интернету потребуется только во время первого запуска модели, чтобы они смогла скачать модель встраивания.
Как задавать вопросы к своим документам
Чтобы задать вопрос, сперва выполните команду:
Затем подождите, когда скрипт потребует ввода запроса.
Введите промпт и нажмите Enter.
Нужно будет подождать 20-30 секунд (в зависимости от мощности вашего ПК), пока LLM обработает промпт и подготовит ответ. После этого он выведет ответ и 4 источника из ваших документов, которые он использовал.
После ответа вы можете задать другой вопрос без повторного запуска скрипта. Просто снова дождитесь подсказки о вводе промпта.
Чтобы завершить работу скрипта, введите exit
.
PrivateGPT — это отличное решение для, прежде всего, компаний, которые хотят ускорить обработку данных без риска утечек.
Ранее компании уже пытались внедрить языковые модели в работу, однако отказались из-за того, что конфиденциальные данные выгружаются в Интернет и, как известно, навсегда там и остаются. PrivateGPT эффективно решает эту проблему.
4К открытий7К показов