Библиотека fastText от Facebook теперь оптимизирована и под мобильные устройства

FAIR, группа по исследованиям в области искусственного интеллекта компании Facebook, выпустила обновление fastText, высокоскоростной открытой библиотеки для классификации текста. Изначально библиотека поддерживала работу с 90 языками, но в новой версии доступно уже 294 языка. Также был уменьшен размер и снижены требования к памяти.

Классификаторы текста наподобие fastText упрощают создание инструментов для анализа языков. Такой анализ необходим, например, для маркировки заголовков-приманок, а также для фильтрации спама.

Основные преимущества обновлённой версии fastText

Первоначально библиотека разрабатывалась для целого ряда устройств. К сожалению, в своём первозданном виде для работы она требовала несколько гигабайтов оперативной памяти. Это не проблема, если вы работаете в лаборатории с новейшим оборудованием, но это становится настоящей катастрофой, когда речь заходит о работе на мобильных устройствах.

В сотрудничестве с командой, разработавшей другой open source проект от Facebook — FAISS (библиотека алгоритмов поиска ближайших соседей), FAIR удалось сократить необходимый объём памяти с нескольких гигабайт до всего лишь пары сотен килобайт. Исследователи утверждают:

Несколько ключевых компонентов, а именно усечение некоторых свойств, квантование, хеширование и переобучение, позволяют нам создавать модели классификации текстов очень маленького объёма, часто менее 100 килобайт, но при этом натренированные на нескольких популярных наборах данных, причём без заметных потерь в точности или скорости работы.

При этом существует вероятность, что требуемый объём в будущем станет ещё меньше. Но главный вызов состоит даже не в уменьшении объёма, а в сохранении должного качества работы. А тем временем вы уже можете воспользоваться обновлённой библиотекой — исходный код fastText доступен на GitHub.

Источник: TechCrunch