Игра Яндекс Практикума
Игра Яндекс Практикума
Игра Яндекс Практикума

🔥 Как AnTuTu, но для ИИ: российский энтузиаст создал бенчмарк для нейросетей

Новости

В России немало компаний, которые создают собственные языковые модели. И чтобы их протестировать, нужны специальные русскоязычные тесты. Именно эту потребность закрывает новый бенчмарк LLM Arena

193 открытий5К показов
🔥 Как AnTuTu, но для ИИ: российский энтузиаст создал бенчмарк для нейросетей

В России разработали первую независимую платформу для оценки качества больших языковых моделей (LLM), получившую название LLM Arena.

Эту платформу создал Роман Куцин, который ранее работал с разработчиками TrainingData.ru и экспертами в области ИИ.

Целью проекта является создание объективного рейтинга генеративных нейросетей, работающих на русском языке, на основе реальных пользовательских задач и запросов.

Принцип работы LLM Arena

LLM Arena позволяет пользователям тестировать и сравнивать различные модели ИИ, не зная их разработчиков.

Пользователи вводят запрос, после чего им предоставляются ответы от двух случайных моделей. На основе этих ответов они выбирают лучший вариант или отмечают, если ответы схожи или не соответствуют задаче.

Такой подход позволяет объективно оценить качество генерации текста разными моделями.

Доступные модели и планы на будущее

На данный момент на платформе представлена 21 нейросеть, включая зарубежную ChatGPT и российские YandexGPT и GigaChat.

В дальнейшем планируется расширение списка моделей, и разработчики смогут самостоятельно добавлять свои решения.

Также будет введена возможность оценки качества ответов в зависимости от категории запроса, например, для написания кода или определения содержимого изображений.

Важность и уникальность проекта

LLM Arena создана по аналогии с LMSYS Chatbot Arena, но с акцентом на русский язык.

Платформа предоставляет пользователям бесплатный доступ к различным LLM-моделям, что позволяет объективно оценивать их производительность на родном языке.

Это особенно важно для тестирования моделей на реальных пользовательских задачах и запросах, что позволяет создать более точный рейтинг.

Следите за новыми постами
Следите за новыми постами по любимым темам
193 открытий5К показов