Размечать меньше, обучать лучше: эксперимент с активным обучением

Валерия Басова, руководитель отдела разработки AI в Embedika, о том, как выбор стратегии отбора данных влияет на качество извлечения сущностей — практический разбор и эксперимент с активным обучением.

Обложка: Размечать меньше, обучать лучше: эксперимент с активным обучением

Ручная разметка юридических текстов — трудоемкий и дорогостоящий процесс. При ограниченных ресурсах важно минимизировать объем разметки данных без потери качества модели. Однако в традиционных подходах на основе пассивного обучения значительная часть данных оказывается малоинформативной.

В статье рассматривается, как активное обучение позволяет сократить объем необходимой разметки и быстрее достигать сопоставимого качества моделей по сравнению со случайным отбором данных. О результатах эксперимента и эффективности различных стратегий рассказывает Валерия Басова, руководитель отдела разработки AI в Embedika.

Активное обучение

Активное обучение (Active Learning) — это подход в машинном обучении, при котором модель участвует в формировании обучающего набора и выбирает, какие объекты стоит отправить на разметку. Как правило, отбираются те примеры, которые дают наибольший прирост качества.

В отличие от пассивного обучения, где используется фиксированный набор заранее размеченных данных, активное обучение строится как интерактивный процесс. Модель обращается к эксперту в тех случаях, когда данных недостаточно для уверенного предсказания, и за счет этого постепенно улучшает качество.

В задачах, где разметка требует экспертизы и значительных затрат — например, в юридических текстах — это особенно важно. Пассивный подход в таких условиях часто оказывается неэффективным: значительная часть размеченных данных не дает существенного прироста качества.

Цикл активного обучения

Механизм активного обучения реализуется через повторяющийся цикл, включающий несколько этапов.

Начальный этап. Формируется небольшой размеченный набор данных, на котором обучается базовая модель.

Прогнозирование и отбор. Модель делает предсказания для неразмеченных данных и отбирает примеры с наименьшей уверенностью.

Экспертная разметка. Отобранные примеры передаются эксперту для получения корректных меток.

Дообучение. Новые данные добавляются в обучающую выборку, после чего модель дообучается.

Цикл повторяется несколько раз. На каждой итерации модель становится точнее и лучше определяет, какие примеры требуют разметки. В результате работа эксперта сосредоточена на наиболее информативных данных, что позволяет ускорить обучение модели и снизить затраты.

Основные стратегии выбора данных

Ключевое отличие стратегий активного обучения в том, какие данные считаются наиболее информативными для обучения модели. Рассмотрим три основных подхода.

1. Выбор по неопределенности (Uncertainty Sampling)

«Сфокусируйся на том, где сомневаешься»

Самый простой и интуитивный подход — модель отправляет на разметку те примеры, в которых она не уверена. Чем сильнее сомнение, тем больше пользы принесет разметка. Есть несколько ситуаций, когда модель «сомневается»:

  • Least Confidence – низкая уверенность в выбранном классе;
  • Margin Sampling – маленькая разница между двумя наиболее вероятными классами;
  • Entropy Sampling – высокая неопределенность по всем классам.

Иными словами, разметка фокусируется на наиболее сложных примерах.

2. Выбор по разнообразию (Diversity Sampling)

«Не зацикливайся — смотри шире»

В этом подходе отбираются фрагменты, которые максимально отличаются от уже размеченных. Цель — не уточнять уже знакомые случаи, а расширять представление модели о данных. Такой подход особенно полезен, когда модель обучается на ограниченном наборе примеров и начинает «привыкать» к определенным шаблонам. В результате она может хорошо работать на типовых формулировках, но теряться на менее распространенных или нестандартных вариантах. Выбор разнообразных примеров позволяет избежать этого эффекта. Модель получает более широкое покрытие данных и лучше обобщает знания, а не просто запоминает отдельные паттерны.

3. Выбор по несогласию моделей (Query by Committee)

«Если модели “спорят” — пример информативный»

В этом подходе используется несколько моделей. Если их предсказания для одного и того же фрагмента существенно различаются, такой пример считается информативным и должен быть размечен экспертом.

Логика простая: чем сильнее расхождение между моделями, тем выше вероятность, что разметка этого примера даст прирост качества.

Экспериментальное исследование

Перейдем от теории к практике.

Для эксперимента мы выбрали Uncertainty Sampling — стратегии отбора по неопределённости. Они проще в реализации и не требуют дополнительных компонентов, таких как ансамбли моделей или процедуры отбора разнообразия.

Целью нашего эксперимента стало определение стратегий активного обучения, которые позволяют достигать сопоставимого качества при меньшем объеме размеченных данных по сравнению со случайным отбором. В процессе подготовки данных юридические тексты разбивались на логические фрагменты (спаны), каждый из которых классифицировался по одной из четырех ключевых сущностей:

Методология эксперимента

Эксперимент воспроизводит реальный сценарий работы эксперта с системой активного обучения. В качестве базового классификатора мы выбрали CatBoost. На начальном этапе использовался минимальный объем данных — 15 случайно размеченных фрагментов.

Далее выполнялся цикл активного обучения, который повторялся 50 раз:

  • модель делала предсказания для большого массива неразмеченных данных;
  • в соответствии с выбранной стратегией отбирались 20 фрагментов с наименьшей уверенностью предсказаний;
  • отобранные фрагменты передавались на разметку эксперту;
  • после разметки обучающая выборка расширялась, и классификатор дообучался на новых данных;
  • после каждой итерации качество оценивалось на независимом тестовом наборе, который не использовался в обучении. В качестве основной метрики использовался F1-score.

Оценивалась скорость роста качества модели в зависимости от объема размеченных данных. В качестве базового сценария использовался случайный отбор (Random Sampling), имитирующий разметку без интеллектуального отбора.

Результаты

Результаты эксперимента подтвердили гипотезу: стратегии активного обучения позволяют достигать сопоставимого качества значительно быстрее, чем случайный отбор.

На графиках по оси X — количество данных для разметки, по оси Y — значение F1-score.

Сущность: арбитражная оговорка

Для достижения F1 ≈ 0.88 стратегия Entropy потребовала около 75 размеченных фрагментов, тогда как случайный отбор достиг сопоставимого уровня только после 215.

Таким образом, требуемый объем разметки снижается примерно в 2–3 раза.

Сущность: передача прав по договору

Преимущество активного обучения проявляется начиная с 275 размеченных примеров.

Для достижения F1 ≈ 0.8 стратегия Entropy потребовала около 415 размеченных примеров, Least Confidence — 435, Margin — 495, тогда как случайный отбор достиг сопоставимого уровня только после 955. То есть для достижения сопоставимого качества требуется более чем в 2 раза больше размеченных данных по сравнению со стратегиями активного обучения.

Сущность: сроки исполнения обязательств

Здесь преимущество активного обучения проявляется уже на ранних итерациях. Стратегии Entropy и Least Confidence быстрее достигают высоких значений F1 по сравнению со случайным отбором.

Основной прирост качества происходит в первые ~150–200 размеченных примеров, после чего все стратегии выходят на плато. На поздних этапах различия между методами сглаживаются, однако активное обучение позволяет значительно раньше достичь сопоставимого качества.

Сущность: ретроактивная оговорка

Для данного класса различия между стратегиями выражены слабее. На ранних этапах все методы показывают схожую динамику, без явного лидера.

Но преимущество активного обучения становится заметным на промежуточных итерациях (примерно в диапазоне 150–300 размеченных примеров), где стратегии Entropy и Least Confidence показывают более стабильный рост по сравнению со случайным отбором.

Заключение

Результаты эксперимента подтвердили, что активное обучение существенно повышает эффективность разметки в задачах выделения сущностей. Все рассмотренные стратегии (Least Confidence, Margin, Entropy) демонстрируют устойчивое преимущество над случайным отбором: сопоставимое качество достигается при значительно меньшем объеме размеченных данных.

Наиболее заметный эффект наблюдается на ранних этапах, где стратегия Entropy обеспечивает самый быстрый рост качества.

При этом результаты зависят от конкретных данных и модели: универсальной оптимальной стратегии не существует. Выбор подхода требует эмпирической проверки с учетом особенностей задачи и данных.