Facebook смогла ускорить обучение моделей для визуального распознавания
Новости Отредактировано
Недавно Facebook опубликовала документ, в котором подробно описывается подход компании к сокращению времени на обучение моделей для распознавания объектов.
660 открытий675 показов
Недавно Facebook опубликовала документ, в котором подробно описывается подход компании к сокращению времени на обучение моделей для распознавания объектов. В нём утверждается, что компания смогла сократить время тренировки модели глубокого обучения ResNet-50 на наборе ImageNet с 29 часов до одного.
Как она это сделала?
Facebook удалось существенно сократить время обучения за счет распределения больших по размеру пакетов данных на большее количество графических процессоров. Раньше пакеты из 256 картинок распределялись между восемью GPU, теперь же используются наборы из 8192 картинок, распределенных между 256 графическими процессорами.
На начальных этапах команде пришлось замедлить темпы обучения, чтобы преодолеть некоторые трудности, которые раньше не позволяли использовать пакеты больших размеров. Если не углубляться в детали, для обучения модели ResNet-50 используется стохастический градиентный спуск.
Почему именно такой способ?
Его ключевой переменной является скорость обучения — а именно, степень изменения весов во время процесса тренировки. Изменение этой переменной в зависимости от размера пакетов и является ключом к оптимизации.
При обучении нейронных сетей всегда приходится искать компромисс между точностью и скоростью. Чем больше наборы данных, тем дольше идёт обучение и тем точнее становится модель, но это занимает больше времени. Однако модель с низкой точностью, обучаемая за 20 секунд, тоже никому не нужна.
В отличие от большинства исследовательских проектов, команды Facebook AI Research (FAIR) и Applied Machine Learning (AML) работали над увеличением пакетов. В ходе исследований у учёных возникли дополнительные вопросы, которые они планируют решить. Питер Нордхаус, сотрудник AML, отметил:
Эта работа дает больше вопросов, чем ответов. Например, когда количество изображений превышает 8 тысяч, частота ошибок снова увеличивается, и мы не знаем, почему.
Facebook использовала для эксперимента Caffe2, свой открытый фреймворк для глубокого обучения, и серверы Big Basin.
660 открытий675 показов