Разработка ИИ для рентгенологов. Основные сложности
Рассказываем, какие сложности могут встретиться при разработке ИИ для медицины на примере с рентгенологами.
296 открытий2К показов
ИИ-решения активно внедряются в сферу здравоохранения, соответственно, компании, развивающиеся в нише машинного обучения (ML), становятся всё более востребованными. С другой стороны, подобные проекты сталкиваются со сложностями, особенно на первоначальных этапах. В числе факторов, замедляющих развитие представителей MedTech, стоит отметить ряд проблем.
Нехватка материалов для обучения ИИ
Нейросети способны повышать точность диагностики, одновременно снижая нагрузку на медиков, однако для этого их нужно качественно обучить. На данном этапе специалисты сталкиваются с дефицитом проверенных достоверных данных. Полноценные материалы невозможно найти в открытом доступе в достаточном количестве.
Стартапам, работающим в сфере диагностики рака груди, считающегося одним из самых распространенных видов онкологии, доступны всего 5 относительно качественных баз данных, а именно DDSM (2 600 случаев), InBreast (115 кейсов), MIAS (161), OPTIMAM и BCDR. Две последние характеризуются довольно сложной системой доступа.
Дефицит не единственная проблема. Даже отыскав информацию, компания может оказаться в тупике, так как большинство публичных данных доступны только для некоммерческих проектов. Плюс ко всему, разметка баз чаще всего не совпадает с целями конкретного стартапа. В таких условиях выпуск работоспособного эффективного продукта невозможен.
Выход из ситуации — сотрудничество с клиниками, однако и здесь возникают сложности, даже с учетом потенциальной лояльности врачей. Далеко не все медицинские учреждения придерживаются единого стандарта хранения изображений DICOM. В результате характеристики снимков могут находиться в совершенно разных полях, поэтому специалистам приходится учитывать дополнительные факторы в процессе построения работы своего сервиса, что отнимает немало времени.
Разметка данных
В MedTech процесс разметки требует большего объёма времени и усилий, чем в других сферах. При этом необходима помощь экспертов в области медицины, так как IT-специалисты, разумеется, не смогут самостоятельно разобраться, например, в рентгеновских снимках.
В процессе работы часто возникает плюрализм мнений, так как врачи не всегда единогласно трактуют материал. Плюс ко всему, важную роль играет человеческий фактор — если один врач отметит объекты с точностью до миллиметра, то другой просто изобразит квадрат на половину снимка. Также не все специалисты одинаково заинтересованы в результате. Стоит отметить, что ИИ перенимает не только профессионализм, но и ошибки обучающих его врачей, что особо опасно, ведь к помощи нейросетей прибегают обычно в сложных случаях.
Для решения проблемы необходимо построение открытой и быстрой схемы взаимодействия с медиками и создание свода правил разметки. Также немаловажно обратить внимание на наличие демонстрационного материала, качественного софта и поддержки авторитетных специалистов, способных минимизировать число профессиональных конфликтов. Соответственно, внедрение вышеуказанных мер значительно повышает расходы на разметку.
Сократить расходы можно путём совершенствования самой модели. Допустим, ML-сервисы могут фиксировать некачественно размеченные материалы и отправлять их на доработку. В данном вопросе наиболее востребованными решениями считаются Learning Loss, Discriminative Active Learning, MC Dropout, confidence branch и др.
Многие стартапы отказываются от сотрудничества с медиками и используют исключительно фактически подтвержденные результаты, например, выживание или смерть пациента. Подобные продукты по-своему сложны в разработке и могут быть эффективно реализованы лет через 15, когда технологии PACS и медицинские информационные системы будут распространены повсеместно.
Препроцессинг
Успешный тестовый запуск не гарантирует эффективность работы системы в реальных условиях. Даже качественно обученная сеть может дать сбой, если в учреждениях клиентских клиник используется оборудование с настройками, незнакомыми для модели. Данная проблема, называемая Out-of-Distribution Data, является одной из ключевых в индустрии машинного обучения.
Решить вопрос просто — достаточно собрать все материалы со всевозможными конфигурациями, а также учесть особенности каждого вида медицинских аппаратов. Процедура понятная, но дорогая и длительная.
Отдельные проекты отказываются от разметки в пользу решений unsupervised learning, позволяющих обучать сети на неразмеченных снимках. Данный метод сложно полноценно реализовать на практике, так как он требует сбора всех существующих в мире видов снимков. Чтобы упростить задачу, стоит обратить внимание на препроцессинг, представляющий собой алгоритм обработки материалов перед процедурой обучения. Алгоритм обеспечивает автоматическое изменение контрастности и яркости изображений, удаление лишних объектов и статистические нормализации.
Например, компания Celsus разработала препроцессинг, ориентированный на снимки молочной железы. Алгоритм приводит изображения к единому стандарту, что обеспечивает корректный процесс обучения моделей. Эксперты подчёркивают, что не стоит всецело полагаться даже на эффективный препроцессинг, пренебрегая оценкой качества исходных материалов.
Разнообразие медицинского оборудования — это не единственная сложность в процессе обработки данных. Препятствием могут стать и демографические факторы. Допустим, модель, обученная на снимках европейцев зрелого возраста, может допускать ошибки в ходе оценки анализов юных азиатов. Именно поэтому датасет должен соответствовать особенностям рынка, на котором будет использоваться модель. Повысить качество работы уже существующей системы можно посредством дообучения. Также минимизация ошибок зависит от регулярности проверки модели.
В медицине на качество работы системы воздействует слишком много случайных факторов, поэтому не стоит пренебрегать доступными инструментами контроля и повышения эффективности.
296 открытий2К показов