Глубокое обучение может помочь врачам выбрать более эффективные методы лечения рака легких

В своем исследовании исследователи сообщают, что они разработали модель глубокого обучения, которая в определенных условиях была более чем на 71% точна в прогнозировании ожидаемой выживаемости пациентов с раком легких, что значительно лучше, чем традиционные модели машинного обучения, которые протестировала команда. Остальные модели машинного обучения, протестированные командой, имели точность около 61%.
По словам Юакима Бадра, доцента аналитики данных, информация об ожидаемой продолжительности жизни пациента может помочь врачам и лицам, осуществляющим уход, принимать более правильные решения об использовании лекарств, распределении ресурсов и определении интенсивности ухода за пациентами.

«Это высокоэффективная система, которая отличается высокой точностью и направлена ​​на то, чтобы помочь врачам принимать эти важные решения относительно оказания помощи своим пациентам», – сказал Бадр. "Конечно, этот инструмент нельзя использовать вместо врача при принятии решения о лечении рака легких."
По словам Робина Джи. Цю, профессора информатики и инженерии и филиала Института вычислительных технологий и данных, модель может анализировать большой объем данных, обычно называемых функциями в машинном обучении, которые описывают пациентов и болезнь, чтобы понять, как сочетание факторы влияют на продолжительность жизни при раке легких. Характеристики могут включать такую ​​информацию, как типы рака, размер опухоли, скорость роста опухоли и демографические данные.

По словам исследователей, которые сообщают о своих выводах в Международном журнале медицинской информатики, глубокое обучение может быть уникально подходящим для решения прогнозов рака легких, поскольку модель может обеспечить надежный анализ, необходимый для исследования рака. Глубокое обучение – это тип машинного обучения, основанный на искусственных нейронных сетях, которые обычно моделируются на основе работы нейронной сети человеческого мозга.

Однако при глубоком обучении разработчики применяют сложную структуру из нескольких слоев этих искусственных нейронов, поэтому модель называется «глубокой.«Обучающий аспект глубокого обучения проистекает из того, как система учится на связях между данными и метками, – сказал Бадр.

«Глубокое обучение – это алгоритм машинного обучения, который устанавливает ассоциации между самими данными и ярлыками, которые мы используем для описания примеров данных», – сказал Бадр. "Создавая эти ассоциации, он учится на данных."
Цю добавил, что структура глубокого обучения предлагает несколько преимуществ для многих задач науки о данных, особенно когда вы сталкиваетесь с наборами данных с большим количеством записей – в данном случае с пациентами – а также с большим количеством функций.

«Это значительно улучшает производительность», – сказал Цю. "В глубоком обучении мы можем идти глубже, поэтому они называют это так. В традиционном машинном обучении у вас есть простая структура слоев нейронных сетей. В каждом слое у вас есть группа ячеек.

В глубоком обучении существует множество уровней этих ячеек, которые можно объединить в сложную структуру для выполнения более качественного преобразования и извлечения признаков, что дает вам возможность еще больше повысить точность любой модели."
В будущем исследователи хотели бы улучшить модель и проверить ее способность анализировать другие типы рака и заболевания.

«Уровень точности пока хороший, но он не идеален, поэтому частью нашей будущей работы является улучшение модели», – сказал Цю.
Для дальнейшего улучшения своей модели глубокого обучения исследователям также необходимо будет связаться с экспертами в предметной области, которые являются людьми, обладающими конкретными знаниями.

В этом случае исследователи хотели бы связаться со специалистами по конкретным видам рака и заболеваниям.
«Во многих случаях мы можем не знать многих функций, которые должны быть включены в модель», – сказал Цю. "Но, сотрудничая с экспертами в предметной области, они могут помочь нам собрать важные характеристики о пациентах, о которых мы могли не знать, и которые еще больше улучшили бы модель."
Исследователи проанализировали данные программы наблюдения, эпидемиологии и конечных результатов (SEER).

По словам Шрейеша Доппалапуди, научного сотрудника аспирантуры и первого автора статьи, набор данных SEER является одной из крупнейших и наиболее полных баз данных по информации о ранней диагностике онкологических больных в Соединенных Штатах. Реестры раковых заболеваний этой программы охватывают почти 35 процентов населения США.S. больные раком.
«Одна из действительно хороших вещей в этих данных заключается в том, что они охватывают большую часть населения и действительно разнообразны», – сказал Доппалапуди. "Еще одна хорошая вещь заключается в том, что он включает в себя множество различных функций, которые можно использовать для разных целей.

Это становится очень ценным, особенно при использовании подходов машинного обучения."
Доппалапуди добавил, что команда сравнила несколько подходов к глубокому обучению, включая искусственные нейронные сети, сверточные нейронные сети и рекуррентные нейронные сети, с традиционными моделями машинного обучения. По его словам, подходы к глубокому обучению работают намного лучше, чем традиционные методы машинного обучения.
По словам Доппалапуди, архитектура глубокого обучения лучше подходит для обработки таких больших и разнообразных наборов данных, как программа SEER.

Работа с этими типами наборов данных требует больших вычислительных мощностей. В этом исследовании исследователи использовали суперкомпьютер ICDS Roar.

Исследователи заявили, что, имея от 800000 до 900000 записей в наборе данных SEER, вручную найти эти ассоциации в данных с целой командой медицинских исследователей будет чрезвычайно сложно без помощи машинного обучения.
«Если бы это было всего три поля, я бы сказал, что это было бы невозможно, но у нас было около 150 полей», – сказал Доппалапуди. "Понимание всех этих различных областей, а затем чтение и изучение этой информации было бы практически невозможно."