JOURNAL ARTICLE

Machine Learning for Cancer Risk Prediction Using Electronic Health Records: An Automated Screening Framework

Abstract

Введение. Своевременная диагностика онкологических заболеваний повышает выживаемость пациентов и снижает затраты на здравоохранение за счет сокращения числа госпитализаций и повышения шансов на ремиссию. Сохраняется необходимость в практичных и интерпретируемых инструментах скрининга, которые могут эффективно способствовать раннему выявлению пациентов с онкологическими заболеваниями, для своевременного вмешательства.Цель. Разработка и внешняя валидация моделей машинного обучения для прогнозирования вероятности развития онкологических заболеваний в течение 18 мес. на основе данных реальной клинической практики.Материалы и методы. В исследовании использовались анонимизированные данные электронных медицинских карт 1,3 млн пациентов 36 регионов Российской Федерации. В качестве предикторов рассмотрены пол, возраст, среднее изменение массы тела за месяц, скорость оседания эритроцитов, гемоглобин крови, индекс массы тела и история клинически значимых сопутствующих заболеваний. Целевое событие представлено любым онкологическим заболеванием, определенным по кодам группы С МКБ-10 у 177 384 пациентов. Для сравнения использовались модели Logistic Regression, LGBMClassifier, Random Forest, Linear Discriminant Analysis и Naive Bayes. Внешняя валидация проводилась на данных из регионов с различным географическим происхождением (29 681 и 25 145 пациентов). Результаты. Модель на основе LGBMClassifier продемонстрировала лучшие результаты с AUROC 0,807 (95 % ДИ 0,798–0,815) при внутреннем тестировании, а также на внешних данных, взятых из отдельного региона и отдельного временного промежутка (0,794 (95 % ДИ 0,786–0,800) и 0,790 (95 % ДИ 0,782–0,798) соответственно).Заключение. Новый подход с использованием модели машинного обучения, подготовленной на простых и распространенных клинических, лабораторных и анамнестических признаках, продемонстрировал эффективность и практичность применения как на внешних данных, так и по сравнению с предыдущими исследованиями.

Keywords:

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
0.44
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Healthcare Systems and Public Health
Health Sciences →  Medicine →  Epidemiology

Related Documents

© 2026 ScienceGate Book Chapters — All rights reserved.