Evaluating risk-prediction models using data from electronic health records

Le Wang; Pamela A. Shaw; Hansie Mathelier; Stephen E. Kimmel; Benjamin French

doi:10.1214/15-aoas891

ScienceGate Book Chapters

JOURNAL ARTICLE

Evaluating risk-prediction models using data from electronic health records

Le Wang Pamela A. Shaw Hansie Mathelier Stephen E. Kimmel Benjamin French

Year: 2016 Journal: The Annals of Applied Statistics Vol: 10 (1)Pages: 286-304 Publisher: Institute of Mathematical Statistics

DOI: 10.1214/15-aoas891

Get Full-Text PDF Get Analytical Report

Abstract

The availability of data from electronic health records facilitates the development and evaluation of risk-prediction models, but estimation of prediction accuracy could be limited by outcome misclassification, which can arise if events are not captured. We evaluate the robustness of prediction accuracy summaries, obtained from receiver operating characteristic curves and risk-reclassification methods, if events are not captured (i.e., "false negatives"). We derive estimators for sensitivity and specificity if misclassification is independent of marker values. In simulation studies, we quantify the potential for bias in prediction accuracy summaries if misclassification depends on marker values. We compare the accuracy of alternative prognostic models for 30-day all-cause hospital readmission among 4548 patients discharged from the University of Pennsylvania Health System with a primary diagnosis of heart failure. Simulation studies indicate that if misclassification depends on marker values, then the estimated accuracy improvement is also biased, but the direction of the bias depends on the direction of the association between markers and the probability of misclassification. In our application, 29% of the 1143 readmitted patients were readmitted to a hospital elsewhere in Pennsylvania, which reduced prediction accuracy. Outcome misclassification can result in erroneous conclusions regarding the accuracy of risk-prediction models.

Keywords:

Computer science Receiver operating characteristic Estimator Robustness (evolution) Predictive modelling Statistics Health records Data mining Artificial intelligence Machine learning Mathematics

Metrics

Cited By

2.82

FWCI (Field Weighted Citation Impact)

Refs

0.96

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Machine Learning in Healthcare

Physical Sciences → Computer Science → Artificial Intelligence

Sepsis Diagnosis and Treatment

Health Sciences → Medicine → Epidemiology

Medical Coding and Health Information

Health Sciences → Health Professions → Health Information Management

Evaluating risk-prediction models using data from electronic health records

Abstract

Metrics

Citation History

Topics

Related Documents

Suicide Risk Prediction using Electronic Health Records

Flexible risk prediction models for left or interval-censored data from electronic health records

Breast Cancer Risk Prediction Using Electronic Health Records

Reinforced Risk Prediction With Budget Constraint Using Irregularly Measured Data From Electronic Health Records

Similarity-based health risk prediction using Domain Fusion and electronic health records data