Machine Learning approaches in Predictive Medicine using Electronic Health Records data

BERNARDINI, MICHELE

Traditional approaches in medicine to manage diseases can be briefly reduced to the “one-size-fits all” concept (i.e., the effect of treatment reflects the whole sample). On the contrary, precision medicine may represent the extension and the evolution of traditional medicine because is mainly preventive and proactive rather than reactive. This evolution may lead to a predictive, personalized, preventive, participatory, and psycho-cognitive healthcare. Among all these characteristics, the predictive medicine (PM), used to forecast disease onset, diagnosis, and prognosis, is the one this thesis emphasizes. Thus, it is possible to introduce a new emerging healthcare area, named predictive precision medicine (PPM), which may benefit from a huge amount of medical information stored in Electronic Health Records (EHRs) and Machine Learning (ML) techniques. The thesis ecosystem, which consists of the previous 3 inter-connected key points (i.e., PPM, EHR, ML), contributes to the biomedical and health informatics by proposing meaningful ML methodologies to face and overcome the state-of-the-art challenges, that emerge from real-world EHR datasets, such as high-dimensional and heterogeneous data; unbalanced setting; sparse labeling; temporal ambiguity; interpretability/explainability; and generalization capability. The following ML methodologies designed from specific clinical objectives in PM scenario are suitable to constitute the main core of any novel clinical Decision Support Systems usable by physicians for prevention, screening, diagnosis, and treatment purposes: i) a sparse-balanced Support Vector Machine (SB-SVM) approach aimed to discover type 2 diabetes (T2D) using features extracted from a novel EHR dataset of a general practitioner (GP); ii) a high-interpretable ensemble Regression Forest (TyG-er) approach aimed to identify non-trivial clinical factors in EHR data to determine where the insulin-resistance condition is encoded; iii) a Multiple Instance Learning boosting (MIL-Boost) approach applied to EHR data aimed to early predict an insulin resistance worsening (low vs high T2D risk) in terms of TyG index; iv) a novel Semi-Supervised Multi-task Learning (SS-MTL) approach aimed to predict short-term kidney disease evolution (i.e., patient’s risk profile) on multiple GPs’ EHR data; v) A XGBoosting (XGBoost) approach aimed to predict the sequential organ failure assessment score (SOFA) score at day 5, by utilising only EHR data at the admission day in the Intensive Care Unit (ICU). The SOFA score describes the COVID-19 patient’s complications in ICU and helps clinicians to create COVID-19 patients' risk profiles. The thesis also contributed to the publication of novel publicly available EHR datasets (i.e., FIMMG dataset, FIMMG_obs dataset, FIMMG_pred dataset, mFIMMG dataset).

L' approccio tradizionale in medicina per gestire le patologie può essere ridotto al concetto di “one-size-fits all”, in cui l'effetto di una cura rispecchia l'intero campione. Però, la medicina di precisione può rappresentare l'estensione e l'evoluzione della medicina tradizionale perché risulta principalmente preventiva e proattiva piuttosto che prettamente reattiva. Questa evoluzione può portare a una Sanità predittiva, personalizzata, preventiva, partecipativa e psicocognitiva. Tra tutte queste caratteristiche, la tesi si focalizza sulla medicina predittiva. Quindi, si può introdurre un nuovo emergente paradigma di Sanità, chiamato medicina di precisione predittiva (PPM), che può beneficiare da tecniche di Machine Learning (ML) e da una enorme quantità di informazioni racchiuse nelle cartelle cliniche elettroniche (EHRs). L'ecosistema sanitario della tesi, costituito dai 3 punti chiave interconnessi (PPM, EHR, ML), offre un contributo al campo dell'informatica medica proponendo metodologie di ML con lo scopo di affrontare e superare le sfide dello stato dell'arte che emergono dagli EHR dataset, come: dati eterogenei e molto numerosi, sbilanciamento tra classi, labeling sparso, ambiguità temporale, interpretabilità, capacità di generalizzazione. Le seguenti metodologie di ML sviluppate per specifici task clinici nello scenario della PM sono adatte a costituire il nucleo principale di nuovi sistemi clinici di supporto alle decisioni, utilizzabili dai medici per scopi di prevenzione, screening, diagnosi e follow-up: i) un approccio sparse-balanced Support Vector Machine con lo scopo di predire il diabete di tipo 2 (T2D), utilizzando le informazioni estratte da un nuovo EHR dataset di un medico di medicina generale; ii) un approccio Regression Forest ensemble ad alta interpretabilità con lo scopo di identificare fattori clinici non di routine nei dati EHR per determinare dove sia racchiusa la condizione di insulino-resistenza; iii) un approccio di Multiple Instance Learning boosting applicato ai dati EHR volto a predire precocemente un peggioramento dell'insulino-resistenza (basso vs alto rischio di T2D) in termini di TyG index; iv) un nuovo approccio multitasking semi-supervisionato con lo scopo di predire l'evoluzione a breve termine della patologie renale (cioè il profilo di rischio del paziente) sui dati EHR di un cluster di medici di medicina generale; v) un approccio XGBoosting con lo scopo di predire il SOFA score al quinto giorno, utilizzando solo i dati EHR del giorno di ammissione in unità di terapia intensiva (ICU). Il SOFA score descrive le complicazioni del paziente COVID-19 in ICU e aiuta i medici a creare profili di rischio dei pazienti COVID-19. La tesi ha anche contribuito alla pubblicazione di nuovi EHR datasets open access (FIMMG dataset, FIMMG_obs dataset, FIMMG_pred dataset, mFIMMG dataset).

Machine Learning approaches in Predictive Medicine using Electronic Health Records data / Bernardini, Michele. - (2021 May 26).