AI-Powered Precision Oncology: Discovering Predictive and Prognostic Biomarkers from Clinical, Radiology, and Pathology Data

Bruschi, Giulia

Cancer remains one of the leading cause of mortality worldwide, with its intrinsic molecular, cellular, and clinical heterogeneity posing significant challenges to the selection of optimal therapies. Precision oncology aims to address this complexity by personalizing treatment strategies to the unique characteristics of each patient. The increasing availability of high-dimensional clinical, radiological, and pathological datasets provides unprecedented opportunities for biomarker discovery. In this context, Artificial Intelligence (AI), encompassing both Machine Learning and Deep Learning (DL), offers powerful tools to integrate and analyze multi-scale data, uncover latent patterns, stratify patients into clinically meaningful subgroups, and model intricate tumor–host interactions that are difficult to capture with conventional statistical methods. This thesis presents two-level contributions (systemic and tumor microenvironment) to the development of innovative interpretable and robust AI-based methodologies for identifying predictive and prognostic biomarkers in oncology, with a particular focus on patients treated with Immune Checkpoint Inhibitors (ICIs). Leveraging structured clinical data, Magnetic Resonance Imaging (MRI), and Whole-Slide pathology Images (WSI), novel multi-scale frameworks were designed to extract potentially actionable biomarkers. At the systemic level, a clinically interpretable nomogram was developed by combining a novel Body Composition (BC) score with key ClinicoPathologic (CP) features to predict 1-year Overall Survival. The BC score integrates Intramuscular Adipose Tissue Content, Visceral Fat Area Index, and the Visceral-to-Subcutaneous Fat ratio (VF/SF) to capture metabolic health and frailty, while the CP variables include ECOG performance status, number of metastases, comorbidities, Neutrophil-to-Lymphocyte Ratio (NLR), and Controlling Nutritional Status score. Bootstrap-based internal validation demonstrated robust predictive performance, with an overall Area Under the Curve (AUC) of 0.76 ± 0.07. The innovation of this work lies in the integration of the newly introduced BC score, serving as a potential biomarker of patient frailty and metabolic status, with CP features into a practical and interpretable nomogram. This tool enables clinicians not only to predict 1-year survival probability but also to translate complex multi-dimensional data into actionable insights for personalized patient management. In parallel, a Feature-Guided Clustering algorithm for censored survival data was designed and it consistently identified two prognostic clusters across two independent clinical evaluation cohorts. Differences in survival outcomes between clusters were primarily driven by NLR, Visceral Fat Area, and VF/SF, features that aligned with those highlighted in the nomogram study. This concordance across independent analytical pipelines underscores the robustness and reproducibility of the identified systemic biomarkers. This method allows to explicitly consider patient censoring, making it one of the first clustering approaches tailored for survival data. Moreover, this work highlights the need for a paradigm shift in clustering analysis for biomarker discovery, demonstrating that proper handling of censored outcomes is fundamental for reliable patient stratification and identification of robust biomarkers. For the second level of analysis, RAD-TILNet, a dedicated DL architecture, enabled non-invasive estimation of Tumor Infiltrating Lymphocyte (TIL) scores from MRI, achieving high discriminative performance (AUC of 0.97) and robust cross-validation stability. Gradient-weighted Class Activation Mapping interpretability analyses revealed attention patterns in both tumor and peritumoral regions, highlighting their potential immunological relevance. RAD-TILNet represents a novel, fully automated approach for TIL assessment, providing an alternative to the conventional manual or semi-manual evaluation performed by pathologists, a process that is time-consuming, labor intensive, and affected by inter-observer variability. By enabling rapid, reproducible, and objective TIL quantification directly from radiological images, this method introduces a new framework for non-invasive immune profiling in oncology. Complementary spatial pathomic analyses introduced the Tumor–Lymphocyte Infiltration Score (TLIS), a novel biomarker designed to compartmentalize WSIs according to local immune infiltration. This framework enables the targeted identification of biologically relevant regions within the tumor microenvironment areas in which subsequent morphological, spatial, and interaction-based analyses can be performed. In addition, luminance-derived heatmaps were proposed as an innovative surrogate of cellular activity, capturing subtle variations in staining intensity that may reflect underlying biological processes. Together with morphology- and distance-based features, these innovations revealed spatial signatures significantly associated with response to neoadjuvant ICIs across both discovery and validation cohorts of patients affected by Non Small Cell Lung Cancer. Across all studies, clinical interpretability remained a central objective, ensuring that the predictive outputs and identified biomarkers are biologically grounded and clinically actionable. Collectively, this thesis proposes a multi-level AI framework for biomarker discovery that is innovative both in its methodological approach and in its clinical implications. Methodologically, it introduces several innovative methods for analyzing survival data as well as radiology and pathology images. These include the development of an interpretable nomogram to provide clinicians with an accessible tool for survival prediction; a censoring-aware clustering algorithm for robust patient stratification; an MRI-based framework for non-invasive immune profiling; and a spatial pathomics pipeline that captures the structure of the tumor microenvironment and potentially the cellular activity. From a clinical perspective, these new methods uncover a set of promising new biomarkers, including BC score, MRI-based TIL estimates, TLIS and luminance-derived activity maps. These biomarkers could potentially improve patient stratification and support treatment decisions in immuno-oncology. Moreover, these studies show that immunotherapy response is shaped by systemic host factors and the spatial organization of the tumor microenvironment, patterns that can be captured directly from pathology images and inferred indirectly from radiology imaging. By capturing this two-level influence, the proposed AI frameworks aim to advance the technical foundations of AI-driven biomarker discovery and help move the field closer to more personalized and biologically grounded cancer care.

Il cancro rimane una delle principali cause di mortalità a livello mondiale e la sua intrinseca eterogeneità molecolare, cellulare e clinica rappresenta una sfida significativa per la selezione delle terapie ottimali. L’oncologia di precisione nasce con l’obiettivo di affrontare questa complessità, personalizzando le strategie terapeutiche in base alle caratteristiche specifiche di ciascun paziente. La crescente disponibilità di dataset clinici, radiologici e patologici ad alta dimensionalità offre opportunità senza precedenti per la scoperta di biomarcatori. In questo contesto, l’Intelligenza Artificiale (IA), che comprende sia il Machine Learning sia il Deep Learning (DL), mette a disposizione strumenti potenti per integrare e analizzare dati multi-scala, individuare pattern latenti, stratificare i pazienti in sottogruppi clinicamente significativi e modellare le complesse interazioni tumore–ospite, difficilmente catturabili con i metodi statistici convenzionali. Questa tesi presenta contributi su due livelli, sistemico e microambiente tumorale, allo sviluppo di metodologie innovative, interpretabili e robuste basate sull’IA per l’identificazione di biomarcatori predittivi e prognostici in oncologia, con particolare attenzione ai pazienti trattati con Immunoterapia a base di Immune Checkpoint Inhibitors (ICI). Sfruttando dati clinici strutturati, immagini di Risonanza Magnetica (MRI) e Whole-Slide Images (WSI) patologiche, sono stati progettati nuovi framework multi-scala per l’estrazione di biomarcatori potenzialmente utilizzabili in clinica. A livello sistemico, è stato sviluppato un nomogramma clinicamente interpretabile che combina un nuovo score di Composizione Corporea (Body Composition, BC) con variabili Clinico-Patologiche (ClinicoPathologic, CP) per predire la sopravvivenza a 1 anno. Lo score BC integra il contenuto di tessuto adiposo intramuscolare, l’indice dell’area di grasso viscerale e il rapporto tra grasso viscerale e sottocutaneo (VF/SF), al fine di catturare lo stato metabolico e la fragilità del paziente. Le variabili CP includono lo stato di performance ECOG, il numero di metastasi, le comorbidità, il rapporto neutrofili/linfociti (NLR) e il punteggio Controlling Nutritional Status. La validazione interna basata su bootstrap ha dimostrato una solida performance predittiva, con un’Area Under the Curve (AUC) complessiva pari a 0,76 ± 0,07. L’elemento innovativo di questo lavoro risiede nell’integrazione del nuovo score BC, proposto come potenziale biomarcatore di fragilità e stato metabolico del paziente, con le variabili CP all’interno di un nomogramma pratico e facilmente interpretabile. Questo strumento consente ai clinici non solo di stimare la probabilità di sopravvivenza a 1 anno, ma anche di tradurre dati complessi e multidimensionali in informazioni utili per una gestione personalizzata del paziente. In parallelo, è stato sviluppato un algoritmo di Feature-Guided Clustering per dati di sopravvivenza censurati, che ha identificato in modo consistente due cluster prognostici in due coorti cliniche indipendenti. Le differenze di sopravvivenza tra i cluster erano principalmente guidate da NLR, area di grasso viscerale e rapporto VF/SF, caratteristiche in linea con quelle evidenziate dallo studio del nomogramma. Questa concordanza tra pipeline analitiche indipendenti rafforza la robustezza e la riproducibilità dei biomarcatori sistemici identificati. Il metodo consente di considerare esplicitamente la censura dei dati, configurandosi come uno dei primi approcci di clustering specificamente progettati per dati di sopravvivenza. Inoltre, questo lavoro evidenzia la necessità di uno shift di paradigma nel clustering per la scoperta di biomarcatori, dimostrando come una gestione appropriata di dati di sopravvivenza censurati sia fondamentale per una stratificazione affidabile dei pazienti e per l’identificazione di nuovi biomarcatori. Per il secondo livello di analisi, RAD-TILNet, un’architettura di DL dedicata, ha consentito la stima non invasiva del Tumor Infiltrating Lymphocytes (TIL) a partire da immagini MRI, raggiungendo un’elevata capacità discriminativa (AUC pari a 0,97) e una solida stabilità in cross-validazione. Le analisi di interpretabilità basate su Gradient-weighted Class Activation Mapping hanno evidenziato pattern di attenzione sia nelle regioni tumorali sia in quelle peritumorali, sottolineandone la potenziale rilevanza immunologica. RAD-TILNet rappresenta un approccio nuovo e completamente automatizzato per la valutazione del TIL, offrendo un’alternativa alle valutazioni manuali o semi-manuali effettuate dai patologi, che risultano dispendiose in termini di tempo, laboriose e soggette a variabilità inter-osservatore. Consentendo una quantificazione rapida, riproducibile e oggettiva del TIL direttamente dalle immagini radiologiche, questo metodo introduce un nuovo paradigma per il profiling immunologico non invasivo in oncologia. Analisi pathomiche spaziali complementari hanno portato all’introduzione del Tumor–Lymphocyte Infiltration Score (TLIS), un nuovo biomarcatore progettato per compartimentare le WSI in base al livello locale di infiltrazione immunitaria. Questo framework consente l’identificazione mirata di regioni biologicamente rilevanti all’interno del microambiente tumorale, sulle quali possono essere condotte successive analisi morfologiche, spaziali e basate sulle interazioni cellulari. Inoltre, sono state proposte heatmap derivate dalla luminanza come innovativo surrogato dell’attività cellulare, in grado di catturare sottili variazioni nell’intensità della colorazione che potrebbero riflettere processi biologici sottostanti. Insieme a caratteristiche morfologiche e basate sulla distanza tra cellule, queste innovazioni hanno permesso di individuare firme spaziali significativamente associate alla risposta agli ICI neoadiuvanti, sia nelle coorti di training sia in quelle di validazione di pazienti affetti da carcinoma polmonare non a piccole cellule (Non-Small Cell Lung Cancer, NSCLC). In tutti gli studi, l’interpretabilità clinica è rimasta un obiettivo centrale, garantendo che le predizioni e i biomarcatori identificati fossero biologicamente fondati e clinicamente utilizzabili. Nel complesso, questa tesi propone un framework di IA multi-livello per la scoperta di biomarcatori, innovativo sia dal punto di vista metodologico sia per le sue implicazioni cliniche. Sul piano metodologico, introduce nuovi approcci per l’analisi dei dati di sopravvivenza, delle immagini radiologiche e patologiche, tra cui: un nomogramma interpretabile per la predizione della sopravvivenza; un algoritmo di clustering guidato dalla sopravvivenza censurata per una stratificazione robusta dei pazienti; un framework MRI per il profiling immunologico non invasivo; e una pipeline di patomica spaziale in grado di catturare l’organizzazione del microambiente tumorale e, potenzialmente, l’attività cellulare. Dal punto di vista clinico, questi metodi portano all’identificazione di nuovi biomarcatori promettenti, tra cui lo score BC, le stime del TIL basate su MRI, il TLIS e le mappe di attività derivate dalla luminanza. Tali biomarcatori potrebbero migliorare la stratificazione dei pazienti e supportare le decisioni terapeutiche in immuno-oncologia. Inoltre, questi studi dimostrano che la risposta all’immunoterapia è influenzata sia da fattori sistemici dell’ospite sia dall’organizzazione spaziale del microambiente tumorale, pattern che possono essere catturati direttamente dalle immagini patologiche e inferiti indirettamente dalle immagini radiologiche. Considerando questa influenza su due livelli, i framework di IA proposti mirano ad avanzare le basi tecniche della scoperta di biomarcatori guidata dall’IA e a contribuire al progresso verso una gestione del cancro sempre più personalizzata e biologicamente fondata.

AI-Powered Precision Oncology: Discovering Predictive and Prognostic Biomarkers from Clinical, Radiology, and Pathology Data / Bruschi, Giulia. - (2026 Mar).