policlinico

universita

“Text mining in ambito clinico”,. Lo studio del prof. Angelo Vacca. Intervista di Franco Giuliano - ufficio stampa della Scuola di Medicina - Università degli Studi di Bari

“Le basi di dati dei sistemi sanitari contengono una grande quantità di informazioni utili. Molte di queste sono strutturate, e dunque facilmente reperibili per una semplice consultazione o una più sofisticata modellazione statistica”.
È questa la straordinaria intuizione che sta alla base di uno studio condotto dalla equipe del prof. Angelo Vacca direttore della Clinica di Medicina Interna del Policlinico Universitario di Bari: utilizzare quei dati, spesso dispersi e, attraverso la loro elaborazione statistica, giungere ad una diagnosi.

“Un'altra parte di queste informazioni (si stima che sia circa il 40% del totale) - spiega Vacca - risulta invece essere non strutturata ma contenuta all'interno di testi clinici,dalla necessità di reperirle nasce il text mining clinico, ovvero l'adattamento di uno strumento, il text mining, al contesto sanitario”.
“ L'obiettivo del text mining clinico - aggiunge il professore - è estrarre l'informazione contenuta nei testi clinici, colmando dunque il gap fra informazione strutturata e non strutturata e permettendo l'accesso a una maggiore quantità di dati. Le informazioni da estrarre sono la stadiazione TNM del tumore, la dimensione del tumore primitivo, il coinvolgimento di linfonodi e la presenza di metastasi”.
Professore, la sua idea sembra quasi la scoperta dell’Uovo di Colombo. Nel senso che questo patrimonio di dati dovrebbe essere già alla base di una normale valutazione clinica. In questo caso lo studio da lei condotto, invece, li elabora attraverso il ricorso alla intelligenza artificiale e ai big data.
“La necessità di reperire informazioni in campo medico ha portato vari attori, quali clinici, statistici o ricercatori, a ricorrere all'utilizzo delle fonti più disparate: oggigiorno è comune estrarre informazioni da esami clinici, strumenti diagnostici o perfino immagini. I testi liberi (free text ), ovvero quei testi scritti senza degli schemi strutturati, non fanno eccezione. In particolare, in campo medico è comune trovare testi liberi in cartelle cliniche, diagnosi, referti e schede: questi testi possono costituire una fonte di informazione importante a patto che siano analizzati correttamente. Essi contengono, ad esempio, informazioni sullo stato di salute dei pazienti, sui sintomi delle malattie o sui trattamenti consigliati. Se queste informazioni non sono state registrate separatamente, è necessario ricavarle dal testo. E se questa estrazione di informazioni viene fatta in maniera automatica, si ricorre al text mining”.
Oggi come avviene il reperimento di queste informazioni sulla malattia del paziente?
“L'estrazione di informazione dai testi clinici avviene per lo più a mano: un soggetto opportunamente qualificato legge il testo e registra in un database le informazioni richieste. Questo lavoro avviene di norma nei registri tumori, i quali stanno iniziando a dotarsi di strumenti di text mining solo di recente. L'estrazione manuale di informazione è molto dispendiosa in termini di tempo e costi, inoltre i lavoratori che se ne occupano (data manager) leggono i testi per diverse ore di lavoro possono commettere errori. Per valutare questo errore sarebbe necessario condurre uno studio con più data manager che estraggono le medesime informazioni dagli stessi testi per poi valutare i risultati ottenuti con una misura di concordanza.
L'estrazione di informazione dai testi clinici può avere svariati utilizzi, ma li riassumiamo in tre principali classi:
1. controllo degli eventi avversi;
2. supporto alla decisione clinica;
3. riassunto automatico dei testi clinici.
Controllo degli eventi avversi: ovvero sfruttare i testi delle cartelle cliniche per portare alla luce quei pazienti che potrebbero essere propensi a peggiorare il loro stato di salute o riammalarsi. Qui l'informazione estratta tramite il text mining gioca il ruolo di trigger : se, ad esempio, un paziente viene considerato a rischio di peggiorare in base alla sua cartella clinica, si attivano le relative procedure di sorveglianza. È evidente come il text mining clinico in questo caso funga da classificatore del paziente tra le classi “a rischio”e “non a rischio”, privilegiando ovviamente la massima sensibilità.
Strutturazione dell'informazione: ovvero “incasellare” l'informazione contenuta nei free text in campi strutturati. Spesso accade che un medico di un dato reparto scriva un testo, per esempio una diagnosi, e dentro di essa indichi una serie di parametri relativi alla salute del paziente, per esempio lo stadio di un tumore o la sua pressione sanguigna. Per agevolare le analisi delle cartelle cliniche nel loro insieme può essere utile un database contenente tutti gli stadi tumorali e tutte le pressioni sanguigne indicate nei testi. Questo database, la cui creazione con il text mining sarebbe molto più rapida che tramite la lettura manuale dei testi, avrebbe una grande utilità decisionale in campo epidemiologico dato che riassumerebbe le caratteristiche mediche di una vasta popolazione.
Questo utilizzo del text mining clinico è però più complesso del precedente: non si tratta di classificare un testo in due classi, ma di farlo in molteplici classi (tutti gli stadi tumorali) o addirittura di estrarre un valore continuo (la pressione sanguigna)”.
Infine: “Estrazione automatica di informazioni dalla letteratura medica. Questo utilizzo del text mining in campo clinico è totalmente slegato dai precedenti, cionondimeno presenta una certa rilevanza. La mole di letteratura medica è impressionante e la sua analisi presenta una sfida per i clinici che devono prendere decisioni in tempi rapidi su che procedure seguire o che interventi effettuare: il text mining può essere usato come strumento per estrarre i concetti chiave da una vasta collezione di articoli su un determinato tema. Può anche fornire grande supporto ai ricercatori nello sviluppo di meta-analisi: dal momento che le banche dati contenenti articoli scientifici sono in forte crescita, la necessità di rendere le revisioni di papers sempre più veloci unita alla facilità con cui gli stessi possono essere recuperati ha aperto la via per uno sviluppo dell'analisi automatica dei testi anche in questo campo”.

Guarda il video

Angelo Vacca, MD, PhD

Professor of Medicine
Department of Biomedical Sciences and Human Oncology
Chief Clinica Medica "G. Baccelli"
University of Bari Medical School
I-70124 BARI (Italy)

Phone +39-080-5478057
Fax +39-080-5592189
e-mail angelo.vacca@uniba.it