L’analisi della voce a supporto dello screening, della diagnosi e del follow-up medico
Quale è l’idea di base?
Il cane ha un olfatto molto più sviluppato di quello umano, e il gufo una vista eccezionale al buio. Per compensare i propri limiti sensoriali, l’uomo ha sviluppato strumenti come il naso elettronico e i visori a infrarossi.
Anche l’udito umano ha limiti: possiamo percepire cambiamenti della voce legati a emozioni come euforia o tristezza, ma raramente quelli dovuti a malattie. Microfoni molto sensibili e algoritmi di intelligenza artificiale, come quelli di VoiceWise, permettono oggi di associare variazioni vocali a specifiche patologie.
Il suono di una singola frase contiene migliaia di parametri, molti più di quelli analizzabili nel sangue, rendendo la voce una fonte informativa molto ricca. Alcuni parametri possono essere modificati volontariamente, mentre altri, legati alla conformazione fisica, non possono essere cambiati.
Ad esempio, i polmoni “risuonano” in modo specifico e questo risuonare cambia in caso di malattia. Per questo motivo, l’analisi vocale può fornire informazioni sullo stato di salute, così come l’auscultazione medica rivela condizioni interne del corpo.
Quali sono le sue potenzialità?
La voce dipende dalla nostra fisiologia, dalle condizioni esterne e dall’attività cerebrale. Essa riflette la nostra costituzione fisica, come altezza, peso e conformazione interna, oltre alla situazione contingente, ad esempio la presenza di febbre o uno stato di disidratazione.
L’attività cerebrale, inoltre, regola il movimento dei muscoli facciali, la respirazione, il battito cardiaco e tutti i processi che contribuiscono all’articolazione delle parole.
Si esprime ciò che siamo, la condizione che stiamo vivendo e il modo in cui pensiamo; per questo motivo cambia quando ci ammaliamo, quando compare la febbre o quando la coordinazione viene alterata da disturbi mentali.
Che esperienze e sperimentazioni sul campo sono state già fatte in ambito sanitario?
Le nostre prime prove sperimentali sulla relazione tra voce e stato patologico risalgono al 2009 e sono nate in India. In collaborazione con ricercatori indiani, abbiamo registrato le voci di centinaia di pazienti affetti da tubercolosi, febbre gialla e altre patologie che, fortunatamente, in Italia sono ormai quasi scomparse, ma che in India presentano ancora diversi ceppi attivi.
Poiché i kit diagnostici per queste gravi malattie hanno un costo elevato, abbiamo cercato un sistema alternativo di diagnosi. L’analisi della voce si è rivelata una soluzione efficace: su centinaia di pazienti analizzati, la diagnosi basata sulla voce è risultata corretta nella stragrande maggioranza dei casi. Per la tubercolosi, su 312 pazienti esaminati la diagnosi vocale è stata corretta in 309 casi e nei restanti tre si sono verificati i cosiddetti “falsi positivi”.
In seguito a questi risultati, alla fine del 2012 è stato depositato un brevetto (n. RM2012A000173), approvato poi all’inizio del 2014.
Negli anni successivi abbiamo condotto ulteriori sperimentazioni in Italia su pazienti de novo affetti dal morbo di Parkinson.
Con il termine de novo si indicano pazienti a cui la malattia è stata appena diagnosticata, quindi nelle fasi iniziali e prima di qualsiasi trattamento farmacologico: si tratta dei casi più difficili da individuare. Anche in questo ambito, l’analisi della voce ha fornito risultati molto rilevanti, con un’accuratezza del 95%. Nel caso di pazienti affetti da disfonia, l’accuratezza ha raggiunto il 97%.
Gli algoritmi che rendono possibile tutto ciò devono essere particolarmente sofisticati, poiché devono tenere conto del fatto che le voci di persone diverse non sono identiche, ma solo simili tra loro. In questo processo svolge un ruolo fondamentale l’intelligenza artificiale. Gli algoritmi sviluppati sono infatti in grado di “imparare” progressivamente man mano che vengono forniti nuovi dati: maggiore è la quantità di dati in ingresso, più accurata risulta la risposta prodotta.
Vi sono state già pubblicazioni sul tema?
Diversi lavori in letteratura met- tono in relazione parametri della voce a stati patologici. Intuitivamente, le caratteristiche della voce sono influenzate da problemi legati all’apparato fonatorio, come la laringite cronica [Teixeira et al., 2018], il cancro alla laringe [Ezzine et al., 2016], l’edema [Costa et al., 2008] e i polipi alle corde vocali [Petrovic-Lazic et al., 2015], l’asma [Walia & Sharma, 2016], il cancro del collo [Zacharia et al., 2016], l’intubazione endotracheale [Sørensen et al., 2016], la cattiva idratazione della laringe [Stemple & Thomas, 2007], per l’edema di Reinke [Fonseca & Pereira, 2009], per la disfonia [Suppa et al., 2020].
Meno intuitivamente, ma molto significativamente, gli stati di alterazione cardiaci cambiano taluni parametri (poche unità o poche decine) della voce rispetto a quelli della voce di una persona sana, come accade per problemi coronarici (coronary heart disease –CHD-) [Pareek & Sharma, 2016], o per i cambiamenti nelle condizioni cardiovascolari [Alvear et al., 2013], per il diabete [Chitkara & Sharma, 2016], per la sindrome di Sjögren [Heller et al., 2014], per la sclerosi multipla [Dogan et al., 2007], per la schlerosi laterale amiotrofica [Gómez-Vilda et al., 2013] [Gómez-Vilda et al., 2015], per la sindrome di Down [Albertini et al., 2010] [Moura et al., 2008], per la tuberculosi [Saggio & Bothe, 2016].
È stato dunque scientificamente dimostrato che nella voce si possono individuare “bio-marcatori” di talune patologie.
Le variazioni di poche unità o poche decine di parametri nel “mare magnum” dei 6300 non sono percepibili da orecchio umano. Diversamente, l’analisi di una registrazione (opportunamente eseguita) della voce tramite algoritmi di intelligenza artificiale mettono in grande evidenza le pur piccole variazioni funzioni di uno stato patologico. Vedasi l’Appendice per le pubblicazioni sul tema.
Attualmente con quali strutture si sta collaborando in ottica COVID-19? Abbiamo trovato interesse da parte di diversi medici di di- verse strutture ospedaliere.
Mi riferisco alla Dott.ssa Prof.ssa Filomena Pietrantonio e collaboratori dell’Ospedale dei Castelli di Roma, al Dott. Prof. Giuseppe Visconti e collaboratori della ASL di Latina insieme al Dott. Prof. Salvatore Di Somma e collaboratori del Dipartimenti di Medicina d’Urgenza del Poli- clinico Umberto I di Roma, del Dott. Prof. Antonio Colecchia e collaboratori dell’Ospedale Universitario Borgo Trento di Verona, del Dott. Prof. Marco Benazzo e Dott. Carlo Robotti del Policlinico San Matteo di Pavia, del Dott. Prof. Stefano di Girolamo del Policlinico Tor Vergata di Roma.
Nonostante tanta apertura e tanto interesse, la burocrazia però ci rallenta moltissimo, e solo dall’Ospedale dei Castelli, finora, abbiamo già ottenuto il parere favorevole del Comitato Etico per cui abbiamo iniziato le prime misure di voce di pazienti Covid-positivi.
Quali sono le principali criticità al momento?
Il “collo di bottiglia” è rappresentato unicamente dal tempo necessario ad acquisire i campioni di voce necessari. Occorre registrare dalle 80 alle 100 voci di pazienti “omogenei” ed altrettante di sani “omogenei”. Con “omogenei” intendo dire stesso sesso, stessa etnia, stessa fascia di età.
Infatti, non possiamo la voce di un uomo con quella di una donna confrontare (quanto meno possiamo farlo solo entro un certo limite), non possiamo confrontare la voce di un italiano con quella di un cinese o di un in- diano (i “timbri” sono diversi), e non possiamo confrontare la voce di un ragazzo con quella di un anziano (quindi stabiliamo fasce di età tra 20 e 39, 40 e 59, 60 e oltre).
Tenuto conto di tutti ciò, e del fatto che occorre registrare al fine di un confronto voci anche di persone “omogenee sane”, si tratta di dover registrare diverse centinaia di voci, il che pone un limite alla tempistica.
Che tempi si prevedono per arrivare ad una prima soluzione con una accuratezza almeno del 80%?
I tempi rimangono difficili da stabilire dato che dipende da quante strutture ospedaliere saranno a collaborare e da quanti casi potremo registrare presso ognuna di esse. Per l’accuratezza rispetto alla diagnosi del Covid-19 sono ragionevolmente confidente del fatto che si riesca a raggiungere e anche superare l’80% e anche il 90%, dato quanto abbiamo già ottenuto nel caso del Parkinson (95%) e della disfonia (97%).
Che tipologia di algoritmi, reti neuronali o approcci informatici si stanno usando?
Ad oggi, non esiste l’algoritmo perfetto. Ne convivono diversi, proprio perché ognuno ha dei vantaggi ma anche degli svantaggi. L’approccio che abbiamo messo in campo è dunque multi-algoritmico, perché abbiamo “estrapolato” i vantaggi di ogni approccio algoritmico (che intendo finalizzati ai nostri scopi specifici), cercando di evitarne gli svantaggi.
Così, la ricetta è diventata un misto tra reti neurali, support vector machine, bayesian, ed altri, al fine di ricavare il massimo dalle caratteristiche (features) della voce misurata, con una preliminare selezione ed estrazione delle caratteristiche (feature selection, feature extraction) fatta con altre tipologie algoritmiche.
Come viene gestita la privacy dei dati?
In questo siamo più che ferrati. Il nostro spinoff, Voicewise, si è “innestato” in una società, Cloudwise, con esperienza pluriennale nella tutela dei dati trattati, nel rispetto della normativa europea (GPDR) e nazionale in materia di privacy.
Quali sono i livelli di campionamento e di qualità degli audio necessari per le analisi?
Chiaramente ad una migliore qualità della registrazione della voce corrisponde una più efficace analisi tramite i nostri algoritmi. Ma rispetto a questo abbiamo il vantaggio che ormai la tecnologia di cui possiamo disporre, anche a basso costo, consente una qualità sufficiente per i nostri scopi. Così, un formato .wav, con campionamento a 44.1kHz ed una risoluzione di 16 bit è più che sufficiente.
Quali sono le resistenze maggiori incontrate finora?
La farraginosità della burocrazia. Per ogni passo da fare occorre confrontarsi con diverse strutture, e di ogni struttura con diversi uffici, e per ogni ufficio con persone con diverse competenze. È una corsa ad ostacoli.
Se potesse parlare direttamente alle strutture centrali decisionali che cosa chiederebbe o direbbe?
Farei presente che occorre pesare il fine commisurandolo con i mezzi per ottenerlo. Non è più pensabile che occorre più tempo per risolvere gli aspetti formali rispetto al tempo necessario per risolvere gli aspetti sostanziali. Il paradigma deve essere rovesciato. Diversamente siamo spettatori della fuga dei cervelli e nel nostro futuro saremo sempre più compratori di tecnologie sviluppate all’estero e sempre meno sviluppatori e venditori delle nostre. Ne conseguirà che il nostro Paese diventerà sempre più “colonia” di altri.
Rispetto all’APP IMMUNI quali livelli di integrazione o sinergia pensa siano possibili?
l’App Immuni e l’App Voicewise sono immaginabili sia integrate in una unica, sia “stand-alone”, separate. Non vedo problemi né nell’uno né nell’altra ipotesi. Integrate si avvantaggerebbero l’un l’altra, separate risolverebbero dubbi circa la tutela della privacy avanzate da molti. Infatti, non conosco nei dettagli come la App Immuni tuteli la privacy (ed immagino lo faccia nel modo migliore), ma di sicuro conosco come la App Voicewise sia strutturata per una sicura tutela della privacy a tutto tondo.
Avete già ottenuto finanziamenti e/o partecipato a bandi di finanziamento?
Quello che abbiamo fatto fino ad ora è stato tutto con le nostre sole forze. Ora stiamo partecipando a bandi, cercando quelli che più hanno validità rispetto ai nostri scopi, tenendo conto che nello statuto del nostro Spinoff si legge “di alto valore tecnologico, etico e sociale”.
Vi è spazio di collaborazione per giovani ingegneri interessati alla tematica con un background di conoscenze algoritmiche ed informatiche?
Certamente sì. Anche senza un background solido e consolidato, purché animati da un forte interesse per il tema, da una grande motivazione e dal desiderio di mettersi in gioco. Chi sceglierà di collaborare avrà l’opportunità di lavorare all’interno di un team di alto livello, composto da professionisti altamente qualificati.
Oltre al sottoscritto, il gruppo comprende il Dott. Prof. Antonio Pisani, esperto di Parkinson riconosciuto a livello internazionale e vincitore nel 2019 del prestigioso premio della Michael J. Fox Foundation; il Prof. Giovanni Costantini, docente di elettrotecnica, diplomato al Conservatorio in composizione musicale e pianoforte, profondo conoscitore del suono e direttore del Master Universitario in Sonic Arts; e il Prof. Franco Giannini, Professore Emerito, insignito della Laurea Honoris Causa dall’Università di Varsavia.
Il gruppo è inoltre arricchito da figure con elevate competenze in ambito progettuale, amministrativo, tecnico e gestionale, tra cui la Dott.ssa Maria Tavasci, l’Ing. Fabio Pellini e l’Ing. Luigi Tavolato, oltre a validi collaboratori come il Dott. Giuseppe Azzali, Luca Pellini e Fabrizio Pacciani.
Come poter entrare in contatto e dare un contributo al progetto in chiave tecnica, professionale o di test?
Anche se ho fondato e faccio parte dello spin-off Voicewise, il mio primo punto di contatto rimane l’Università, poiché tengo molto al mio ruolo istituzionale di Ricercatore e Professore Aggregato. Per questo motivo fornisco la mia e-mail universitaria: saggio@uniroma2.it.
Chi fosse interessato a saperne di più può iscriversi al mio canale YouTube: basta cercare “Giovanni Saggio” sul sito per trovarlo. Chi, invece, desidera approfondire le informazioni sullo spin-off, può consultare il sito ufficiale: www.voicewise.it.
Appendice
- G. Albertini, S. Bonassi, V. Dall’Armi, I. Giachetti, S. Giaquinto, M. Mignano, Spectral analysis of the voice in Down Syndrome, Res. Dev. Disabil. 31 (2010) 995–1001.
- R.M.B. de Alvear, F.J. Barón-López, M.D. Alguacil, M.S. Dawid-Milner, Interactions between voice fundamental frequency and cardiovascular parameters. Preliminary results and physiological mechanisms, Logoped. Phoniatr. Vocol. 38 (2013) 52–58.
- D. Chitkara, R.K. Sharma, Voice based detection of type 2 diabetes mellitus, in: IEEE, 2016: pp. 83–87.
- S.C. Costa, B.G.A. Neto, J.M. Fechine, M. Muppa, Short-Term Cepstral Analysis Applied To Vocal Fold Edema Detection, in: SciTePress – Science and and Technology Publications, 2008: pp. 110–115.
- M. dogan, I Midi, M.A. Yazici, I Kocak, D. Günal, M.A. Sehitoglu, Objective and Subjective Evaluation of Voice Quality in Multiple Sclerosis, J. Voice. 21 (2007) 735–740.
- K. Ezzine, A. Ben Hamida, Z. Ben Messaoud, M. Frikha, Towards a computer tool for automatic detection of laryngeal cancer, in: IEEE, 2016: pp. 387–392.
- E.S. Fonseca, J.C. Pereira, Normal versus pathological voice signals, IEEE Eng. Med. Biol. Mag. 28 (2009) 44–48.
- P. Gómez-Vilda, A.R.M. Londral, J.M. Ferrández-Vicente, V. Rodellar-Biarge, Characterization of Speech from Amyotrophic Lateral Sclerosis by Neuromorphic Processing, in: J.M. Ferrández Vicente, J.R. Álvarez Sánchez, F. de la Paz López, Fco.J. Toledo Moreo (Eds.), Nat. Artif. Models Comput. Biol., Springer Berlin Heidelberg, Berlin, Heidelberg, 2013: pp. 212–224.
- P. Gómez-Vilda, A.R.M. Londral, V. Rodellar-Biarge, J.M. Ferrández-Vicente, M. de Carvalho, Monitoring amyotrophic lateral sclerosis by biomechanical modeling of speech production, Neurocomputing. 151 (2015) 130–138.
- Heller, K. Tanner, N. Roy, S.L. Nissen, R.M. Merrill, K.L. Miller, D.R. Houtz, J. Ellerston, K. Kendall, Voice, Speech, and Laryngeal Features of Primary Sjögren’s Syndrome, Ann. Otol. Rhinol. Laryngol. 123 (2014) 778–785.
- C.P. Moura, L.M. Cunha, H. Vilarinho, M.J. Cunha, D. Freitas, M. Palha, S.M. Pueschel, M. Pais-Clemente, Voice Parameters in Children With Down Syndrome, J. Voice. 22 (2008) 34–42.
- V. Pareek, R.K. Sharma, Coronary heart disease detection from voice analysis, in: IEEE, 2016: pp. 1–6.
- M. Petrovic-Lazic, N. Jovanovic, M. Kulic, S. Babac, V. Jurisic, Acoustic and Perceptual Characteristics of the Voice in Patients With Vocal Polyps After Surgery and Voice Therapy, J. Voice. 29 (2015) 241–246.
- G. Saggio, S. Bothe, Tuberculosis Screening by Means of Speech Analysis, J. Commun. Navig. Sens. Serv. CONASENSE. 2016 (2016) 45–56.
- M.K. Sørensen, T.T. Durck, K.H. Bork, N. Rasmussen, Normative Values and Interrelationship of MDVP Voice Analysis Parameters Before and After Endotracheal Intubation, J. Voice. 30 (2016) 626–630.
- J.C. Stemple, L.B. Thomas, Column Vocal Health and Hydration: Fact or Fiction? Voice Speech Rev. 5 (2007) 317–319.
- Suppa, F. Asci, G. Saggio, L. Marsili, D. Casali, Z. Zarezadeh, G. Ruoppolo, A. Berardelli, G. Costantini, “Voice analysis in adductor spasmodic dysphonia: Objective diagnosis and response to botulinum toxin”, Parkinsonism & Related Disorders, Vol. 73, pp. 23-30, 2020
- J.P. Teixeira, J. Fernandes, F. Teixeira, P.O. Fernandes, Acoustic Analysis of Chronic Laryngitis – Statistical Analysis of Sustained Speech Parameters, in: SCITEPRESS – Science and Technology Publications, 2018: pp. 168–175.
- G.S. Walia, R.K. Sharma, Level of asthma: Mathematical formulation based on acoustic parameters, in: IEEE, 2016: pp. 24 – 27.
- T. Zacharia, R. Suresh, H.S. Kumar, D. Preema, J. Judith, B.M. Shrinath, Evaluation of voice parameters in people with head and neck cancers: an investigational study, Middle East J. Cancer. 7 (2016) 193–197.



