L’analisi della voce a supporto dello screening, della diagnosi e del follow-up medico
L’idea di base dell’analisi vocale medica
L’essere umano, a differenza di animali dotati di sensi particolarmente sviluppati (come il cane per l’olfatto o il gufo per la visione notturna), ha compensato i propri limiti sensoriali attraverso la tecnologia: dal naso elettronico ai visori a infrarossi.
Anche l’udito segue questa dinamica. L’orecchio umano è in grado di cogliere emozioni e stati d’animo, ma difficilmente riesce a percepire segnali precoci di malattia.
Oggi, grazie a microfoni ad altissima sensibilità e ad algoritmi di Intelligenza Artificiale, è possibile analizzare la voce come fonte oggettiva di informazioni cliniche, associando specifiche variazioni vocali a determinate patologie.
La voce contiene migliaia di parametri acustici:
- Parametri volontari, come tono e ritmo.
- Parametri involontari, legati alla struttura e alla fisiologia dell’apparato respiratorio e fonatorio.
Questi ultimi non possono essere modificati intenzionalmente e riflettono direttamente lo stato di salute dell’individuo.
Ad esempio, i polmoni possiedono una propria risonanza fisiologica che si modifica in presenza di patologie. L’analisi vocale consente di quantificare tali variazioni, svolgendo una funzione analoga a un’auscultazione digitale non invasiva. La voce diventa così uno strumento per la diagnosi precoce e il monitoraggio clinico.
Potenzialità dell’analisi vocale
La voce è un bio-segnale complesso che riflette diversi aspetti dell’organismo:
Fisiologia
- costituzione corporea
- funzionalità polmonare
- stato delle corde vocali
Condizioni temporanee
- febbre
- disidratazione
- affaticamento
Attività cerebrale
- controllo dei muscoli facciali
- coordinazione respiratoria
- regolazione del battito cardiaco
Per questo motivo la voce varia in presenza di:
- malattie infettive
- disturbi neurologici
- alterazioni motorie
- condizioni mentali
Analizzando queste micro-variazioni, tecnologie come VoiceWise permettono di estrarre informazioni sullo stato di salute e di individuare segnali precoci di patologia, supportando screening, diagnosi e follow-up clinico continuo.
In questa prospettiva, la voce diventa un vero e proprio bio-marcatore digitale.
Esperienze e sperimentazioni sul campo
Studi in India (2009–2012)
Le prime sperimentazioni hanno riguardato la registrazione delle voci di centinaia di pazienti affetti da tubercolosi, febbre gialla e altre patologie infettive.
L’obiettivo era individuare un’alternativa economica ai costosi kit diagnostici.
Su 312 pazienti con tubercolosi:
- 309 diagnosi vocali corrette
- 3 falsi positivi
Il brevetto è stato depositato nel 2012 e approvato nel 2014.
Sperimentazioni in Italia
In Italia la ricerca si è concentrata su pazienti “de novo” con morbo di Parkinson, ossia prima dell’inizio della terapia farmacologica, con l’obiettivo di favorire una diagnosi precoce.
Accuratezza riscontrata:
- 95% per Parkinson
- 97% per disfonia
Gli algoritmi utilizzati adottano un approccio multi-algoritmico (reti neurali, support vector machine, modelli bayesiani) e sono in grado di apprendere progressivamente dai nuovi dati.
Collaborazioni COVID-19
Diverse strutture ospedaliere italiane (Roma, Latina, Verona, Pavia) hanno manifestato interesse per applicare l’analisi vocale ai pazienti COVID-19.
L’Ospedale dei Castelli è stata la prima struttura a ottenere il parere favorevole del Comitato Etico e ad avviare le registrazioni su pazienti positivi.
L’accuratezza stimata per il riconoscimento vocale del COVID-19 è ≥ 80%, con potenziale incremento fino al 90%, sulla base dei risultati ottenuti in altre patologie.
Evidenze scientifiche
La letteratura dimostra una correlazione tra parametri vocali e numerose patologie.
Patologie dell’apparato fonatorio
- laringite cronica
- cancro alla laringe
- polipi
- edema di Reinke
- disfonia
- esiti da intubazione
- disidratazione
Patologie sistemiche
- cardiopatie
- diabete
- sclerosi multipla
- SLA
- sindrome di Down
- tubercolosi
È stato dimostrato che esistono bio-marcatori vocali non percepibili dall’orecchio umano ma rilevabili attraverso algoritmi avanzati.
Criticità principali
Acquisizione dei dati
Per ogni patologia è necessario registrare:
- 80–100 pazienti
- un numero equivalente di soggetti sani
I gruppi devono essere omogenei per sesso, etnia e fascia d’età. Questo implica la raccolta di diverse centinaia di campioni vocali, con inevitabile rallentamento del processo di sviluppo.
Burocrazia
Le procedure di approvazione dei Comitati Etici risultano spesso lente e complesse, rappresentando uno dei principali ostacoli operativi.
Tecnologia e requisiti tecnici
Il sistema utilizza un approccio multi-algoritmico:
- reti neurali
- support vector machine
- modelli bayesiani
Sono impiegate tecniche di:
- feature extraction
- feature selection
per ottimizzare l’analisi dei parametri vocali e ridurre il rumore informativo.
I requisiti tecnici di registrazione sono accessibili:
- formato .wav
- 44.1 kHz
- 16 bit
La gestione dei dati è conforme al GDPR e alla normativa italiana, grazie anche alla collaborazione con Cloudwise.
Resistenze e prospettive
La principale criticità non è di natura scientifica ma procedurale. Uno snellimento delle procedure autorizzative favorirebbe lo sviluppo tecnologico nazionale e ridurrebbe la dipendenza da soluzioni estere.
Collaborazioni e opportunità
Il progetto si fonda su un team multidisciplinare che integra competenze in:
- medicina
- elettrotecnica
- musica
- informatica
- gestione dell’innovazione
Giovani ingegneri e sviluppatori possono contribuire con competenze algoritmiche e informatiche.
Contatti:
-
- Prof. Giovanni Saggio
- Canale YouTube “Giovanni Saggio”
- Sito ufficiale dello spin-off VoiceWise
Appendice
- G. Albertini, S. Bonassi, V. Dall’Armi, I. Giachetti, S. Giaquinto, M. Mignano, Spectral analysis of the voice in Down Syndrome, Res. Dev. Disabil. 31 (2010) 995–1001.
- R.M.B. de Alvear, F.J. Barón-López, M.D. Alguacil, M.S. Dawid-Milner, Interactions between voice fundamental frequency and cardiovascular parameters. Preliminary results and physiological mechanisms, Logoped. Phoniatr. Vocol. 38 (2013) 52–58.
- D. Chitkara, R.K. Sharma, Voice based detection of type 2 diabetes mellitus, in: IEEE, 2016: pp. 83–87.
- S.C. Costa, B.G.A. Neto, J.M. Fechine, M. Muppa, Short-Term Cepstral Analysis Applied To Vocal Fold Edema Detection, in: SciTePress – Science and and Technology Publications, 2008: pp. 110–115.
- M. dogan, I Midi, M.A. Yazici, I Kocak, D. Günal, M.A. Sehitoglu, Objective and Subjective Evaluation of Voice Quality in Multiple Sclerosis, J. Voice. 21 (2007) 735–740.
- K. Ezzine, A. Ben Hamida, Z. Ben Messaoud, M. Frikha, Towards a computer tool for automatic detection of laryngeal cancer, in: IEEE, 2016: pp. 387–392.
- E.S. Fonseca, J.C. Pereira, Normal versus pathological voice signals, IEEE Eng. Med. Biol. Mag. 28 (2009) 44–48.
- P. Gómez-Vilda, A.R.M. Londral, J.M. Ferrández-Vicente, V. Rodellar-Biarge, Characterization of Speech from Amyotrophic Lateral Sclerosis by Neuromorphic Processing, in: J.M. Ferrández Vicente, J.R. Álvarez Sánchez, F. de la Paz López, Fco.J. Toledo Moreo (Eds.), Nat. Artif. Models Comput. Biol., Springer Berlin Heidelberg, Berlin, Heidelberg, 2013: pp. 212–224.
- P. Gómez-Vilda, A.R.M. Londral, V. Rodellar-Biarge, J.M. Ferrández-Vicente, M. de Carvalho, Monitoring amyotrophic lateral sclerosis by biomechanical modeling of speech production, Neurocomputing. 151 (2015) 130–138.
- Heller, K. Tanner, N. Roy, S.L. Nissen, R.M. Merrill, K.L. Miller, D.R. Houtz, J. Ellerston, K. Kendall, Voice, Speech, and Laryngeal Features of Primary Sjögren’s Syndrome, Ann. Otol. Rhinol. Laryngol. 123 (2014) 778–785.
- C.P. Moura, L.M. Cunha, H. Vilarinho, M.J. Cunha, D. Freitas, M. Palha, S.M. Pueschel, M. Pais-Clemente, Voice Parameters in Children With Down Syndrome, J. Voice. 22 (2008) 34–42.
- V. Pareek, R.K. Sharma, Coronary heart disease detection from voice analysis, in: IEEE, 2016: pp. 1–6.
- M. Petrovic-Lazic, N. Jovanovic, M. Kulic, S. Babac, V. Jurisic, Acoustic and Perceptual Characteristics of the Voice in Patients With Vocal Polyps After Surgery and Voice Therapy, J. Voice. 29 (2015) 241–246.
- G. Saggio, S. Bothe, Tuberculosis Screening by Means of Speech Analysis, J. Commun. Navig. Sens. Serv. CONASENSE. 2016 (2016) 45–56.
- M.K. Sørensen, T.T. Durck, K.H. Bork, N. Rasmussen, Normative Values and Interrelationship of MDVP Voice Analysis Parameters Before and After Endotracheal Intubation, J. Voice. 30 (2016) 626–630.
- J.C. Stemple, L.B. Thomas, Column Vocal Health and Hydration: Fact or Fiction? Voice Speech Rev. 5 (2007) 317–319.
- Suppa, F. Asci, G. Saggio, L. Marsili, D. Casali, Z. Zarezadeh, G. Ruoppolo, A. Berardelli, G. Costantini, “Voice analysis in adductor spasmodic dysphonia: Objective diagnosis and response to botulinum toxin”, Parkinsonism & Related Disorders, Vol. 73, pp. 23-30, 2020
- J.P. Teixeira, J. Fernandes, F. Teixeira, P.O. Fernandes, Acoustic Analysis of Chronic Laryngitis – Statistical Analysis of Sustained Speech Parameters, in: SCITEPRESS – Science and Technology Publications, 2018: pp. 168–175.
- G.S. Walia, R.K. Sharma, Level of asthma: Mathematical formulation based on acoustic parameters, in: IEEE, 2016: pp. 24 – 27.
- T. Zacharia, R. Suresh, H.S. Kumar, D. Preema, J. Judith, B.M. Shrinath, Evaluation of voice parameters in people with head and neck cancers: an investigational study, Middle East J. Cancer. 7 (2016) 193–197.



