L’analisi della voce

L’analisi della voce a supporto dello screening, della diagnosi e del follow-up medico

L’idea di base dell’analisi vocale medica

L’essere umano, a differenza di animali dotati di sensi particolarmente sviluppati (come il cane per l’olfatto o il gufo per la visione notturna), ha compensato i propri limiti sensoriali attraverso la tecnologia: dal naso elettronico ai visori a infrarossi.

Anche l’udito segue questa dinamica. L’orecchio umano è in grado di cogliere emozioni e stati d’animo, ma difficilmente riesce a percepire segnali precoci di malattia.

Oggi, grazie a microfoni ad altissima sensibilità e ad algoritmi di Intelligenza Artificiale, è possibile analizzare la voce come fonte oggettiva di informazioni cliniche, associando specifiche variazioni vocali a determinate patologie.

La voce contiene migliaia di parametri acustici:

  • Parametri volontari, come tono e ritmo.
  • Parametri involontari, legati alla struttura e alla fisiologia dell’apparato respiratorio e fonatorio.

Questi ultimi non possono essere modificati intenzionalmente e riflettono direttamente lo stato di salute dell’individuo.

Ad esempio, i polmoni possiedono una propria risonanza fisiologica che si modifica in presenza di patologie. L’analisi vocale consente di quantificare tali variazioni, svolgendo una funzione analoga a un’auscultazione digitale non invasiva. La voce diventa così uno strumento per la diagnosi precoce e il monitoraggio clinico.

Potenzialità dell’analisi vocale

La voce è un bio-segnale complesso che riflette diversi aspetti dell’organismo:

Fisiologia

  • costituzione corporea
  • funzionalità polmonare
  • stato delle corde vocali

Condizioni temporanee

  • febbre
  • disidratazione
  • affaticamento

Attività cerebrale

  • controllo dei muscoli facciali
  • coordinazione respiratoria
  • regolazione del battito cardiaco

Per questo motivo la voce varia in presenza di:

  • malattie infettive
  • disturbi neurologici
  • alterazioni motorie
  • condizioni mentali

Analizzando queste micro-variazioni, tecnologie come VoiceWise permettono di estrarre informazioni sullo stato di salute e di individuare segnali precoci di patologia, supportando screening, diagnosi e follow-up clinico continuo.

In questa prospettiva, la voce diventa un vero e proprio bio-marcato­re digitale.

Esperienze e sperimentazioni sul campo

Studi in India (2009–2012)

Le prime sperimentazioni hanno riguardato la registrazione delle voci di centinaia di pazienti affetti da tubercolosi, febbre gialla e altre patologie infettive.

L’obiettivo era individuare un’alternativa economica ai costosi kit diagnostici.

Su 312 pazienti con tubercolosi:

  • 309 diagnosi vocali corrette
  • 3 falsi positivi

Il brevetto è stato depositato nel 2012 e approvato nel 2014.

Sperimentazioni in Italia

In Italia la ricerca si è concentrata su pazienti “de novo” con morbo di Parkinson, ossia prima dell’inizio della terapia farmacologica, con l’obiettivo di favorire una diagnosi precoce.

Accuratezza riscontrata:

  • 95% per Parkinson
  • 97% per disfonia

Gli algoritmi utilizzati adottano un approccio multi-algoritmico (reti neurali, support vector machine, modelli bayesiani) e sono in grado di apprendere progressivamente dai nuovi dati.

Collaborazioni COVID-19

Diverse strutture ospedaliere italiane (Roma, Latina, Verona, Pavia) hanno manifestato interesse per applicare l’analisi vocale ai pazienti COVID-19.

L’Ospedale dei Castelli è stata la prima struttura a ottenere il parere favorevole del Comitato Etico e ad avviare le registrazioni su pazienti positivi.

L’accuratezza stimata per il riconoscimento vocale del COVID-19 è ≥ 80%, con potenziale incremento fino al 90%, sulla base dei risultati ottenuti in altre patologie.

Evidenze scientifiche

La letteratura dimostra una correlazione tra parametri vocali e numerose patologie.

Patologie dell’apparato fonatorio

  • laringite cronica
  • cancro alla laringe
  • polipi
  • edema di Reinke
  • disfonia
  • esiti da intubazione
  • disidratazione

Patologie sistemiche

  • cardiopatie
  • diabete
  • sclerosi multipla
  • SLA
  • sindrome di Down
  • tubercolosi

È stato dimostrato che esistono bio-marcatori vocali non percepibili dall’orecchio umano ma rilevabili attraverso algoritmi avanzati.

Criticità principali

Acquisizione dei dati

Per ogni patologia è necessario registrare:

  • 80–100 pazienti
  • un numero equivalente di soggetti sani

I gruppi devono essere omogenei per sesso, etnia e fascia d’età. Questo implica la raccolta di diverse centinaia di campioni vocali, con inevitabile rallentamento del processo di sviluppo.

Burocrazia

Le procedure di approvazione dei Comitati Etici risultano spesso lente e complesse, rappresentando uno dei principali ostacoli operativi.

Tecnologia e requisiti tecnici

Il sistema utilizza un approccio multi-algoritmico:

  • reti neurali
  • support vector machine
  • modelli bayesiani

Sono impiegate tecniche di:

  • feature extraction
  • feature selection

per ottimizzare l’analisi dei parametri vocali e ridurre il rumore informativo.

I requisiti tecnici di registrazione sono accessibili:

  • formato .wav
  • 44.1 kHz
  • 16 bit

La gestione dei dati è conforme al GDPR e alla normativa italiana, grazie anche alla collaborazione con Cloudwise.

Resistenze e prospettive

La principale criticità non è di natura scientifica ma procedurale. Uno snellimento delle procedure autorizzative favorirebbe lo sviluppo tecnologico nazionale e ridurrebbe la dipendenza da soluzioni estere.

Collaborazioni e opportunità

Il progetto si fonda su un team multidisciplinare che integra competenze in:

  • medicina
  • elettrotecnica
  • musica
  • informatica
  • gestione dell’innovazione

Giovani ingegneri e sviluppatori possono contribuire con competenze algoritmiche e informatiche.

Contatti:

    • Prof. Giovanni Saggio
    • Canale YouTube “Giovanni Saggio”
    • Sito ufficiale dello spin-off VoiceWise

Appendice

  • G. Albertini, S. Bonassi, V. Dall’Armi, I. Giachetti, S. Giaquinto, M. Mignano, Spectral analysis of the voice in Down Syndrome, Res. Dev. Disabil. 31 (2010) 995–1001.
  • R.M.B. de Alvear, F.J. Barón-López, M.D. Alguacil, M.S. Dawid-Milner, Interactions between voice fundamental frequency and cardiovascular parameters. Preliminary results and physiological mechanisms, Logoped. Phoniatr. Vocol. 38 (2013) 52–58.
  • D. Chitkara, R.K. Sharma, Voice based detection of type 2 diabetes mellitus, in: IEEE, 2016: pp. 83–87.
  • S.C. Costa, B.G.A. Neto, J.M. Fechine, M. Muppa, Short-Term Cepstral Analysis Applied To Vocal Fold Edema Detection, in: SciTePress – Science and and Technology Publications, 2008: pp. 110–115.
  • M. dogan, I Midi, M.A. Yazici, I Kocak, D. Günal, M.A. Sehitoglu, Objective and Subjective Evaluation of Voice Quality in Multiple Sclerosis, J. Voice. 21 (2007) 735–740.
  • K. Ezzine, A. Ben Hamida, Z. Ben Messaoud, M. Frikha, Towards a computer tool for automatic detection of laryngeal cancer, in: IEEE, 2016: pp. 387–392.
  • E.S. Fonseca, J.C. Pereira, Normal versus pathological voice signals, IEEE Eng. Med. Biol. Mag. 28 (2009) 44–48.
  • P. Gómez-Vilda, A.R.M. Londral, J.M. Ferrández-Vicente, V. Rodellar-Biarge, Characterization of Speech from Amyotrophic Lateral Sclerosis by Neuromorphic Processing, in: J.M. Ferrández Vicente, J.R. Álvarez Sánchez, F. de la Paz López, Fco.J. Toledo Moreo (Eds.), Nat. Artif. Models Comput. Biol., Springer Berlin Heidelberg, Berlin, Heidelberg, 2013: pp. 212–224.
  • P. Gómez-Vilda, A.R.M. Londral, V. Rodellar-Biarge, J.M. Ferrández-Vicente, M. de Carvalho, Monitoring amyotrophic lateral sclerosis by biomechanical modeling of speech production, Neurocomputing. 151 (2015) 130–138.
  • Heller, K. Tanner, N. Roy, S.L. Nissen, R.M. Merrill, K.L. Miller, D.R. Houtz, J. Ellerston, K. Kendall, Voice, Speech, and Laryngeal Features of Primary Sjögren’s Syndrome, Ann. Otol. Rhinol. Laryngol. 123 (2014) 778–785.
  • C.P. Moura, L.M. Cunha, H. Vilarinho, M.J. Cunha, D. Freitas, M. Palha, S.M. Pueschel, M. Pais-Clemente, Voice Parameters in Children With Down Syndrome, J. Voice. 22 (2008) 34–42.
  • V. Pareek, R.K. Sharma, Coronary heart disease detection from voice analysis, in: IEEE, 2016: pp. 1–6.
  • M. Petrovic-Lazic, N. Jovanovic, M. Kulic, S. Babac, V. Jurisic, Acoustic and Perceptual Characteristics of the Voice in Patients With Vocal Polyps After Surgery and Voice Therapy, J. Voice. 29 (2015) 241–246.
  • G. Saggio, S. Bothe, Tuberculosis Screening by Means of Speech Analysis, J. Commun. Navig. Sens. Serv. CONASENSE. 2016 (2016) 45–56.
  • M.K. Sørensen, T.T. Durck, K.H. Bork, N. Rasmussen, Normative Values and Interrelationship of MDVP Voice Analysis Parameters Before and After Endotracheal Intubation, J. Voice. 30 (2016) 626–630.
  • J.C. Stemple, L.B. Thomas, Column Vocal Health and Hydration: Fact or Fiction? Voice Speech Rev. 5 (2007) 317–319.
  • Suppa, F. Asci, G. Saggio, L. Marsili, D. Casali, Z. Zarezadeh, G. Ruoppolo, A. Berardelli, G. Costantini, “Voice analysis in adductor spasmodic dysphonia: Objective diagnosis and response to botulinum toxin”, Parkinsonism & Related Disorders, Vol. 73, pp. 23-30, 2020
  • J.P. Teixeira, J. Fernandes, F. Teixeira, P.O. Fernandes, Acoustic Analysis of Chronic Laryngitis – Statistical Analysis of Sustained Speech Parameters, in: SCITEPRESS – Science and Technology Publications, 2018: pp. 168–175.
  • G.S. Walia, R.K. Sharma, Level of asthma: Mathematical formulation based on acoustic parameters, in: IEEE, 2016: pp. 24 – 27.
  • T. Zacharia, R. Suresh, H.S. Kumar, D. Preema, J. Judith, B.M. Shrinath, Evaluation of voice parameters in people with head and neck cancers: an investigational study, Middle East J. Cancer. 7 (2016) 193–197.