L'analisi di stress vocale è un metodo di scienza forense per registrare elementi psicofisiologici presenti nella voce umana, quando un soggetto è interrogato in risposta ad uno stimolo, laddove le conseguenze delle menzogne possono essere determinanti per l'indagine o per il procedimento giudiziario[1]
Lo stress psicofisiologico può essere inteso come una variazione acustica nella frequenza principale della voce dell'interlocutore (8–14 Hz in condizioni normali), in quanto nelle situazioni che richiedono un'attività mentale o psicomotoria maggiore, la modulazione della frequenza diminuisce mentre i muscoli striati che circondano le corde vocali in risposta allo stimolo limitano di fatto la naturale vibrazione delle corde.
L'analisi di stress vocale si basa sull'ipotesi che ci sono degli elementi subsonici nella voce umana non udibili ad orecchio nudo a causa di un fenomeno insito nella natura dei muscoli chiamato "microtremore", scoperto da Olaf Lippold nel 1957[2]. Successive analisi da altri ricercatori esplorarono la possibilità della presenza di microtremori nei muscoli della laringe. L'esperimento fu compiuto attaccando degli elettrodi al muscolo cricotiroideo e a quello cricoaritenoideo posteriore in modo da misurare i segnali elettromagnetici. Non fu possibili, invece, misurare i microtremori durante il discorso in quanto l'attività EMG muta rapidamente. L'esperimento, inoltre, fu ampliato ad una frequenza di 20000 Hz ma non diede alcun utile risultato. Si giunse alla conclusione, dunque, che «l'energia elettrica è casualmente distribuita lungo lo spettro»[3]. I risultati della ricerca, comunque, furono ripresi qualche tempo più tardi per dimostrare che il fenomeno dei microtremori può ritornare utile per analizzare i segni di menzogna nel discorso[4].
L'analisi di stress vocale è cosa ben diversa dalla Layered Vocal Analysis. Questa ultima è una modalità di analisi che è stata proposta per misurare diversi componenti vocali quali, ad es., le emozioni, l'eccitazione, la confusione, l'attenzione, ma non è attendibile per scoprire segni di menzogna.
La principale differenza nel metodo operativo tra i due metodi è basato sull'analisi dei rapporti di frequenza: mentre l'analisi di stress vocale si concentra su un intervallo 8-14.000 Hz, la Layered Vocal Analysis utilizza uno spettro più ampio per rilevare informazioni utili ma non rilevanti per l'analisi forense[5].
La tecnologia originale fu sviluppata da tre ex impiegati dell'Esercito degli Stati Uniti per il quale la Bell sviluppò un'analoga strumentazione, il PSE 1000 e più tardi il PSE 2000 (l'ultima versione è PSE 5128). L'istituto nazionale di verifica della verità nel 1997 registrò un brevetto di un prodotto simile al PSE, basato sul calcolo degli algoritmi. Da quel momento in poi fu possibile migliorare il riconoscimento mediante tecnologia digitale. I primi fornitori furono NITV(USA)-CVSA, POLYVSA (TVT Centre RSA) e AVSA PRO 1,8. L'analisi dei segni di menzogna funziona al momento di proferire un discorso; l'impiego di tecnologie che registrano e riproducono la voce umana per rilevare segni di menzogna rimane controversa[6].
Lo scopo dell'analisi è di valutare l'attendibilità delle risposte proferite da un soggetto (informatore) durante un interrogatorio o un'inchiesta giudiziaria. Le rilevazioni sono realizzate tramite l'analisi e la misurazione della voce emessa dal soggetto esaminando. L'analisi analogica è compiuta assegnando dei valori percentuale in relazione al modello di voce emessa. Alti livelli di percentuale indicano che l'informatore sta mentendo. Nell'analisi digitale, invece, la forma dell'onda o i picchi delle parabole indicano che l'informatore sta dicendo la verità.
Più problematica, invece, l'analisi delle risposte dicotomiche come, ad es., si/no, giusto/falso, positivo/negativo, in quanto di solito l'analisi analogica funziona con risposte lunghe. Le domande sono poste in maniera diversa per ogni soggetto, quindi è stato necessario creare un modello di misurazione universale in modo da comparare tutte le risposte a tale modello cd. Control Question and relevant Question signatures (CQQ) in modo da assegnare gli adeguati punteggi.
Nell'analisi digitale, invece, si ricorre sia al CQQ sia al software professionale[7].
L'equipaggiamento necessario per l'analisi analogica consiste in un microfono, in una macchina che codifica i segnali vocali in segnali analogici e li trasmette su un poligrafo e, infine, in un siero da somministrare all'informatore come, ad es., il pentotal, per disinibire le risposte. Nell'analisi digitale, invece, tutto ciò che serve è un microfono e un computer e può essere eseguita anche nell'ignoranza dell'informatore[8].
Non ci sono controindicazioni conosciute per l'analisi digitale. D'altro canto il ricorso nell'analisi analogica ad una placca posta sotto la lingua dell'informatore può ridurre l'attendibilità dell'analisi del 26%[9][10][11][12][13]
Negli Stati Uniti, alcuni Stati non prevedono l'utilizzo privato di questi metodi. La CIA e l'FBI, comunque, utilizzano l'analisi dei segni di menzogna nelle proprie investigazioni. Nel resto del mondo, molte agenzie private ricorrono a questo metodo piuttosto che il metodo analogico[8].
L'accuratezza del metodo è ottenuta tramite l'algoritmo McQuiston-Ford[14].
Le vibrazioni della voce sono convertiti tramite gli algoritmi in punteggi standard. La discrepanza nell'accuratezza può apparire da un diverso allenamento o in investigatori non preparati all'uso del metodo. Ciò è più evidente nel passaggio dall'analisi analogica all'analisi digitale senza aver ricevuto l'adeguata istruzione[15].
D'altro canto le associazioni pro analisi analogica hanno contestato l'accuratezza dell'analisi digitale, sebbene molti di loro siano stati istruiti all'uso di entrambe le tecnologie. Uno di questi, Clifton Coetzee, nel 2002 introdusse il UTAH 7 Point un metodo ibrido di analisi che consisteva nell'attribuire i punteggi su una scala di valori da -3 a +3. Altri, come Reid e Backster, hanno utilizzato protocolli diversi per lo stesso metodo. È necessario, comunque, che l'investigatore che usa tecniche digitali sia capace di sfruttare al meglio il tempo a disposizione e le pause che intercorrono tra lo stimolo (domanda) e il segno (risposta). Altre variabili comuni all'analisi analogica sono le "risposte anomale" e quelle "volatili".
Recentemente, sono stati sviluppati software basati su reti neurali che valutano diverse variabili in relazione a database di riferimento[16][17].
L'accuratezza dei risultati rimane discussa. Ci sono alcune ricerche che confermano la validità dell'analisi per rilevare i segni di menzogna, ma ci sono altre ricerche che, invece, confutano tale validità[18][19].
L'analisi dello stress vocale è stata etichettata come "pseudoscientifica"[20] e non ci sono ancora dimostrazioni scientifiche sulla validità della teoria dei "microtremori" nonostante i successi nell'impiego finora riscontrati[21].
Rimangono le tensioni tra la comunità digitale e quella analogica, dovuta principalmente alla regolazione normativa che limita rigidamente l'analisi analogica e che, invece, lascia più margine di iniziativa su quella digitale. Nessuna tecnologia, attualmente, può determinare con esattezza la verità o la menzogna, in quanto il timore di essere sotto inchiesta può inibire o favorire l'insorgere di segni di stress vocale più facilmente rilevabili.