La nonna in Alexa

(di Marco Rottigni)

07/07/22

Personalmente sono affascinato dall’intelligenza artificiale, dalla tecnologia e da come gradualmente ma inesorabilmente si insinua nelle nostre vite in modo pervasivo.

Migliorandole, certo, a volte in modo molto dirompente come… far rivivere emozioni legate a persone che non ci sono più.

In questi casi, è importante il pensiero critico: proprio quel pensiero ci porta a valutare questi impatti, decidere se vogliamo farne parte, soppesando anche i potenziali aspetti negativi. Ecco spiegato il fascino che la tecnologia ha su di me, come ragione di frequenti epifanie e momenti catartici.

Uno di questi momenti mi è accaduto qualche giorno fa, seguendo l’evento re:MARS 2022. Una kermesse sull’intelligenza artificiale in cui il gigante Amazon illustra al mondo i propri studi, sperimentazioni ed innovazioni in tema di machine learning, automazione, robotica e spazio… applicati al business presente e futuro.

L’evento è di per sé affascinante, ricco di spunti e provocazioni, con molti ospiti illustri anche esterni. I discorsi di questi ospiti, conosciuti in gergo come keynote, sono disponibili anche online su YouTube per essere consumati ripetutamente dal pubblico.

Nel keynote del secondo giorno disponibile all’indirizzo https://www.youtube.com/watch?v=22cb24-sGhg, precisamente dopo un’ora e due minuti dall’inizio, sono rimasto folgorato da un passaggio di Rohit Prasad – head scientist di Alexa AI.

Stavo seguendo la sua contestualizzazione, davvero ben preparata: parlando dell’empatia tra uomo e macchina come sentimento alla base della costruzione di un rapporto di fiducia, si è soffermato sul fatto che per molti di noi la recente emergenza pandemica ha significato la perdita di una persona cara.

Alexa – spesso simbolo di questa presenza tecnologica anche se per conversazioni semplici – ha maturato nel tempo capacità per cui sono rimasto letteralmente folgorato: ovviamente non tali da eliminare il dolore per queste perdite, ma sufficienti a fornire un ulteriore modo di rendere la memoria delle persone care più persistente.
Nel giro di una manciata di secondi, il video cambia a mostrare un bambino che chiede ad Alexa di fare in modo che sua nonna – defunta – possa leggergli un passaggio del Mago di Oz, proprio come faceva mentre era in vita.

Alexa risponde con un “Okay” alla richiesta, per passare subito dopo ad una simulazione perfetta della voce della cara nonnina regalando un’emozione visibilmente tangibile al tecnologico nipote.

Il video torna quindi su Rohit, che spiega subito due cose che mi hanno molto colpito per la carica innovativa: la prima, che la possibilità appena vista deriva da un cambio di prospettiva nel modo in cui viene analizzata la voce; più nello specifico, spostando l’analisi da un problema di speech generation, cioè di produzione di una frase audio, ad una questione di conversione della voce.

La seconda cosa, strettamente legata alla prima, riguarda come questo cambio di prospettiva abbia permesso la riproduzione con un solo minuto di registrazione vocale esistente, rispetto a ore di registrazione in studio che l’approccio precedente avrebbe richiesto!!!

^{(Rohit Prasad sul palco di re:MARS 2022)}

Ma parlavo prima alla necessità di pensiero critico: passato il wow moment, infatti, ho iniziato a riflettere su alcuni aspetti.

Esistono diversi servizi online, in cui uno dei metodi di autenticazione consiste proprio nel pronunciare una frase per provare di essere la persona che si sostiene di essere: è evidente che con una tecnologia del genere, peraltro disponibile non solo ad Amazon, diventa importante affidare la forza del processo di autenticazione ad altri meccanismi – certamente meno simulabili.

La autenticazione biometrica vocale è certamente una tecnologia giovane, che però ha conosciuto una popolarità abbastanza immediata proprio per la semplicità d’uso e per l’assenza di strumenti accessori da avere. Gran parte di questa popolarità ha visto servizi bancari e assicurativi adottarla in modo importante, anche se ultimamente unita ad altri meccanismi per aumentare la forza complessiva del processo. In un articolo del 2020 si ipotizzava come processo di autenticazione forte la combinazione di toni a multifrequenza di un tastierino del telefono, combinati a una frase registrata con la voce del cliente che doveva quindi essere riprodotta: va da sé che l’innovazione presentata da Amazon annullerebbe tale forza, mettendo il processo di autenticazione a rischio di attacchi di impersonificazione. Attacchi cioè in cui l’attaccante ha tutti gli strumenti necessari per agire come se fosse la vittima finale, ingannando l’entità tecnologica che dovrebbe certificare l’identità.

Un altro processo a rischio è quello che prevede il controllo degli accessi, fisici o virtuali, al lavoro per ragioni di tariffazione o verifica degli orari lavorativi. Un altro ambito in cui gli attaccanti sarebbero grandemente facilitati da queste tecnologie di sintesi vocale.

La seconda riflessione è un pochino più emotiva: come dicevo all’inizio, trovo questa possibilità assolutamente affascinante e innovativa; mi rendo conto però che per persone diverse la cosa potrebbe non già essere fonte di emozioni positive, ma protrarre un dolore per la perdita di una persona cara in modo importante e difficilmente sopportabile.

Beh, se c’è una cosa che distingue l’essere umano dalla tecnologia è proprio la coscienza, da cui origina il libero arbitrio. La storia ci insegna l’inutilità di negare progresso, scienza e tecnologia in favore di sentimenti e credenze personali – giuste o sbagliate che siano. Ecco perché a queste persone consiglio semplicemente di scegliere. Scegliere di ignorare questa possibilità offerta dalla tecnologia, lasciando però lo stesso diritto al resto degli esseri umani.