Parla al device
Lo sviluppo della tecnologia vocale è foriera di nuove opportunità e di miglioramenti della vita quotidiana. Ma anche di qualche problema etico.
Negli ultimi anni i grandi attori del mercato delle tecnologie hanno dedicato grandi sforzi allo sviluppo di applicazioni del comando vocale. Si pensi alla grande diffusione sul mercato dei gadget a comando vocale tipo Alexa per Amazon, Google Home o della più antica (si fa per dire) Siri per Apple, che hanno raggiunto una capacità di comprensione della voce naturale e nella conseguente erogazione di servizi inimmaginabile solo qualche anno fa (ne abbiamo parlato in Qtech del gennaio 2019).
Grazie all’evoluzione di queste tecnologie è stato possibile implementare applicazioni molto interessanti del comando vocale, che stanno portando grandi novità nella vita quotidiana, nel lavoro, nell’istruzione.
Tendenze tecnologiche
È notizia di poche settimane fa la presentazione di Alba, la carrozzina a guida autonoma che consentirà il trasporto di pazienti negli ospedali mediante comando vocale. Il prototipo è stato sviluppato con la collaborazione di Amazon, che ha messo a disposizione l’assistente vocale Alexa adattato allo scopo. Grazie a questa tecnologia non sarà necessario lo sforzo fisico di spinta della carrozzina da parte dell’infermiere: il mezzo si muoverà autonomamente, a comando vocale. Una volta trasportato il paziente dove necessario, sarà possibile il ritorno autonomo della carrozzina alla stazione di partenza.
Nelle automobili i comandi vocali sono ormai una realtà consolidata, e non solo nei veicoli di gamma alta. Con la voce possiamo chiedere all’auto di effettuare una telefonata, impostare il navigatore satellitare, cercare informazioni sugli hotel nei paraggi. In prima battuta potrebbe sembrare un vezzo da fissati della tecnologia, ma riflettendoci ci si accorge che con queste tecnologie vocali si recupera moltissimo in termini di sicurezza, visto che il comando vocale consente di non staccare le mani dal volante.
Sempre più si diffondono le case organizzate mediante domotica, che consente la gestione di luci, tapparelle, elettrodomestici mediante comando vocale.
In ambito didattico, con i software di lettura Text-to-Speech, è possibile sottoporre al computer un testo scritto per farselo leggere da voci artificiali sempre più raffinate ed espressive, che consentono a persone con bisogni educativi speciali (dislessia, ad esempio, oppure per ipovedenti) di aggirare le difficoltà nella lettura grazie all’ascolto diretto del contenuto, in totale autonomia.
Sono esempi di come le tecnologie vocali abbiano un ruolo fondamentale nell’inclusione e nell’autonomia delle persone con necessità particolari di qualunque natura, oltre a contribuire efficacemente al miglioramento della nostra vita quotidiana.
Ma la voce è entrata pesantemente anche nelle nostre abitudini comunicative. Se prima gli sms si scrivevano digitando sulle tastiere dei telefoni o sui touch screen, da qualche anno è possibile dettare il messaggio direttamente, evitando la scocciatura (per chi la ritiene tale) della dattilografia.
Questo stesso articolo, in parte, è stato scritto dettando all’iPad le parole che lo compongono, un po’ per vezzo, un po’ per comodità: le parole vengono stampate sullo schermo in maniera sostanzialmente precisa, poche volte bisogna intervenire per correggere.
Riconoscimento vocale
Ma come funzionano tutte queste applicazioni? Alla base di queste tecnologie c’è il cosiddetto riconoscimento vocale: la voce da un microfono passa ad un computer (o ad uno smartphone o altro device) e viene data in pasto ad un software in grado di convertirla in informazioni utili a generare la risposta o erogare il servizio richiesto.
Ovviamente il computer che elabora le informazioni non deve essere necessariamente quello con cui parla l’utente: la rete Internet consente di trasportare la voce umana (in forma digitale) dal device che la registra al server che la elabora e viceversa. In questo modo l’azienda che sviluppa l’applicazione può migliorare costantemente la qualità del riconoscimento vocale rendendo subito disponibili gli aggiornamenti agli utenti.
Dubbi sulla privacy
Proprio su questa gestione delle informazioni vocali da parte di grandi colossi quali Google, Amazon e Apple, sono spuntati puntuali i sospetti sulla legittimità dell’uso delle informazioni che questi device sono in grado di raccogliere: sotto accusa è il fatto che i dispositivi venduti da queste aziende restino costantemente in ascolto per essere pronti a rispondere ad eventuali comandi, registrando tutti ciò che avviene nell’ambiente circostante, e quindi anche informazioni private e sensibili.
Qualche settimana fa la polizia di Hallandale Beach, in Florida (USA), nell’ambito delle indagini per un omicidio, avrebbe chiesto al tribunale competente di poter ascoltare le registrazioni di un Amazon Echo (dispositivo dotato di assistente vocale Alexa) installato proprio sul luogo del delitto: nel caso specifico, il dispositivo potrebbe aver registrato gli accadimenti delle ultime ore di vita della vittima e quindi fare chiarezza sulle responsabilità dell’omicidio.
Sulla questione, Amazon intende proteggere la privacy dei suoi clienti, dichiarando che “l’azienda non divulga le informazioni dei clienti in risposta alle richieste del governo, a meno che non sia tenuta a farlo per rispettare un ordine legalmente valido e vincolante”, e ad oggi non ha messo a disposizione le registrazioni, ma potrebbe decidere di farlo in presenza di una richiesta specifica del giudice.
Galateo dei messaggi vocali
Ero ad un semaforo pedonale, appena diventato rosso. Di lì a poco arriva una ragazza. Sta parlando con il suo telefono a mo’ di microfono. Non è appoggiato all’orecchio, né sta usando degli auricolari. Sta registrando un messaggio vocale su Whatsapp o simili. Il semaforo è un po’ lungo, e la ragazza continua a registrare, parlando di ciò che le sta accadendo attorno, senza nel frattempo aver interagito con l’interlocutore. Scatta il verde, attraversiamo, prendiamo strade diverse: lei sta ancora parlando.
Provo un improvviso senso di solidarietà per la persona che riceverà quel messaggio: il malcapitato è destinato a sorbirsi un monologo per intero senza poter proferire parola. Nessuna possibilità di scorrerlo, come si fa con i messaggi di testo, per capirne a grandi linee il contenuto o decidere se ascoltarlo in un secondo momento.
Non so voi, ma quando lo smartphone mi notifica un messaggio vocale vengo assalito da un senso di disagio. Subito guardo la sua durata: sotto i dieci-venti secondi si ascolta volentieri la voce del mittente, entro il minuto ne rinvio l’ascolto in attesa di un momento più adatto, sopra il minuto telefono al mittente in modo da farmi dire direttamente il contenuto del messaggio vocale, ma in una situazione di dialogo, e non di monologo.
Non ce l’ho con chi manda i messaggi vocali, beninteso: ne ricevo spesso da alcuni amici, ma sono sempre brevissimi, e quindi anche piacevoli. Contengono battute, saluti simpatici, domande veloci cui ben volentieri rispondo con messaggi vocali altrettanto brevi. Non sopporto invece i discorsi lunghi e articolati che impongono al ricevente un flusso di parole spesso difficile da seguire e gestire per poter formulare una risposta adeguata al contesto.
Bisogna imparare, nell’era del web, che ogni contenuto può essere condiviso in varie forme, e per ognuno bisogna scegliere la più adatta.
Per contenuti semplici, brevi e sintetici si può benissimo far uso di SMS o Whatsapp, se ci piace il testo, o di messaggio vocale, o al limite un breve video, a seconda delle preferenze, se non amiamo scrivere sulla tastiera.
Se il contenuto invece è più complesso, allora il messaggio vocale non va bene: troppe cose devono essere prese in considerazione dal ricevente, per poterne comprendere il contenuto, e quindi sarà meglio scrivere un’e-mail, dando la possibilità al ricevente di leggere con chiarezza le argomentazioni. Se scrivere non ci piace, allora bisogna ricorrere alla conversazione diretta per telefono, in modo che chi parla e chi ascolta possano chiarirsi l’uno con l’altro.
Tutto purché si eviti di inviare al malcapitato ricevente un sermone audio infinito che impedisce al ricevente di interagire, che lo costringe ad ascoltare senza fiatare come se fosse un messaggio calato dall’alto, evitando così di dare l’impressione di non accettare il dialogo con gli altri.