Dettatura vocale e non solo: gli utilizzi della voce su Pc e Smartphone

Tutti abbiamo iniziato a usare il computer mediante una tastiera e un mouse e solo successivamente sono state aggiunte (per chi se lo ricorda) le schede audio dette sound card o sound blaster che permettevano sia di registrare la voce sia di emettere suoni con casse esterne.

Il computer è nato con una tastiera o un mouse, viene dunque automatico muovere il cursore sul monitor con il mouse e digitare i tasti con la tastiera.

La stessa cosa è avvenuta con i primi smartphone che erano dotati di una tastiera (seppur ridotta in dimensioni rispetto a quella di un personal computer) molto simile a quella di un pc. In molti ricorderanno ad esempio i primi BlackBerry.

Solo a fine 2006 LG presentò in collaborazione con Prada il Prada Phone, primo smartphone con schermo capacitivo (sensibile al tocco delle dita) e Apple nel 2007 presentò e mise in vendita il primo IPhone, con multi-touch e pinch-to-zoom.

Successivamente (2012) è stato lanciato Siri per Iphone e poi Google Assistant (2016). E Amazon aveva lanciato Alexa nel 2014. Tutti e 3 i prodotti sono un inizio di “vocalizzazione dell’input” ovvero la volontà di superare la tastiera negli smartphone.

Queste tecnologie di input (I) mirano a semplificare l’accesso umano alla tecnologia che si trova dietro Alexa, dietro a uno smartphone o dietro a un computer.

Ma come possiamo nel 2024 fare tesoro di queste opportunità vocali? E cosa si può fare con la voce sui propri device?

Smartphone

Lo smartphone è lo strumento che meglio si adatta ad un utilizzo mediante la voce . Sono stati concepiti infatti per smartphone sia Google Assistant per Android sia Siri per iPhone. Sebbene molti conoscano le funzionalità che permettono, premendo un tasto o poco più, di fare domande al proprio smartphone, pochi sanno che con la voce si può fare davvero molto.

Ad esempio sia nell’ambito delle app di gestione posta che delle app di messaggistica, come ad telegram e whatsapp, è possibile utilizzare la voce per scrivere i messaggi.

Non si sta parlando dei messaggi audio con i quali si registra la voce , ma di dettare un testo al proprio smartphone.

Ad esempio su uno smartphone con Android una volta che si attiva una qualunque casella di testo in una qualunque app, attivando la tastiera è possibile vedere un microfono alla destra degli emoticon. Cliccando il microfono è possibile procedere con la dettatura.

Abbiamo quindi 3 possibilità di inserimento informazioni, ad esempio in whatsapp:

In forma scritta mediante tastiera con le mani.
In forma vocale mediante messaggio audio con la voce.
In forma scritta mediante voce, ovvero dettatura.

Probabilmente la forma più veloce sia per chi invia il messaggio sia per chi lo riceve è la terza. Infatti la forma scritta è più lenta per lo chi scrive e più veloce per il ricevente, mentre la forma vocale è più veloce per chi vuole mandare il messaggio e più lenta per chi vuole ascoltarlo. La terza modalità prende il meglio di entrambe.

Tale funzione è inoltre cross app, visto che è una funzionalità del sistema operativo, associata alla tastiera e disponibile ovunque, non una funzionalità della singola applicazione. Si può usarla per scrivere un’email, un messaggio whatsapp, per fare una ricerca nel browser chrome o scrivere un post linkedin.

Un altro utilizzo molto interessante di questa funzione, previo ovviamente chiedere il permesso all’interlocutore, è la trascrizione in tempo reale del parlato. Poniamo ad esempio che sia un giornalista e voglia fare un’intervista. Posso “alla vecchia maniera” registrare la voce dell’interlocutore, oppure con il nuovo metodo entrare in un’app di note e attivare il microfono e registrare sia domande sia risposte in un file di testo che viene compilato direttamente mentre io e il mio interlocutore parliamo.

Un altro uso interessante riguarda i podcast. Mentre si è all’ascolto è possibile attivare la funzione ottenendo la trascrizione: si possono poi ricercare i pezzi più interessanti per salvarli in un secondo momento, oppure tagliare quelli meno interessanti. Se si vuole proprio esagerare, una volta fatta l’intervista (caso 1) o trascritto il podcast (caso 2) mentre lo si ascolta, si può anche chiedere a una AI di fare un riassunto del testo.

Si potrebbe anche produrre un audio e poi farlo trascrivere ad una AI.

E’ possibile utilizzare lo strumento di dettatura anche ad esempio nell’app Google Docs, oppure in office 365, scrivendo interi documenti con la voce (ad esempio il 50% di questo articolo è stato scritto con la voce).

Personal Computer

Anche sul computer si può fare lo stesso? Sui sistemi windows sicuramente sì. Anche sul Mac è possibile come descritto a questo link. Su Linux invece è possibile utilizzare speech note.

In particolare per la parte di installazione sia su windows 10 sia su windows 11 è possibile fare riferimento al seguente tutorial di Microsoft.

Come dice il sito stesso: “con la digitazione vocale, puoi immettere testo nel PC parlando. La digitazione vocale usa il riconoscimento vocale online, basato su servizi vocali di Azure”.

Quando si attiva la dettatura con la voce (o voice typing) si visualizzerà una barra come la seguente:

In ogni momento sarà possibile cliccare sul microfono che diventa blu e quindi digitare quello che si vuole mediante la voce, come sto facendo ora mentre scrivo questa parte dell’articolo. E’ possibile aggiungere anche la punteggiatura ed eventualmente andare a capo.

La dettatura prosegue fino a che non viene cliccato un tasto della tastiera. A quel punto la dettatura si ferma automaticamente e si può tornare a riutilizzare senza nessun problema la tastiera.

La dettatura o voice typing è disponibile anche nei software di scrittura come ad esempio Google Docs in browser chrome sia per pc sia per smartphone o in Word in Office 365. Ci concentreremo su Google Docs che sto utilizzando per scrivere questo articolo.

Per attivare la digitazione vocale in Google Docs, occorre aprire un documento nuovo o esistente e selezionare Strumenti > Digitazione vocale. Comparirà una piccola casella fluttuante con l’icona di un microfono.

Nella parte superiore della casella è presente un menu che consente di selezionare la lingua desiderata da trascrivere. Sono incluse molte varianti di inglese, spagnolo, portoghese, italiano e arabo. Per attivare la dettatura basta cliccare sul microfono e parlare come sto facendo in questo momento, visto che sto realizzando il testo grazie alla dettatura di Google Docs.

A questo punto si potrebbe pensare che la dettatura di Google Doc sia simile a quella di Windows, ma ci sono alcune differenze.

Prima di tutto la dettatura di Google Docs rimane attiva anche se digito dei tasti da tastiera: in questo modo posso modificare direttamente le parole a mano. Oppure posso selezionare una parola senza continuare ad attivare e disattivare la dettatura. Per ulteriori comandi è possibile consultare questo link.

L’evoluzione basata sull’AI

Nell’ambito degli LLM (come chatGPT) si sta discutendo molto di come fare ad eseguire ambienti protetti sul proprio computer. Il progetto di punta che ci permette di avere le funzionalità di Advanced Data Analysis (ex Code Interpreter) in locale sul nostro computer si chiama Open Interpreter.

Si usa come ChatGPT, ma può anche scrivere codice in python, javascript, R, e altri linguaggi, interagire con i software installati sul nostro computer, lavorare con i nostri dati, editare foto e video, rinominare, cancellare e spostare file e cartelle e altro. Inoltre ha accesso a internet. Per un approfondimento consigliamo di seguire questo tutorial.

Non è ancora alla portata di tutti come tecnologia, ma è un primo prototipo di personal assistant basato su LLM con dati privati. Si può utilizzare liberamente essendo reso disponibile su github.

Una sua evoluzione è l’assistente AI 01-Light di Open Interpreter che è simile il JARVIS di Iron Man (per chi non lo conoscesse in 90 secondi può aggiornarsi qui).

Jarvis e Ironman fusi da Copilot

Lo 01 Light è un dispositivo portatile di intelligenza artificiale realizzato da Open Interpreter e progettato per gestire il computer di casa con la voce da qualsiasi luogo e in qualsiasi momento.

È un dispositivo all’avanguardia nel campo del linguaggio naturale che trasforma il modo in cui gli utenti interagiscono con i computer. Grazie alla possibilità di osservare lo schermo per gestire le applicazioni in remoto, offre un controllo e una funzionalità migliori.

Il dispositivo permette ad esempio di controllare il meteo o inviare e-mail, il tutto attraverso l’interazione con il linguaggio naturale. Può anche essere addestrato per imparare cose nuove, come inviare messaggi su Slack, e può ricordare un’attività specifica per fare la stessa cosa in un secondo momento.

Come assistente personale AI open-source, lo 01 Light promette un’esperienza intuitiva e senza soluzione di continuità, segnando un salto significativo nel progresso tecnologico. L’attesa per lo 01 Light risuona in tutta la comunità tecnologica, con gli early adopter desiderosi di esplorarne il potenziale.

Alcune caratteristiche interessanti della 01 Light:

Completamente portatile, funziona con connettività Wi-Fi o hotspot.
Consente di gestire e interrogare i calendari personali.
Esegue operazioni come il recupero di informazioni e l’invio di e-mail.
Accesso e condivisione di file.
Integrazione con le applicazioni desktop.
Acquisizione di nuove competenze (la demo ha mostrato l’apprendimento nell’uso di Slack).

Per chi volesse vedere una demo è disponibile su X a questo link.

Tra i competitor vi è ad esempio Rabbit R1, presentato al CES 2024 a Las Vegas. Qui una piccola demo.

Il mondo degli assistenti digitali portatili che vuole far concorrenza agli smartphone inizia quindi a mostrarsi, grazie all’AI. I prototipi o i prodotti in vendita al momento non sono ancora entusiasmanti secondo le recensioni, ma potrebbe aprirsi un mercato nei prossimi mesi o anni a riguardo.

Conclusioni

Grazie allo sviluppo dell’intelligenza artificiale in particolare al “natural language processing” è possibile utilizzare diversi strumenti sia su smartphone sia su computer per riuscire a dettare testo mediante la voce. Questi strumenti sono si trovano individuati da un microfono di fianco agli emoticon sulla tastiera di digitazione, ad esempio per quanto riguarda gli smartphone Android. In Windows 10 e Windows 11 sono disponibili come funzionalità di Voice Typing. La dettatura è inoltre disponibile in maniera più raffinata su pc in software specifici, come ad esempio Google Docs o Word Office 365 che permette non solo di dettare testo ma ad esempio anche di formattarlo.

Un piccolo consiglio a tutti gli utilizzatori di questi strumenti: inizialmente è meglio portare un po’ di pazienza perché lo strumento non è subito perfetto nella lettura della voce. Con il tempo gli strumenti migliorano grazie al loro apprendimento oppure siamo noi umani che ci adattiamo alle loro caratteristiche (ad esempio parlando più lentamente o scandendo meglio le parole). Qualunque sia il caso, probabilmente il giusto sta nel mezzo ovvero c’è un miglioramento da entrambi i lati, la qualità della dettatura migliora sensibilmente in poco tempo e quindi diventerà sempre più comodo utilizzarla sia su smartphone sia su computer.

Sotto la pazienza rappresentata da Copilot

Smartphone

Personal Computer

L’evoluzione basata sull’AI

Conclusioni

Articoli correlati

Andrea Tironi