
Il riconoscimento vocale è qualcosa che diamo per scontato da molto tempo. È un processo complicato, tuttavia, al punto che tutto il lavoro viene eseguito in remoto sui server delle aziende che offrono il servizio e il risultato finale viene inviato ai nostri dispositivi via Internet. Ma Google ha elaborato un modo per ridurre il processo al punto da poterlo eseguire localmente, e i frutti di quel lavoro stanno arrivando a Gboard.
Senza compressione, i modelli che Gboard utilizza tradizionalmente per il riconoscimento vocale occupano circa 2 GB. Sono molto grandi da archiviare su uno smartphone, quindi quando si tocca l’icona del microfono, la voce registrata viene inviata ai server di Google per essere convertita in testo, quindi il testo viene analizzato e inviato indietro.
Google è stata in grado di creare un modello più piccolo, altrettanto efficace, utilizzando la tecnologia dei traduttori di rete neurale ricorrente. Il nuovo modello è in grado di funzionare localmente sul dispositivo con la stessa accuratezza di quelli basati su server, ma occupa ancora 450 MB di spazio di archiviazione – non abbastanza piccolo da poter essere archiviato localmente sulla maggior parte degli smartphone.
Attraverso un processo chiamato quantizzazione del modello, Google è riuscita a ridurre ulteriormente le dimensioni, portandole a circa 80 MB.
Come spesso accade per novità del genere, il nuovo modello di riconoscimento in locale è inizialmente disponibile solo per la lingua inglese e solo per i dispositivi Pixel. È molto probabile però che in futuro il modello di riconoscimento vocale offline venga aperto a tutti e, si spera, anche alla lingua italiana.