Skip to content
Android Blog Italia

Android Blog Italia

Tutto quello che devi sapere sul mondo Android e della tecnologia

Primary Menu
  • News
    • Visualizza Tutto
    • Smartphone
    • Tablet
    • Accessori
  • Guide
    • Visualizza Tutto
    • Programmazione
  • Recensioni
    • Visualizza Tutto
  • Applicazioni
    • Visualizza tutto
  • Giochi
    • Visualizza Tutto
  • News su Android, tutte le novità

Meta Voicebox ufficiale, è un nuovo LLM per la sintesi vocale

Redazione 17/06/2023
Meta Voicebox

Meta ha svelato Voicebox, il suo modello generativo di sintesi vocale che promette di fare per la parola parlata ciò che ChatGPT e Dall-E, rispettosamente, hanno fatto per la generazione di testo e immagini.

In sostanza, è un LLM proprio come GPT o Dall-E: invece di creare immagini in prosa o immagini però, il suo output sono clip audio. Meta definisce il sistema come “un modello di corrispondenza del flusso non autoregressivo addestrato per riempire il parlato, dato il contesto audio e il testo“.

È stato addestrato su oltre 50.000 ore di audio non filtrato. Nello specifico, Meta ha utilizzato discorsi registrati e trascrizioni da una serie di audiolibri di dominio pubblico scritti in inglese, francese, spagnolo, tedesco, polacco e portoghese. Questo set di dati diversificato consente al sistema di generare discorsi dal suono più colloquiale, indipendentemente dalle lingue parlate da ciascuna parte, secondo i ricercatori.

“I nostri risultati mostrano che i modelli di riconoscimento vocale addestrati sul parlato sintetico generato da Voicebox si comportano quasi come i modelli addestrati sul parlato reale“. Inoltre, il parlato generato dal computer ha registrato una riduzione del tasso di errore di appena l’1%, rispetto al calo dal 45 al 70% osservato con i modelli TTS esistenti.

Il sistema è stato inizialmente addestrato a prevedere i segmenti del discorso in base ai segmenti che li circondano e alla trascrizione del passaggio. “Avendo imparato a riempire il discorso dal contesto, il modello può quindi applicarlo alle attività di generazione del parlato, inclusa la generazione di parti nel mezzo di una registrazione audio senza dover ricreare l’intero input“, hanno spiegato i ricercatori di Meta.

Secondo quanto riferito, Meta Voicebox è anche in grado di modificare attivamente clip audio, eliminare il rumore dal parlato e persino sostituire le parole dette male. “Una persona potrebbe identificare quale segmento grezzo del discorso è corrotto dal rumore (come un cane che abbaia), ritagliarlo e istruire il modello a rigenerare quel segmento“, hanno detto i ricercatori, proprio come usare un software di modifica delle immagini per ripulire le fotografie.

Meta Voicebox assicura grandi risultati senza troppe fatiche nell’addestrarlo

I generatori di sintesi vocale sono in circolazione da molto: sono il modo in cui i TomTom dei tuoi genitori sono stati in grado di fornire indicazioni stradali poco chiare. Le iterazioni moderne come Speechify o Prime Voice AI di Elevenlab sono molto più capaci, ma richiedono ancora in gran parte montagne di materiale sorgente per imitare correttamente il loro soggetto, e poi un’altra montagna di dati diversi per ogni argomento su cui vuoi che venga addestrato.

Voicebox no, grazie a un nuovo metodo di formazione text-to-speech innovativo che Meta chiama Flow Matching. I risultati del benchmark non sono nemmeno vicini in quanto l’intelligenza artificiale di Meta ha superato l’attuale stato dell’arte sia in termini di intelligibilità (un tasso di errore delle parole dell’1,9% contro 5,9%) che di “somiglianza audio” (un punteggio composito di 0,681 rispetto a 0,580 della SOA), il tutto mentre funziona fino a 20 volte più velocemente dei migliori sistemi TTS di oggi.

Il progetto è ancora closed source

Al momento né l’app Voicebox né il suo codice sorgente sono open source (a differenza di molti altri progetti LLM di Meta). Meta ha citato “i potenziali rischi di uso improprio” nonostante i “molti usi entusiasmanti casi per modelli di discorso generativo.

Continue Reading

Previous: Google Maps, la Visualizzazione Immersiva arriva in Italia
Next: YouTube Music rinnova la UI prendendo spunto dal venerabile Google Play Music

Articoli Correlati

Bigme-B7-PRO-3647154032
  • News su Android, tutte le novità
  • Recensioni Android
  • Tablet Android

Bigme B7 Pro: l’e-reader a colori che vuole essere tablet (e quasi ci riesce)

-Redazione- 06/04/2026
legacy-of-kain-ascendance-129ke-2064910876
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

Recensione Legacy of Kain: Ascendance, reinventare un classico attraverso il platformer 2D

-Redazione- 01/04/2026
GRIDbeat-AnnOUNCED-517347431
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

GRIDbeat: quando il ritmo diventa un labirinto da attraversare

-Redazione- 26/03/2026

Ultime News

Bigme-B7-PRO-3647154032
  • News su Android, tutte le novità
  • Recensioni Android
  • Tablet Android

Bigme B7 Pro: l’e-reader a colori che vuole essere tablet (e quasi ci riesce)

-Redazione- 06/04/2026
In un mercato in cui e-book reader e tablet sembrano aver ormai definito confini molto chiari, il...
Leggi tutto Read more about Bigme B7 Pro: l’e-reader a colori che vuole essere tablet (e quasi ci riesce)
Recensione Legacy of Kain: Ascendance, reinventare un classico attraverso il platformer 2D legacy-of-kain-ascendance-129ke-2064910876
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

Recensione Legacy of Kain: Ascendance, reinventare un classico attraverso il platformer 2D

01/04/2026
GRIDbeat: quando il ritmo diventa un labirinto da attraversare GRIDbeat-AnnOUNCED-517347431
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

GRIDbeat: quando il ritmo diventa un labirinto da attraversare

26/03/2026
Bigme HiBreak Pro Color: lo smartphone e-ink Kaleido 3 che rivoluziona la lettura mobile thumbnailfy-1774506828122
  • News su Android, tutte le novità
  • Recensioni Android

Bigme HiBreak Pro Color: lo smartphone e-ink Kaleido 3 che rivoluziona la lettura mobile

26/03/2026
E-Ink Kaleido 3: il display che porta il colore nella lettura digitale (e rivoluziona smartphone come il Bigme HiBreak Pro Color) 90-4187810772
  • News su Android, tutte le novità

E-Ink Kaleido 3: il display che porta il colore nella lettura digitale (e rivoluziona smartphone come il Bigme HiBreak Pro Color)

25/03/2026
Copyright (c) 2025 - info@ulissepress.it | MoreNews by AF themes.
×

Questo sito utilizza i cookie, anche di terze parti, per garantirvi una esperienza di utilizzo ottimale.
Si rinvia all'informativa estesa per ulteriori informazioni. La prosecuzione nella navigazione (click, scroll, ...) comporta l'accettazione dei cookie.

 

Ok