A volte vuoi mettere qualcosa per iscritto, ma non vuoi che resti in giro su Internet affinché qualche hacker possa vederlo. Forse è una conversazione con il tuo medico o avvocato. Forse sei un giornalista e questa è un’intervista delicata. La privacy e il controllo sono importanti.

Questo desiderio di privacy è uno dei motivi per cui lo sviluppatore francese Mistral AI ha costruito i suoi ultimi modelli di trascrizione in modo che siano sufficientemente piccoli. eseguire sui dispositivi. Possono essere eseguiti sul tuo telefono, laptop o nel cloud.

Voxtral Mini Trascrizione 2Uno dei nuovi modelli annunciati mercoledì è “super, super piccolo”, ha affermato Pierre Stock, vicepresidente delle operazioni scientifiche di Mistral. Un altro nuovo modello, Voxtral Realtime, può fare la stessa cosa ma trasmettere in streaming dal vivo come sottotitoli.

La privacy non è l’unica ragione per cui l’azienda vuole costruire piccole strutture modelli open source. Questi modelli possono funzionare più velocemente eseguendo direttamente sul dispositivo che stai utilizzando. Non è più necessario attendere che i file viaggino su Internet fino al data center e ritorno.

“Quello che vuoi è che la trascrizione avvenga molto vicino a te”, ha detto Stock. “E la cosa più vicina che possiamo fornirti è qualsiasi dispositivo edge, ad esempio un laptop, un telefono, un dispositivo indossabile come uno smartwatch.”

La bassa latenza (leggi: alta velocità) è particolarmente importante per la trascrizione in tempo reale. Stock ha affermato che il modello Voxtral Realtime può produrre con una latenza inferiore a 200 millisecondi. Puoi trascrivere le parole di chi parla alla stessa velocità con cui le leggi. Non devi più aspettare due o tre secondi affinché i sottotitoli raggiungano.

Guarda questo: Carenza di chip che colpisce gli iPhone, OpenAI ha interrotto gli investimenti, accuse di censura su TikTok | La tecnologia oggi

Il modello Voxtral Realtime è disponibile tramite l’API di Mistral e Abbracciandoti sul visoinsieme a una dimostrazione Dove puoi provare?

In alcuni brevi test, ho scoperto che il rendering era abbastanza veloce (anche se non così veloce come ci si aspetterebbe dal dispositivo) e sono riuscito a catturare con precisione ciò che stavo dicendo in inglese con un po’ di spagnolo mescolato. Secondo Mistral, attualmente può gestire 13 lingue.

Voxtral Mini Transcribe 2 è disponibile anche tramite l’API dell’azienda, oppure puoi giocarci un po’. Studio di intelligenza artificiale di Mistral. Ho usato questo modello per trascrivere la mia intervista con Stock.

L’ho trovato veloce e abbastanza affidabile, anche se ha avuto problemi con nomi propri come Mistral AI (che chiama Mr. Lay Eye) e Voxtral (VoxTroll). Sì, il modello AI ha scritto male il proprio nome. Ma Stock ha affermato che gli utenti possono personalizzare il modello per comprendere meglio determinate parole, nomi e gergo se lo utilizzano per attività specifiche.

La sfida di costruire modelli di intelligenza artificiale piccoli e veloci è anche quella di dover essere accurati, ha affermato Stock. L’azienda ha evidenziato le prestazioni dei modelli nei benchmark che hanno mostrato tassi di errore maggiori rispetto ai concorrenti.

“Non basta dire OK, farò un piccolo modello”, ha detto Stock. “Ciò di cui hai bisogno è un modello piccolo con la stessa qualità dei modelli più grandi, giusto?”


Link alla fonte: www.cnet.com