Inteligencia artificial para ser bilingüe
APLICACIONES Proliferan las plataformas que permiten traducir de forma instantánea tanto textos como audios.
Esta semana, el foco mediático tecnológico ha estado puesto sobre Samsung. El gigante coreano ha presentado en San José, California, su nueva familia de teléfonos estrella, los Galaxy S24, dejando claro que la inteligencia artificial generativa es la prestación por la que va a apostar la compañía en sus nuevos dispositivos prémium durante los próximos meses para intentar facilitar la vida a los usuarios.
Hasta el momento, esa labor de la inteligencia artificial se centraba en la cámara fotográfica, pero desde ahora también va a convertir el dispositivo móvil en una especie de intérprete multilingüe que nos acompañará a todas partes. Por ejemplo, con los nuevos Galaxy S24 el usuario puede realizar una llamada a una persona que sólo hable italiano y el terminal podrá ir traduciendo instantáneamente a ambas personas para que los dos interlocutores se entiendan. Esta función también la hace en persona, dejando que el teléfono escuche y vaya traduciendo sin problemas, e incluso con textos en plataformas como WhatsApp o grabaciones de reuniones en otro idioma, que se transcriben al español en cuestión de segundos.
Estas novedades de Samsung se suman a una larga lista de empresas que están convirtiendo la inteligencia artificial en su aliada para la traducción instantánea. De hecho, la posibilidad de traducir a centenares de idiomas al momento, sin casi retardo en la locución, parece que es algo que la inteligencia artificial ya tiene bastante dominado, por lo que algunas compañías van más allá.
Meta anunció en agosto del año pasado su modelo SeamlessM4T capaz de convertirse en un intérprete multimodal (puede traducir de voz a texto, de texto a voz, de voz a voz y de texto a texto) y multilingüe, con hasta cien idiomas. Para crearlo, desde Meta aseguran que han tenido que analizar miles de millones de oraciones de texto y cuatro millones de horas de registros de voz extraídos de la web. Lo cierto es que los resultados que han mostrado de momento son bastante llamativos, y la compañía liderada por Mark Zuckerberg asegura que aplicará este modelo multilingüe a todas sus plataformas, como WhatsApp o Instagram.
Otros gigantes como Google llevan años trabajando en la traducción con herramientas tan conocidas como Google Translate. Esta plataforma que también funciona como aplicación en los teléfonos móviles trabaja desde hace años gracias a la inteligencia artificial, pero con las nue
vas apuestas de la compañía por la versión generativa, Translate mejorará para entender el contexto de las peticiones de traducción que recibe y dar respuestas más ajustadas a cada momento o realidad. Asimismo, desde hace tiempo Google ya utiliza esta tecnología en sus traducciones junto con la realidad aumentada, por ejemplo al poder realizar una fotografía de un texto y traducir al instante sobre ese mismo texto al idioma que se desee.
Con el boom de la inteligencia artificial, el gigante de Mountain View perfeccionará aún más estos resultados, tanto de imágenes como de textos o voz y, según anunció, dará también traducciones alternativas y definiciones del diccionario, para dar información más completa.
Un gran rival de Google es DeepL, que también funciona desde hace años con inteligencia artificial. Esta herramienta es capaz de traducir textos con bastante precisión pero también lo hace con archivos enteros de forma muy sencilla. Otra propuesta es la posibilidad de escribir un texto y su función DeepL Writer ayudará a mejorar en la escritura, por ejemplo encontrando el tono más adecuado, corrigiendo errores gramaticales o de puntuación o simplemente buscando nuevas formas para expresar una idea. Un ayudante que funciona en 31 idiomas y cuenta con un modo automático que detecta el idioma en el que se escribe al instante.
Otra herramienta que funciona como un intérprete también gracias a la inteligencia artificial es Kudo. Esta plataforma que en un principio era una red de intérpretes (humanos), ha dado un paso más integrando la tecnología de moda para conseguir que casi cualquier idioma se pueda traducir al momento. En concreto, Kudo AI permite traducciones online durante videollamadas. Y no hablamos de los típicos subtítulos que ya se pueden usar en muchas plataformas de videollamadas, sino de una traducción simultánea mediante voz.
Aunque esta plataforma cuenta con su propia web de llamadas mediante vídeo, y es donde funciona mejor la traducción que propone, también está integrada en Microsoft Teams. El único problema es que el retraso del intérprete digital es mayor que si se tratara de una persona, unos diez segundos, pero su funcionamiento es muy práctico.
La voz
Siguiendo la línea de grandes empresas tecnológicas, Microsoft tampoco ha querido perderse la fiesta de la traducción multimodal gracias a la inteligencia artificial y el año pasado anunció Vall-E, una inteligencia artificial generativa de voz políglota. En concreto, este modelo se basa en una red neuronal que puede replicar la voz de un usuario a la perfección con una muestra de audio de tres segundos. Es decir, un usuario habla a Vall-E durante tres segundos y él es capaz de quedarse con el tono de voz de esa persona para posteriormente crear audios de todo tipo, en su idioma o en muchos otros. Además, está pensado para que pueda crear imitaciones donde se exprese sentimiento e incluso diferentes tonos de voz.
Este avance sin duda plantea importantes dudas y problemas sobre la suplantación de identidad, pues no son pocos los famosos, entre otros, que ya han sufrido este tipo de doblajes falsos. Quizás sea por ello que Microsoft todavía tiene a Vall-E en el cajón esperando a ponerlo definitivamente en marcha.
Los que sí que ofrecen ya este tipo de doblajes de voz en diferentes idiomas son los creadores de Rask AI. Esta plataforma puede usarse para traducir vídeos al instante y de forma muy sencilla, pero lo interesante es que es capaz de sincronizar muy bien el audio con la boca del interlocutor para que parezca que habla el nuevo idioma al que se está traduciendo. Ellos mismos se autoproclaman como la herramienta más potente de doblaje del momento, y lo cierto es que es bastante sorprendente el uso de la inteligencia artificial en esta plataforma para traducir a más de 135 idiomas cualquier vídeo. Su funcionamiento se basa en la versión generativa y cuenta con un algoritmo de aprendizaje profundo para crear voz artificial. Como ocurre con todas estas tecnologías, funciona mediante el aprendizaje constante gracias a los datos que va recibiendo de cada doblaje que realiza, y sus creadores aseguran que en un futuro podrán realizar el doblaje con la misma voz que la original, tal y como propone Microsoft.
Samsung ha presentado esta semana sus nuevos Galaxy S24, capaces de traducir llamadas
DeepL propone traducción de textos y de archivos, pero también un asistente que mejora escritos
Microsoft presentó en 2023 una herramienta capaz de replicar la voz humana y traducirla