El proyecto de Meta comprende la liberación de sus nuevos modelos de lenguaje al público a través del servicio de alojamiento de código GitHub. El objetivo es que los desarrolladores que trabajan en diferentes lenguajes puedan construir nuevas y variadas aplicaciones de voz.
Para llevar a cabo esta tarea, los nuevos modelos de Meta fueron entrenados en dos conjuntos de datos: uno que contiene grabaciones de audio del Nuevo Testamento de la Biblia en 1.107 idiomas y otro que incluye grabaciones de audio sin etiquetar del Nuevo Testamento en 3.809 idiomas.
La falta de datos es un desafío común en el campo de la IA. “Para el inglés, tenemos muchos y muy buenos conjuntos de datos, y los tenemos para algunos otros idiomas, pero simplemente no los tenemos para idiomas que son hablados por, digamos, 1.000 personas”, explicó Michael Auli, científico de investigación en Meta que trabajó en este proyecto.
Los investigadores ahora afirman que sus modelos pueden conversar en más de 1.000 idiomas y reconocer más de 4.000. Este logro es especialmente significativo si se tiene en cuenta que hay alrededor de 7.000 idiomas en el mundo.
Además, en comparación con modelos de empresas rivales, incluyendo OpenAI Whisper, la versión de Meta tuvo la mitad de tasa de error, a pesar de cubrir 11 veces más idiomas.
Según la Sociedad Bíblica Unida, hasta la fecha, la Biblia completa ha sido traducida a más de 700 idiomas. Sin embargo, este número crece de manera exponencial si consideramos los libros individuales de la Biblia. Cuando se incluyen porciones individuales y libros completos de las Escrituras, el número de traducciones se eleva a más de 3.400 idiomas.
El Nuevo Testamento, la parte de la Biblia que relata la vida, enseñanzas y obra de Jesucristo, ha sido traducido a más idiomas que el Antiguo Testamento. Hasta la fecha, ha sido traducido a más de 1.500 idiomas. Este esfuerzo ha llevado a un impulso continuo de traducción en muchos idiomas minoritarios y en peligro de extinción.
Lógicamente, la traducción de la Biblia a tantos idiomas no está exenta de desafíos. Cada idioma tiene sus propias particularidades, con diferentes formas de expresar ideas y conceptos. Esto significa que, en muchos casos, los traductores deben esforzarse por encontrar las palabras y frases correctas para transmitir con precisión los mensajes y significados originales de los textos bíblicos, por lo que es difícil tratarlo como fuente perfecta para entrenamiento de IA.
No todo es perfecto. Los científicos admiten que sus nuevos modelos pueden transcribir incorrectamente algunas palabras o frases, y que sus modelos de reconocimiento de voz arrojaron palabras más sesgadas que otros modelos, aunque sólo un 0,7% más.
Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento de lenguaje natural para idiomas africanos, quien no estuvo involucrado en el proyecto, dijo que el uso de textos religiosos para entrenar los modelos puede ser problemático. Según él, “la Biblia tiene mucho sesgo y tergiversaciones”.
Este proyecto de Meta plantea una pregunta clave: ¿Estamos ante un avance significativo para los modelos de lenguaje o la polémica que lo rodea lo hace menos impactante?
Fuente: wwwhatsnew.com