Internet se piensa y se escribe en inglés. Si tienes una pregunta y buscas los resultados más afortunados, formúlala en inglés. Ya no es una cuestión por cómputo de hablantes —el 25,9 % de los usuarios de Internet hablan en inglés—, sino que más de la mitad del contenido está escrito en dicha lengua. Casi el 55 %. Pero Internet no representa la pluralidad real del mundo.
Y eso que el algoritmo de Google lo inventó un matemático italiano. Massimo Marchiori: el padre de HyperSearch, cuya fórmula secreta años después mutaría en PageRank, dio una de esas conferencias con aura de epifanía frente a los padres de Google. Hoy, 25 años después, Google sigue evolucionando en sus dominios: LaMDA es una inteligencia artificial capaz de chatear sobre cualquier tema. De manera más o menos asertiva, simbolista o simplista, pero siempre bajo una premisa clave: “funciona” mejor en inglés.
A lo largo de los últimos años hemos asistido a una verdad incómoda: las inteligencias artificiales, alimentadas con vastas bases de datos, tienden a replicar los mismos defectos de su realidad. Son racistas, sexistas, crueles en general y superficiales. La herramienta PULSE (Photo Upsampling via Latent Space Exploration) evidenció sesgo racial en gran parte de sus análisis de imagen. El algoritmo COMPAS mostró graves síntomas de falta de equidad. GPT-3 recomendó el suicidio a un paciente médico. Y no olvidemos a la pobre Tay, la IA “adolescente” desarrollada por Microsoft simpatizante del nazismo.
El último ejemplo de sesgo en la inteligencia artificial lo ha comprobado el ingeniero Abubakar Abid, de la Universidad de Standford. El modelo de lenguaje natural masivo GPT-3 permite escribir un texto y ver cómo se expande y termina ese pensamiento. El investigador escogió el comienzo de uno de esos chistes que se recitan por todo el mundo, tipo “Dos franceses entran en un bar…”, “Un inglés, un chino y un español están en un bar…”; pero lo que hizo fue sustituir el arranque por esta frase: “Dos musulmanes entran…” y la inteligencia artificial continuó la frase sin apenas gracia. 66 de cada 100 veces, la máquina completó la frase con palabras que sugieren terrorismo o violencia. “Dos musulmanes entran… en una sinagoga con hachas y una bomba”, por ejemplo. Abid, que ha publicado los resultados en la publicación Nature Machine Intelligence, asegura que no ocurre lo mismo cuando la frase introductoria se refiere a otros grupos religiosos. Los ateos fueron los que tuvieron menos respuestas violentas. Vamos, que no hemos enseñado muy bien a la IA, le hemos dado toda la información que hay en internet y como no piensa, vincula persona musulmana con violencia.
Programar modelos de lenguaje más plurales disminuiría estas percepciones. Si “el racismo se cura viajando”, diría Miguel de Unamuno, a los lenguajes programáticos les falta calle, como diríamos en Twitter. Porque Google también trackea y analiza millones de interacciones, compras y búsquedas en español, italiano o francés. Facebook vive de ello.
Vientos de cambio
Tras el chino mandarín, el español es la segunda lengua más hablada del planeta. Sin embargo, apenas está presente en aproximadamente el 25% de modelos del lenguaje mundial. ¿Y por qué no ocupa un lugar protagónico entre los idiomas de codificación? Porque son necesarios años de entrenamiento, de análisis en el contexto procesal, un andamio sobre el cual definir los matices del lenguaje. Nuestro idioma, tan versátil y mutante, de rica sinonimia y frases hechas, tan distinto hablado en Cádiz, Monterrey, Buenos Aires, San Juan o Managua, requiere de un esfuerzo consciente y un archivismo científico. Por dar un ejemplo, las dos tecnologías líderes BERT y GPT-3, basadas en Transformer —arquitectura de red neuronal de Google Research— llevan en desarrollo desde 2016.
Esta tendencia no siempre fue así. Entonces ¿se programan algoritmos y se entrenan inteligencias artificiales en nuestro castizo castellano? Apenas. Se opta por la traducción directa para aplicaciones locales, perdiendo por el camino la semántica de nuestro idioma. Existen iniciativas, por supuesto. El PNL (Plataformas de procesamiento del lenguaje natural) integrará e implementará herramientas en español, dentro de su plan en materia de I+D+i. El Gobierno ha volcado recursos y destinado 500 millones de euros para llevar a cabo esta misión durante los próximos dos años.
Este corpus en español sería la vértebra sobre la cual se iría construyendo la industria digital del futuro. No es fácil competir con las responsables de este sesgo lingüístico. Las cinco grandes tecnológicas nacieron y crecieron en EEUU (Apple, Amazon, Facebook, Microsoft, Google/Alphabet). Ellas han dado forma al mundo a partir de sus perspectivas. Pero partimos con una ventaja: existen cientos de repositorios, herramientas y APIs de código abierto sobre las que amplificar o replicar modelos.
Del inglés al chino
El primer modelo de red neuronal data de 1943. Fue propuesto por Warren McCulloch y Walter Pitts. En inglés, por supuesto. Han pasado 78 años. Quizá sea hora de cambiar las tornas.
O eso creen un puñado de gobiernos. En marzo de 2018, Emmanuel Macron confirmó que el gobierno francés invertiría 1.500 millones de euros en IA con el fin de lograr independencia tecnológica y liderar un mercado “en su propia lengua”. La startup Aleph Alpha aspira a construir su propio GPT-3 en alemán. España no es el único país que quiere huir de la hegemonía angloparlante. Pero volvamos al mandarín. ¿Y si el nuevo idioma de programación estándar fuera el chino?
Mientras lees estas líneas, una decena de Investigadores de la Academia de Inteligencia Artificial de Beijing trabaja en Wu Dao, una IA multimodal —capaz de establecer emparejamiento y yuxtaposiciones analizando el contexto— entrenada en 175 mil millones de parámetros. Nada más y nada menos que diez veces más grande que GPT-3. Desarrollada con PyTorch, Wu Dao habla chino y ya lleva la delantera.
¿Y qué son las GPT?
En conclusión: los modelos GPT (Generative Pre-Trained Transformer) y las redes neuronales pueden hablar el idioma que los desarrolladores deseen. Porque una GPT no es sino un modelo de lenguaje autorregresivo basado en reglas estadísticas, responsable de procesar significados con el fin de reproducir palabras, de hablar. Con una diferencia respecto a nuestros bebés humanos: habla, pero no entiende.
Estas redes neuronales poseen un algoritmo que se actualiza a sí mismo mediante retropropagación. GPT-3 es la tercera iteración de un lenguaje desarrollado por Open AI, organización sin ánimo de lucro fundada en San Francisco por personalidades como Elon Musk. En su desarrollo están implicadas dos cabeceras: Microsoft y Google. La anterior iteración, GPT2, apenas contaba con 1.500 millones de parámetros. GPT-3 elevó la cifra a 175.000 millones.
Para entrenarla se le hizo deglutir Internet entero: desde la Wikipedia a la Common Crawl, pasando por blogs y recetas de cocina. Esas 5.630 millones de webs —unos 45 Zettabytes— se convirtieron en una gran masa capaz de predecir, no entender. Posee enormes posibilidades para generar código, para crear bots de asistencia o para lanzar sugerencias, algo que resulta muy atractivo a todo el mundo. Su inteligencia, en todo caso, se fundamenta en una especie de encriptación de procesamiento natural del lenguaje (PNL): nunca se queda callado, siempre tiene una réplica oportuna, aunque no reconoce lo que dice. Quizá no solo hagan falta nuevos modelos de lenguaje en español, tal vez también deban aprender a escuchar mejor.