Cuando Abdoulaye Diack, gerente de programas de Google Research, una división de Google dedicada a impulsar el estado del arte en informática y aplicar esos avances a problemas del mundo real, habla sobre los orígenes de WAXAL, un conjunto de datos de voz de código abierto de Google Research Africa, comienza con una sola palabra.
“WAXAL significa ‘hablar’”, dijo a TechCabal, señalando sus raíces en el wolof, un idioma ampliamente hablado en la región de Senegambia.
El nombre, elegido en 2020 por un investigador senegalés responsable de Google, Moustapha Cisse, refleja una verdad más amplia sobre la trayectoria de la IA en África: en un continente con más de 2,000 idiomas, la mayoría de ellos hablados en lugar de escritos, la voz no es opcional; es el punto de entrada.
Durante años, la tecnología digital se ha centrado en la alfabetización, los teclados y el texto. Pero en África, el lenguaje vive en la conversación, en mercados, granjas, clínicas y hogares. La IA, incapaz de analizar acentos, entonación o alternancia de códigos, no puede servir de forma significativa a la mayoría de los africanos. WAXAL busca cambiar esto. En lugar de centrarse únicamente en la traducción de texto, el proyecto está creando la infraestructura fundamental para la IA de voz a voz en lenguas africanas con escasos recursos, con el objetivo de construir un vasto centro de alta calidad de "materia prima" lingüística.
“Tener una IA que pueda hablarnos en nuestro idioma y entendernos, ya sea por nuestro acento o entonación, es realmente muy importante”, dijo Diack.
La desventaja de los datos
El desafío comienza con un desequilibrio marcado. Más del 50% de todos los sitios web están en inglés. y un puñado de lenguas occidentales. Las más de 2,000 lenguas de África apenas se registran en los conjuntos de datos digitales globales. La mayoría están subrepresentadas en línea. Muchas no están escritas extensamente. Algunas no están estandarizadas en absoluto.
Si los modelos de IA se entrenan con texto digital, y el texto digital apenas existe para las lenguas africanas, entonces el continente comienza la carrera de la IA con una desventaja estructural.
“Este no es un problema nuevo”, dijo Diack. “Los investigadores son conscientes de esta enorme brecha en la falta de datos”.
Sin datos, no se pueden entrenar modelos. Sin modelos entrenados, los sistemas de IA malinterpretan, traducen mal o ignoran a poblaciones enteras. Diack relata una frustración común: hablar con acento africano francófono mientras un sistema de toma de notas de IA tiene dificultades para entenderlo. La tecnología existe, pero no está adaptada al contexto local.
Esa brecha es lo que WAXAL quiere cerrar.
Construyendo una base para el discurso
Lanzado oficialmente En febrero de 2026, después de tres años de desarrollo, WAXAL produjo uno de los conjuntos de datos de habla de idiomas africanos más grandes hasta la fecha: más de 11,000 horas de habla grabada de casi 2 millones de grabaciones individuales, que abarcan 21 idiomas del África subsahariana, incluidos hausa, yoruba, luganda y acholi.
Además de la recopilación general de voz, Google afirmó haber invertido más de 20 horas de grabaciones de estudio de alta calidad para desarrollar voces sintéticas con un sonido natural para los asistentes de voz. Estas grabaciones de "estudio premium" están diseñadas para que las respuestas de la IA suenen menos robóticas y más auténticas culturalmente.
Google estructuró la iniciativa como un modelo de colaboración. Universidades como la Universidad Makerere de Uganda y la Universidad de Ghana lideraron gran parte de la recopilación de datos. Los socios locales conservan la propiedad de los conjuntos de datos, que se han publicado como código abierto bajo licencias que permiten su uso comercial.
“Principalmente, hemos proporcionado orientación y financiación”, explicó Diack. “Todo este conjunto de datos no nos pertenece. Pertenece a los socios con los que trabajamos”.
La ambición no es sólo alimentar los propios productos de Google, sino sembrar un ecosistema.
A los pocos días de su lanzamiento, el conjunto de datos registró más de 4,000 descargas, una señal temprana de aceptación por parte de investigadores y desarrolladores, según Diack.
Por qué es importante la voz
Google ya ofrece herramientas de traducción en muchos idiomas. ¿Para qué empezar desde cero?
Porque la traducción no es habla.
La traducción automática tradicional se basa en "texto paralelo", es decir, oraciones escritas en un idioma que coinciden con sus equivalentes en otro. En el caso de idiomas con recursos limitados, estos corpus paralelos apenas existen. E incluso cuando la traducción funciona, no resuelve el problema de fondo: muchos africanos interactúan con la tecnología principalmente a través del habla.
“Mucha gente no sabe leer ni escribir en el continente”, dijo Diack. “La voz es básicamente la puerta de entrada a la tecnología”.
Imaginemos a un agricultor de Kaduna preguntando por el pronóstico del tiempo en hausa. O a una madre de una aldea rural de Ghana buscando consejos nutricionales en su lengua materna. Los sistemas basados en texto presuponen alfabetización y ortografía estandarizada. Los sistemas de voz deben gestionar dialectos, jergas, alternancia de códigos y patrones de habla atípicos.
En Ghana, un proyecto de reconocimiento de voz, Iniciativa UGSpeechData, produjo más de 5,000 horas de datos de audio. Esta iniciativa permitió posteriormente el desarrollo de un chatbot de salud materna que opera en idiomas locales. También se extendió al trabajo sobre el habla atípica, ayudando a comunidades de personas sordas y sobrevivientes de accidentes cerebrovasculares cuyos patrones de habla a menudo confunden a los sistemas de IA convencionales.
“Los sistemas de IA no están adaptados a eso”, dijo Diack. “Si hablas de forma diferente, es probable que el sistema no te entienda”.
Un campo abarrotado
Google no está solo en esta carrera.
Masakhane, un colectivo de investigación de código abierto de base, ha desarrollado sistemas de traducción en más de 45 idiomas africanos y Lulu, un referente para evaluar modelos lingüísticos africanos. Su filosofía es comunitaria y totalmente abierta.
La empresa sudafricana Lelapa AI, fundada por antiguos investigadores de DeepMind, se centra en productos comerciales de procesamiento del lenguaje natural (PLN) para empresas africanas. Su modelo estrella, Vulavula, captura dialectos y patrones de alternancia de código urbano en isiZulu, sesotho y afrikáans. Lelapa prioriza conjuntos de datos de "verdad fundamental" y un análisis exhaustivo de errores humanos, un enfoque costoso pero de alta fidelidad.
Lesan AI en Etiopía ha construido algunos de los sistemas de traducción más precisos para amárico, tigriña y oromo utilizando un modelo de intervención humana para garantizar los matices culturales.
Proyecto Ningún idioma se queda atrás (NLLB-200) de Meta adopta un enfoque a gran escala, traduciendo a 200 idiomas, incluidos 55 africanos, utilizando el aprendizaje de cero disparos. Microsoft, por su parte, integra idiomas africanos en Microsoft Translator y está invirtiendo en conjuntos de datos agrícolas multimodales a través de proyectos como Gecko.
El proceso de African Next Voices, financiado por la Fundación Gates Iniciativa lanzada a finales de 2025, que produce 9,000 horas de datos de voz en 18 idiomas.
El ecosistema es diverso: colectivos de código abierto, startups comerciales, gigantes tecnológicos, financiadores filantrópicos. Cada uno aborda el problema de forma diferente: escala versus profundidad, texto versus voz, abierto versus propietario.
La distinción de Google reside en su enfoque orientado al ecosistema y basado en el discurso.
Soberanía versus parálisis
Sin embargo, la participación de gigantes tecnológicos globales inevitablemente plantea preguntas sobre la soberanía y la dependencia de los datos.
Si Google coordina la publicación de conjuntos de datos de voz multilingües, ¿se genera una dependencia estructural de los productos de Google? ¿Podrían los desarrolladores locales volverse dependientes de las herramientas integradas en Gemini, la Búsqueda o Android?
Diack reconoce la tensión pero advierte que no hay que entrar en un conflicto tal que no se haga nada frente a la oportunidad que se presenta.
“Lo más importante es que no nos quedemos atrás”, dijo. “Definitivamente no quiero que mis datos se usen indebidamente. Pero se trata de permitir que emprendedores, startups e investigadores trabajen con datos realmente importantes”.
Establece paralelismos con las colaboraciones entre universidades y empresas tecnológicas en Estados Unidos y Europa. Argumenta que la colaboración acelera el desarrollo de capacidades. Investigadores que participaron en proyectos iniciales ya han publicado artículos y han ascendido a puestos de investigación globales.
El modelo de licencias abiertas es fundamental para este argumento. Los desarrolladores pueden crear productos comerciales a partir de conjuntos de datos WAXAL sin depender de las API propietarias de Google. Google también ha lanzado modelos de traducción de peso abierto como Translate Gemma, que pueden descargarse y ajustarse de forma independiente.
Queda por ver si ese equilibrio satisface a los críticos. Pero la magnitud de la brecha lingüística sugiere que la inacción puede conllevar mayores riesgos.
Infraestructura: el prerrequisito silencioso
La IA de voz no existe de forma aislada. Requiere conectividad, ancho de banda e infraestructura informática.
"Realmente no se pueden entrenar modelos de IA sin la infraestructura adecuada", afirmó Diack.
Google ha invertido en cables submarinos, incluidos Aterrizaje del cable Equiano en Nigeria y otros mercados africanos, para fortalecer la resiliencia de la banda ancha. Los cortes de fibra en los últimos años expusieron la fragilidad de las redes regionales. Una infraestructura redundante y de alta capacidad es esencial no solo para los servicios en la nube, sino también para los centros de datos locales, un pilar clave de la soberanía digital.
El desarrollo de la IA se basa en tres pilares: las personas, los datos y la infraestructura. La población joven de África, que se prevé que represente una gran proporción de los usuarios globales de IA en las próximas décadas, ofrece una ventaja demográfica. Sin embargo, sin inversión en capacidad de investigación e infraestructura digital, el potencial demográfico no se traducirá en liderazgo tecnológico.
El desafío de la coordinación
Para evitar la fragmentación, Google ha pasado de las colaboraciones aisladas con universidades a modelos de colaboración más coordinados. Una de estas iniciativas consiste en colaborar con el centro lingüístico de Masakhane y otras redes de voluntarios para que investigadores y startups puedan solicitar financiación y contribuir a conjuntos de datos compartidos.
“Si cada uno hace lo suyo en el continente, no será efectivo”, dijo Diack. “Necesitamos un esfuerzo concertado”.
Hasta ahora, WAXAL ha cubierto 27 idiomas, incluidos cuatro nigerianos. Algunos de los idiomas ya cubiertos incluyen acholi, akan, dagaare, dagbani, dholuo, ewe, fante, fulani (fula), hausa, igbo, ikposo (kposo), kikuyu, lingala, luganda, malgache, masaaba, nyankole, rukiga, shona, soga (lusoga), swahili y yoruba.
La ambición de abordar las más de 2,000 lenguas africanas es una aspiración, tal vez generacional.
"Ese es mi sueño", dijo Diack.
Pero la priorización es importante. Señala la educación, la agricultura y la salud como ámbitos críticos donde la IA de voz podría generar un impacto medible, alineado con los objetivos de desarrollo sostenible.
Las previsiones meteorológicas integradas en la Búsqueda de Google, mejoradas gracias a iniciativas de investigación africanas, ya demuestran tener repercusiones globales. Proyectos de detección de enfermedades de la yuca como PlantVillage Nuru Desarrolladas mediante una colaboración entre la Universidad Estatal de Pensilvania, el Instituto Internacional de Agricultura Tropical (IITA) y el Grupo Consultivo para la Investigación Agrícola Internacional (CGIAR), han influido en la IA agrícola más allá de África. Estos precedentes sugieren que las soluciones diseñadas para África pueden escalarse globalmente.
El costo de la IA que prioriza a los indígenas
La recopilación de datos de voz en entornos de bajos recursos es costosa. Las grabaciones de campo, la transcripción, la validación lingüística y la síntesis de voz con calidad de estudio requieren una financiación sostenida.
La inversión de Google es parte de un cambio más amplio en la industria, que pasa de extraer el texto disponible a invertir en datos de voz originales. Modelo de verificación con intervención humana de Lelapa AI Subraya el coste de la precisión. Conjunto de datos FLORES-200 de Meta confió en traductores profesionales. Iniciativas de voz agrícola de Microsoft Implica miles de vídeos anotados.
La calidad importa. Las voces sintéticas deben sonar naturales. Los sistemas de reconocimiento deben gestionar la alternancia de códigos. El habla urbana suele combinar inglés, idiomas locales y jerga en la misma oración.
La IA africana no puede construirse únicamente mediante la automatización; se requeriría experiencia cultural y lingüística.
Para Diack, el éxito no se mide únicamente por la integración de productos.
"Quiero ver startups que aprovechen el conjunto de datos para ofrecer servicios en idiomas locales", dijo. "Quiero ver investigadores escribiendo artículos basados en nuestros idiomas, no solo en inglés".
En última instancia, sin embargo, la puerta que Google está construyendo debe conducir a algo tangible. Esto incluye productos de Google: Búsqueda, Gemini, asistentes de voz, que interactúan con fluidez en yoruba, wólof, hausa o luganda. Pero también incluye startups independientes que desarrollan herramientas fintech, chatbots de salud o sistemas de asesoramiento agrícola.
En todo caso, el futuro de la IA en África depende de si la voz se convierte en una fuerza igualadora o en otra oportunidad perdida. Si los sistemas globales siguen sin reconocer el habla, miles de millones de palabras que se pronuncian a diario en todo el continente permanecerán digitalmente invisibles.
















