A era da inteligência artificial (IA) pode ser marcada por avanços tecnológicos, mas também por um desafio surpreendente: a falta de representação de muitas línguas africanas em modelos de linguagem grandes (LLMs). Enquanto ChatGPT reconhece apenas 10-20% das frases em Hausa, uma língua falada por 94 milhões de pessoas na Nigéria, projetos inovadores estão mudando esse cenário.
Em um esforço coordenado, especialistas em linguística têm registrado 9.000 horas de áudio de falantes de diferentes línguas africanas, transformando esses dados em conjuntos linguisticamente adequados para IA. Este projeto, conhecido como African Next Voices, é o maior iniciativa de criação de dados linguísticos para múltiplas línguas africanas.
Os dados serão de acesso público, permitindo que desenvolvedores os incorporem em modelos de IA, como aqueles que convertem fala em texto ou fornecem tradução automática. Ife Adebara, chefe de tecnologia da organização não lucrativa Data Science Nigeria, destaca a importância deste trabalho: "É fascinante ver as melhorias que isso vai trazer para o modelamento dessas línguas específicas e como ajudará toda a comunidade trabalhando em tecnologias linguísticas na África."
O projeto envolve 18 línguas faladas em três países: África do Sul, Quênia e Nigéria. As gravações são transcritas e traduzidas por native speakers, revisadas e verificadas pela equipe. Em Kenia, por exemplo, participantes foram mostrados imagens e pedidos para descrever o que viam, ajudando a construir bases de dados de linguagem cotidiana.
"A necessidade de capturar as pessoas em seus contextos locais é crucial", explica Lilian Wanzare, cientista computacional na Universidade de Maseno. "Se você cria um modelo para agricultores ajudarem na tomada de decisões, isso depende de dados locais, como condições do solo e pesticidas que funcionam na área."
Sanjay Jain, da Fundação Bill e Melinda Gates, destaca que a subrepresentação de línguas locais em modelos de IA ainda é um desafio significativo. O projeto foi financiado com US$ 2,2 milhões.
No final do dia, parece que a IA não é apenas uma questão tecnológica, mas também cultural e humana. Ao preservar e valorizar as línguas africanas, estamos não só melhorando tecnologias, mas também celebrando a diversidade linguisticamente rica do continente.