As muitas línguas que faltam na Internet

O inglês e mais algumas línguas dominam a Internet, mas isso está a tirar a voz às culturas indígenas online. Agora, elas estão a lutar para colocar as suas línguas na Internet.

Imagine que a sua rede social favorita não o deixa publicar na sua língua. Agora imagine um teclado que não lhe permite escrever as suas palavras. Teria duas opções: mudar para outra língua ou permanecer em silêncio no mundo digital.

Esta é a realidade para a maioria das pessoas que falam línguas e dialetos indígenas.

As muitas línguas que faltam na Internet

Existem mais de 7.000 línguas e dialetos no mundo, e, no entanto, o conteúdo publicado online só está disponível em 7% deles. Quem o diz é a Whose knowledge?, uma campanha que tem como objetivo chamar a atenção para a comunidades que são marginalizadas online.

Embora o Facebook suporte até 111 línguas, o que a torna na rede social mais multilingue da Internet, um inquérito publicado pela Unesco em 2008 concluiu que 98% das páginas web da Internet são publicadas em apenas 12 línguas e que mais de metade desse conteúdo está em inglês. Isto reduz a diversidade linguística online para poucas línguas, o que dificulta o seu acesso às pessoas que falam uma das línguas excluídas da Internet.

As muitas línguas que faltam na Internet

A comunidade Kaqchikel Mayan da Guatemala tem mais de meio milhão de falantes. Miguel Ángel Oxlaj Kumez é um dos seus membros e um dos organizadores do primeiro Festival de Línguas Indígenas da América Latina na Internet, que se realizou em 2019.

“Quando estou na Internet, vejo que mais de 90% do conteúdo está em inglês e uma percentagem significativa em espanhol e outras línguas,” disse ele, “Por isso o que tenho de fazer é mudar para outra língua, o que favorece a secundarização da minha própria língua.”

“Descredibiliza a minha própria língua porque, se não está na Internet, então não é válida, então não funciona e, por isso, para que vou continuar a aprendê-la? Porque é que vou ensiná-la os meus filhos se, quando eles vão para a Internet, ou ligam a televisão, não a encontram lá?” 

Oxlaj Kumez está a trabalhar em conjunto com outros ativistas para criar uma versão em Kaqchikel Mayan da Wikipédia e também uma versão traduzida do browser Web Firefox da Mozilla. O sonho dele é conseguir ter uma “vida digital na minha própria língua e, quando decidir passar para outra língua, quero que seja por vontade própria”.

Não é o único com esse sonho. Em 2003, a Unesco adotou a recomendação de promover o uso do multilinguismo online. Desde então, a organização tem incentivado a universalidade da Internet, principalmente no que diz respeito às línguas indígenas. 

O primeiro problema e, provavelmente, o mais desafiante, é o acesso. Segundo as estatísticas mundiais da Internet, apenas 58% da população mundial tem acesso à infraestrutura online. E, embora 76% da população cibernética viva na África, Ásia Médio Oriente, América Latina e Caraíbas, a maioria do conteúdo online vem de outros sítios.

Vejamos a Wikipédia, por exemplo, onde mais de 80% dos artigos são escritos na Europa e América do Norte. O mesmo acontece com 75% dos domínios mais procurados da web, desde o .com até ao .org, que vêm das mesmas duas regiões.

As muitas línguas que faltam na Internet

“Existem muitas dificuldades e as técnicas são só uma parte delas,” explica Oxlaj Kumez. “Os teclados são criados para as línguas dominantes. Os teclados não são disponibilizados com os alfabetos das línguas indígenas e, uma vez que as plataformas estão em espanhol, inglês, ou outra língua dominante, quando escrevo na minha língua, o corretor automático está sempre a alterar os meus textos.”

Esta divisão linguística tem vários níveis. Desde o hardware, como teclados, até às linguagens de programação, dos domínios de websites até às aplicações e redes sociais, a falta de diversidade a nível dos alfabetos é a primeira de muitas lacunas que impedem a maioria das línguas indígenas de participarem em conversas online.

Para Victoria Aguilar, o maior problema é que, neste momento, as sociedades estão a arrastar as mesmas desigualdades sociais estruturais que existem offline para a Internet.

“Temos de trabalhar muito na localização, em adaptar a tecnologia às nossas necessidades”, diz ela. “A Internet é um canal de comunicação maravilhoso, mas também reflete as desigualdades da vida real. A forma como algumas formas de escrita estão a ser negligenciadas está a agravar o facto de que não podemos escrever livremente na Internet. Precisamos de tecnologias que nos ajudem a acelerar este processo.”

Aguilar tem como língua nativa o Mixteco e estuda linguística na Universidade Nacional do México. Com a ajuda de uma designer, está a criar uma nova família tipográfica que lhe permite escrever online na sua língua com a ortografia correta.

Através do seu trabalho, descobriu que a cidadania digital tem um impacto de dois gumes. Segundo ela, por um lado, ajuda a aumentar a visibilidade das comunidades de Primeira Nação, mas, por outro, teme que a velocidade com que a Internet se está a espalhar possa acelerar o desaparecimento das línguas minoritárias.

“Se não apressarmos a tecnologia neste momento, ela pode virar-se contra nós, porque pode empurrar-nos mais para a homogeneização do espanhol, como acontece no México,” diz ela. “É um momento chave para as línguas porque a Internet está a explodir e cada vez mais pessoas têm acesso aos dados.”

As muitas línguas que faltam na Internet

Em algumas áreas, as coisas estão a melhorar. O Unicode é um padrão computacional que codifica os caracteres, alfabeto, números e até emojis e os transforma em scripts. O alfabeto latino, por exemplo, é um script que funciona em dezenas ou até centenas de línguas, mas alguns scripts só podem ser utilizados numa única língua. Em 2020, o Unicode suportava 154 scripts.

Os nomes de domínio internacionalizados (Internationalised Domain Names – IDN) abordam este problema da perspectiva do nome de domínio. Sarmad Hussain está a supervisionar o trabalho de implementação na Internet Corporation for Assigned Names and Numbers (Icann).

“O sistema de nomes de domínios baseava-se no Código Padrão Americano para a Troca de Informações (Ascii), o que significa que os nomes de domínios estavam limitados ao que chamamos o ‘esquema de letra, dígito, hífen’, ou seja, basicamente, letras de A a Z, dígitos de 0 a 9 e ao hífen, por isso só podíamos utilizar isto para desenvolver nomes de domínios,” explica Hussain.

“Eventualmente, à medida que a Internet foi chegando a países que não utilizavam os caracteres Ascii, a comunidade passou a ter uma necessidade clara de aumentar o sistema de nomes de domínios para poder suportar línguas e escritas de todos o mundo.”

Desde 2010 que o projeto IDN permitiu o aparecimento de 152 domínios principais (a parte do domínio que aparece a seguir ao ponto, por exemplo, com, org ou net) incluindo 75 em escritas chinesas, japonesas e coreanas (CJK) e 33 em escritas árabes. Agora, existem mais de nove milhões de IDNs registados, ou seja, 2,5% de todos os domínios.

Abrir os nomes de domínios a novas línguas e alargar o acesso à Internet já teve um efeito nas populações online e no conteúdo que produzem. Um estudo realizado pelo Council of European National Top-Level Domain Registries e pelo Oxford Information Labs, “indicou que os domínios de nível superior (TLDs ou Top Level Domains) nacionais e regionais aumentam a presença de línguas locais online e mostram níveis de inglês inferiores ao que se encontram no setor de nomes de domínio a nível mundial”.

A comunidade da Wikimedia já reconheceu as dificuldades que existem para tornar a Wikipédia mais diversa e multicultural. Em Dezembro de 2019, a enciclopédia colaborativa publicava artigos em 307 línguas, o que a torna na plataforma mais diversa online.

“As plataformas tecnológicas têm a responsabilidade de facultar o acesso destas línguas à tecnologia e de diminuir a lacuna de acesso à Internet, e o Estado também tem essa responsabilidade,” afirma José Flores, o vice-presidente da Wikimedia no México, onde esta secção tem trabalhado na diversificação do conteúdo juntamente com membros da mais de 60 comunidades de línguas indígenas faladas no país.”

Mas as empresas e o Estado não conseguem reduzir a lacuna tecnológica sozinhos. “Parece-me que a comunidade intelectual e mesmo o jornalismo e a comunicação social também são responsáveis, porque precisamos de mais fontes para criar artigos na Wikipédia.”

Os artigos na Wikipédia têm de citar fontes publicadas em segunda mão, tais como artigos de notícias ou publicações académicas. Muitas vezes, isto é um problema para as comunidades que não estão bem documentadas. Segundo explica Flores, uma página da Wikipédia completa tem de referenciar entre 800 e 1000 artigos publicados. Estes requisitos fazem com que muitas páginas indígenas da Wikipédia permaneçam numa fase incubadora.

“Não se trata apenas da necessidade de ligação, mas também da forma como essa ligação é feita,” acrescenta Flores. “Vai além da infraestrutura, porque também está relacionado com as utilizações sociais que essa estrutura tem.”

O acesso a dispositivos e a fontes não é o único problema. Estima-se que quase 43% das línguas e dialetos a nível mundial não estão escritos, o que apresenta um desafio considerável na forma como se poderiam encaixar num mundo online que se baseia no texto escrito.

É nessa área que entram projetos como o Lingua Libre, uma plataforma financiada pela Wikimedia Foundation para gravar línguas orais. O arquivo, gerido pela Wikimedia da França e aberto em agosto de 2018, já tem mais de 100.000 gravações em 43 línguas que, de outra forma, poderiam perder-se para sempre.

Na Guatemala, Miguel Ángel Oxlaj Kumez sabe que os desafios que tem pela frente são difíceis e complexos, mas não se sente desanimado. “Vemos os desafios como oportunidades,” diz ele. “Nos workshops, perguntei: ‘Porque acham que é necessário que a minha língua esteja na Internet?’ E um ativista deu a volta à pergunta e respondeu-me: ‘Porque é que a minha língua indígena não haveria de estar na Internet?’.”

De momento, está a trabalhar em conjunto com outros ativistas indígenas para criar versões em Caqchiquel da Wikipédia, WhatsApp e do Duolingo. “Há cinco anos, nem sequer imaginava a possibilidade de ter a minha língua na Internet e ainda há pessoas que não pensam nessa possibilidade”.

Entretanto, fica satisfeito por ver que existe uma rede de falantes de línguas indígenas cada vez mais significativa a lutar pelas suas línguas online.

“Agora está na mão desta rede de ativistas,” acrescenta. “E temos todos o sonho que fazer com que isto aconteça.”

Artigo original da autoria do jornalista Miguel Trancozo Trevino publicado na BBC Future. Fonte original aqui.