Carta aberta: Google e a questão lingüística no Brasil e América Latina Postado originalmente em inglês no blog de Matt Cutts, gerente de qualidade de Google

06 de Janeiro de 2006, Watford, Grã-Bretanha.

Oi Matt,

Não deixei de notar que a interface de busca dos centros alimentados por Bigdaddy leva o nome da língua (Inglês) ao invés do nome de país. É assim que Google nos Estados Unidos funciona? Ou é um projeto mais linguisticamente centrado a ser rolado em outras partes do mundo?

Por falar em língua, eu gostaria de compartilhar uma ou duas coisas acerca da relevância lingüística dos resultados servidos por Google fora do mundo falante do inglês, algo que tem sido um inconveniente para uma maioria de usuários comuns que não falam ou entendem outro idioma senão o seu próprio. Deixando claro o que eu quero dizer acerca de língua e países, por favor, leve em consideração que como brasileiro eu me refiro às Línguas Portuguesa e Castelhana na América Latina.

Para que todos possam visualizar as questões, eu gostaria de compartilhar alguns dados estatísticos coletados no ano passado por solicitação do Governo Brasileiro sobre o uso e penetração da internet no Brasil (http://www.nic.br/indicadores/usuarios/index.htm). Creio que se pode pensar que a mesma situação se estende por outros países falantes do castelhano no subcontinente sul-americano.

Como esperado ficou constatado que o número de usuários no Brasil é pequeno. Comparado com uma população de 185 milhões, contamos com aproximadamente 12 milhões de pessoas conectadas à internet. De acordo com o censo da internet Brasileira, deste total de usuários apenas 20.81% ou 2.4 milhões usam a internet para buscar informações e encontrar serviços on-line. O fato mais interessante acerca destes números é que o total de usuários conectados à internet está em sua maioria nas classes A e B, as quais são as mais instruídas e com recursos para usar a internet.

O Problema Lingüístico

Eu creio que uma das razões porque tão poucas pessoas usam serviços essenciais como buscadores pode estar no fato que tais serviços ainda não oferecem a mesma facilidade de uso em sua interface nem qualidade nos resultados de busca sem muita interferência lingüística de outras línguas.

Nossas configurações de busca automaticamente oferecem resultados de toda a web. Esta opção traz resultados em qualquer idioma.

Muito embora termos como acarajé (um bolinho Afro-Brasileiro de feijão frito) são mais fáceis de encontrar em português puro, os resultados ficam muito mais difíceis de entender quando se busca por termos científicos; termos ortograficamente similares em línguas latinas como política; ou, nomes internacionais de lugares e celebridades, por exemplo.

Mesmo quando nossos usuários selecionam resultados em português na hora de buscar um termo como florida em google.com.br, isto não garantirá que eles receberão resultados na língua que eles fizeram o esforço extra para selecionar, neste caso sua própria língua.

Nós sentimos que não somente há falta de consistência lingüística nos resultados servidos, mas também o que parece ser uma abordagem não muito bem contextualizada ou culturalmente usável por parte dos serviços de busca pelo menos no mundo falante do português e espanhol.

O exemplo Flórida

Uma busca por florida em google.com.br com a opção resultados em português selecionada, feita em 5 de Janeiro de 2006 trouxe como resultados de primeira página o seguinte:

  • terceiro resultado, latim vernacular;
  • quarto resultado, latim vernacular com algumas palavras em inglês no fundo de um documento hospedado e com domínio holandês.  

Duas semanas antes, a mesma busca com as configurações ditas acima traziam dois resultados em inglês logo após os resultados em latim.

Se você fizer a mesma busca, você notará que há um número de outros resultados com descrições em inglês, o que na verdade vêm a ser páginas em Português. Muito embora a falta de acessibilidade lingüística, estas páginas não foram consideradas como resultados estrangeiros em buscas em português puro nesta minha pesquisa pessoal.

Como é de conhecimento público, as meta-etiquetas de descrição têm pouca ou nenhuma influência sobre os maiores buscadores. Entretanto, estas são o primeiro ponto de informação para usuários sempre que motores de busca como Google decidem não mostrar trechos do texto ao redor das palavras-chave pesquisadas.

Dentro de um ponto-de-vista humano, muito embora a maior parte da culpa recaia sobre o produtor de conteúdo web que escreveu a metadescrição e o conteúdo, os buscadores poderiam fazer melhor em não permitir que uma metadescrição em toda a sua inteireza em uma língua que não é aquela selecionada pelo usuário escape ou apareça nas páginas de resultados. Pois, como você sabe e deve até ter dito antes, a descrição pode não ter nenhuma importância para o robô do buscador, entretanto é importante para o usuário.

A Língua muda, mas o princípio fica

Por morar no Reino Unido e ser capaz de me comunicar razoavelmente bem em inglês, eu considero admirável viver imerso em uma cultura onde toda a informação está disponível na língua local; dos livros técnicos que nos ajudam como profissionais aos aparelhos eletrônicos e seus manuais e até mesmo aulas de Salsa: tudo está linguisticamente pronto para consumo. Vocês (falantes do inglês) acertaram no alvo: sirva o que seja em inglês simples e claro e como conseqüência qualquer coisa se faz psicologicamente acessível para o desejo do consumidor.

Minha sugestão é que os resultados automáticos de língua nas versões nacionais de Google venham na língua daquele País. Isto não é só usável e acessível (tanto socialmente, culturalmente e no sentido de interface de usuário), mas em um contexto como o brasileiro, daria uma ajuda aos desenvolvedores locais que estejam tentando mostrar aos outros 80% de usuários da internet, que não utilizam buscadores, que buscar por informações em um buscador nacional traz os resultados esperados sem confusões ou falhas. Acima de tudo, ajudaria na difusão da idéia que a internet enquanto um recurso democrático serve a todos igualmente.

Em certo sentido, da maneira que a coisa vai, parece o mesmo que assistir um filme com legendas, ou nos concentramos no diálogo ou assistimos a ação. Mesmo aqueles que dominam a arte de assistir um filme e ler as legendas ao mesmo tempo não negam que é muito melhor assistir a filmes em seu próprio idioma.

O problema com a opção "páginas do Brasil"

Distinto do Reino Unido e outros países que liberaram a compra de domínios nacionais para todos, desde o começo o Governo Brasileiro decidiu reservar os domínios .com.br e net.br estritamente para empresas com escritório registrado no Brasil. Indo em direção contrária ao ganho questionável na criação de um mercado sem especulação, esta decisão criou uma tendência entre desenvolvedores e designers brasileiros de abrirem sítios web sob domínios .com e .net.

Além disto, um número considerável de empresas que oferecem hospedagem de baixo custo no Brasil são na verdade revendedoras de serviços de empresas de hospedagem fixadas nos Estados Unidos. O mesmo ocorre em outros países, mesmo no Reino Unido onde se crê que milhares de .co.uk estão hospedadas em serviços de hospedagem de custo muito mais acessível em companhias hospedeiras nos Estados Unidos.

Eu creio que a maneira como os buscadores, incluso Google, têm posicionado a origem de conteúdos on-line pelo nome de domínio e onde as páginas estão hospedadas está perdendo de vista uma tendência que vai pela direção oposta.

Sim, não é culpa de Google que os acadêmicos da Fapesp (a instituição que originariamente tomava conta dos domínios com terminação .br) determinaram que, se um sítio não pertence a uma instituição ou a um profissional liberal registrado em uma associação profissional oficial, o que lhe resta é usar o dúbio domínio .nom.br.

Os motores de busca poderiam melhorar os resultados nacionais se tomassem em consideração que certos domínios nacionais são difíceis de adquirir e que um número considerável de sítios no mundo ocidental estão hospedados nos Estados Unidos através de companhias de hospedagem paga ou em servidores gratuitos como blogger e geocities.
Possíveis atalhos para a resolução do problema:

  1. Estender a abrangência do algoritmo para conferir o conteúdo da página (palavras-chave, endereços, língua, etc…) e interpretar a qual país este pertence. Pode ser um pouco complicado para sítios transnacionais que hospedam páginas em diversas línguas lado-a-lado, entretanto se isto já é possível com sítios de grandes multinacionais, logo uma solução já deve estar em vigor em algum lugar, apenas esperando para ser rolada pelo globo.
  2. Usar uma tabela de diferenciação lingüística (raiz). Quando eu era menor, meu pai um imigrante Espanhol costumava escrever a maneira que certas palavras são faladas na Península Ibérica (Portugal e Espanha). Ele costumava começar com uma palavra como ação e derivando a partir da raiz da palavra ele ia de ação para acción, acció, açon, etc...

    Todo idioma latino possui um conjunto de características próprias que os diferenciam um do outro. Creio que Google talvez esteja fazendo algo na área, pois não se vê mais tantos resultados em castelhano em buscas em português puro como costumava ocorrer.
  3. Links dados e recebidos a partir de certo país. Poderia servir como uma dica sobre qual país o sítio .com e .net pertence.
  4. Opção de escolha de país através de Google Sitemaps e outros recursos XML. Seria ótimo e ajudaria o algoritmo na hora de julgar a procedência de uma página se a funcionalidade de Google Sitemaps fosse alargada para incluir declarações em XML de país e língua.
  5. Considerar o nome de espaço XML (namespace) declarado na etiqueta HTML do documento:

    <html lang="pt-BR">
  6. Considerar a metadescrição de país-alvo que sítios como HP utilizam:

    <meta name="target_country" content="br">
  7. Considerar indicação de país na URL. Da mesma forma que os algoritmos dos aparelhos de busca processam palavras-chave encontradas na URL, seria útil expandir a capacidade do algoritmo para analisar um sítio .net ou .com como proveniente de um determinado país através da abreviação XML de país encontrada na URL:

    http://www.sito-brasileiro.net/br/index.html
  8. Considerar a indicação do DMOZ. Usar a categorização geográfica do DMOZ como um validador da origem de um sítio.

Nenhum destes atalhos sugeridos funcionaria só (afinal de contas, não vivemos em um mundo perfeito onde todos dizem a verdade em suas meta-etiquetas), entretanto a utilização destes em conjunto e com diferentes prioridades e pesos na análise de páginas indexadas poderia ajudar a decifrar se uma .com ou uma .net é um sítio americano, um sítio de outro País latino-americano ou uma companhia de mala-direta fixada em alguma ilha do Pacífico tentando se passar por uma empresa nacional.

De toda forma, o que eu gostaria de pedir a Google e a outros motores de busca é que uma nova maneira de abordar os desafios lingüísticos mencionados acima seja estudada com sinceridade e que vocês nos ajudem a desenvolver nosso pequeno mercado, oferecendo resultados e interfaces de busca com opções lingüísticas automáticas que sejam relevantes para o nosso público-alvo em ambos os lados da brecha digital.

Estaremos aguardando ansiosamente ao Bigdaddy, entretanto ficaremos radiantes quando El Gran Papá e O Paizão venham para casa.

Muito obrigado por sua atenção, estaremos esperando ouvir sua opinião e a opinião de sua Companhia sobre o que é compartilhado acima.

Luis de la Orden Morais
Editor
Webalorixá

Nota aos leitores de Webalorixá:

Desde que escrevemos este artigo os resultados em latim deixaram de aparecer nos resultados de busca em Google, entretanto várias páginas em português com metadescrição em inglês continuam a aparecer.

Não obtivemos resposta alguma por parte de Google ou do funcionário para quem esta mensagem foi postada originalmente. Vários comentários são postados no blog de Matt Cutts e é de se entender que este não tenha tempo para responder a todos, entretanto notamos que raramente mensagens vindas de usuários latino-americanos são respondidas.

Enviamos um e-mail contendo o texto original em inglês para o adido cultural na Embaixada do Brasil em Londres, solicitando informações sobre um canal dentro do Governo Brasileiro onde possamos expressar nossas dúvidas quanto à qualidade destes serviços no Brasil. Esperamos confiantes que na primeira oportunidade, obteremos uma resposta.

Se você sabe sobre os canais governamentais ou de ONGs que possam apresentar estas questões dentro de uma escala mais avançada, por favor entre em contato com Webalorixá em minha.lingua@webalorixa.net.

Sobre o Autor

O autor rabugentamente representado por seu filho.

Luis de la Orden Morais é baiano de Salvador e reside no Reino Unido aonde é consultor e projetista de interfaces de usuário em projetos comerciais on-line.

Anteriormente trabalhou para o jornal catalão La Vanguardia Digital, em Barcelona. No Reino Unido trabalhou para Nortel Networks, Cisco Systems, Woolworths e LoveFilm, a maior empresa Européia de aluguel de DVDs pela internet.

É pós-graduado, com Distinção, em Gestão de Projetos de Nova Mídia, pelo Birkbeck College, University of London.

© Foto, Luis de la Orden Morais, 2006.

 
©2005-2006, Webalorixá e seus autores. Todos direitos reservados.