Sete práticas de otimização para buscadores que farão do seu sítio o manjar dos buscadores (e dos seus usuários)

Luis de la Orden Morais

Desde sua estréia em dezembro do ano passado, Webalorixá tem demonstrado na prática quais são as técnicas de marketing e otimizaçãopara buscadores (MOB) que funcionam no mercado atual. Como resultado de nossos esforços, apenas três meses após ser lançado, Webalorixá recebeu o seu PageRank ( posicionamento global da página ) do Google: 5/10. E a coisa não parou por ai: todas as páginas internas do sítio na época foram posicionadas também, cada uma delas recebendo um PageRank de 4/10.

Outras vantagens das técnicas que temos utilizado são vistas na rapidez com que nossas páginas são indexadas, 2-5 dias em Google e 5 -10 dias em outros buscadores; resultados também podem ser vistos na facilidade com a qual a nossa jovem publicação eletrônica chegou aos 20 primeiros resultados de busca em língua portuguesa para termos como ‘padrões da web’ e ‘encontrabilidade’. Claro que o conteúdo exerce um peso na hora que os robôs e algoritmos indexam e posicionam as páginas.

Webalorixá advoga que a otimização para buscadores deve ser seguida de um trabalho de base na área dos padrões da web. Temos razão para crer que seguir os padrões traz benefícios diretos e indiretos para qualquer sítio, além de manter o foco da publicação no usuário. Só para ter certeza de que você não está seguindo algum mito de otimização para buscadores, só para se conferir se não está desperdiçando tempo. Você também se beneficiará, lendo o artigo sobre os seis graus de aproximação, metodologia de desenvolvimento que Webalorixá utiliza na hora de criar suas páginas.

Por favor, note que os exemplos de código-fonte estarão em XHTML 1.0 strict e poderão ser ligeiramente diferentes do código que você utiliza em suas páginas, principalmente se você utiliza páginas codificadas em HTML 4.01.

Em caso de dúvida, consulte os seguintes sítios em língua portuguesa:

Prática 0: valide o código de sua página.

Antes de iniciar, seja a sua página codificada em XHTML 1.1 ou HTML 3.0, você deveria se certificar de que o seu código é semanticamente correto e válido na ferramenta de validação do W3C, o World Wide Web Consortium.

Os buscadores não excluirão sua página por estar codificada fora dos padrões nem a tratarão de maneira especial por seguí-los, mas se sua página possuir erros como etiquetas (em inglês, tags) incorretamente fechadas, isto significará que partes do código poderão ser confundidas com o conteúdo do texto. A depender do grau de erros, os robôs podem acabar emperrados em partes do código que não são acessíveis para máquinas.

Também observe que uma página com código pesado (o que é facilmente alcançado se o seu sítio utiliza tabelas aninhadas) significa também mais código para os robôs dos buscadores lerem. Portanto, a adoção de boas práticas de programação, como colocar os seus estilos e JavaScript em arquivos css e js externos, podem ser a manteiga no pão para sistemas automatizados de pesquisa e indexação de informações diversos (não apenas aparelhos de busca), tornando o seu conteúdo mais deglutível para todos. 

Esta prática cobre requerimentos dos padrões da web e pode ter um efeito beneficial na acessibilidade de sua página, tanto para seres humanos quanto sistemas automatizados de coleta, e indexação de informação.

Prática 1: descreva o idioma da sua página.

Código XHTML exemplo:

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-BR" >

<meta http-equiv="Content-Language" content="pt-BR" />

Quando os buscadores estão analisando suas páginas para indexação e posicionamento, uma das várias computações de dados em cada página em seu sítio será a determinação do idioma em que o conteúdo se apresenta. No momento, ainda que Google demonstre uma capacidade melhor de determinar o idioma de uma página quando comparado com Yahoo e MSN, estas computações ainda necessitam ser feitas. Definir o idioma da página ajudará no processamento e colocação de suas páginas nas versões lingüísticas dos buscadores, principalmente se o seu sítio não utiliza um domínio .br, o que ajudaria na categorização lingüística e geográfica.

Apenas um porém: sem um .br, .pt, ou .an suas páginas não aparecerão nas páginas de resultados do Google quando o usuário selecionar opções geográficas como ‘páginas do Brasil’, ‘páginas de Portugal’ ou ‘páginas da Angola’. Se suas páginas não estiverem hospedadas em um servidor localizado no país do seu público alvo, ainda mais difícil, muito embora este seja um fator que, na prática, observamos ter um peso muito menor na hora de determinar a localização geográfica de um sítio, se este tiver um domínio nacional.

Outros aparelhos de busca, como Altavista, Radix e UOL, de alguma forma determinam a procedência (ou destino) do conteúdo através de outros fatores que não são apenas limitados ao domínio e à localização geográfica do servidor. Se você quer saber, na dúvida, Webalorixá utiliza, além do nome Brasil onde for necessário no texto, nas seguintes meta-etiquetas:

<meta name="target_country" content="br" />

<meta name="country" content="Brazil" />

Webalorixá sugeriu ao Google um conjunto de pontos que permitiriam determinar a região geográfica de um sítio , mas não temos certeza se a sugestão poderá ser implementada, já que nenhuma resposta foi recebida, nem sabemos se Google possui conhecimento lingüístico necessário para entender as sugestões, ou se perdeu terreno para alguma outra companhia que já tenha registrado a patente.

Esta prática cobre requerimentos dos padrões da web e acessibilidade para seres humanos e máquinas, além de ajudar na usabilidade de sua página.

Prática 2: descreva a codificação de caracteres da sua página.

Código XHTML exemplo:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

Ou

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

O mapa de caracteres baseado em utf-8 é o mais compatível com XML e garante que caracteres singulares da língua portuguesa como ç, ã, á, etc, sejam renderizados corretamente, mesmo em navegadores estrangeiros. Pode ser que alguns softwares de edição de páginas web não entendam utf-8 e podem mostrem símbolos ao invés de caracteres acentuados. Se você trabalha com sistemas de gerenciamento de conteúdos de legado que não entendem utf-8, você poderá preferir utilizar iso-8859-1 por uma questão de visualização na hora de editar o seu conteúdo.

O mapa de caracteres iso-8859-1, também conhecido como Latim-1, cobre português, além de castelhano, italiano, inglês e várias outras línguas. Funciona bem em todos os navegadores no Brasil, Américas e Europa Ocidental, entretanto tem sido cada vez menos usado em preferência ao utf-8. Navegadores nativos de línguas com alfabetos não romanizados, como o japonês, russo ou grego, podem ter dificuldade na interpretação de caracteres acentuados. Caso o seu público-alvo acesse suas páginas a partir de países cujo alfabeto não faça parte do iso-8859-1 e você não queira mudar o mapa de caracteres para utf-8, a melhor opção é utilizar as entidades HTML para caracteres acentuados e únicos da língua portuguesa.

Pois, a razão para este balaio de gatos com os mapas de caracteres é para que tanto navegadores quanto buscadores entendam qual alfabeto e símbolos usar, e assim possam interpretar as suas palavras chaves corretamente.

Muito embora Webalorixá utilize UTF-8 (e todos os grandes buscadores também), às vezes nós encontramos alguns softwares e serviços terceirizados, como os de estatísticas e webmail e até de codificação de HTML, desenvolvidos por empresas anglófonas que não seguem o UTF-8 e acabam confundido os nossos caracteres na hora de gerar os relatórios e código, transformando palavras como 'conclusão' em 'conclusão'. Esta não é uma falha do UTF-8, mas destes serviços que não estão atualizados com as práticas mais modernas de programação.

Esta prática cobre requerimentos dos padrões da web e acessibilidade para seres humanos e máquinas.

Prática 3: escreva títulos <title> com as palavras-chaves centrais da página de forma lógica.

Sabemos que você gosta de ser criativo na hora de bolar os títulos de sua página.

Logo, um título de página que poderia se chamar ‘Javascript não-intrusivo’ você chamará de ‘Batendo na porta antes de entrar’, nada contra, exceto que os buscadores interpretarão o título literalmente e darão peso às palavras que virem no título sem diferenciar a figura de linguagem do significado.

Também existe a grande possibilidade que os usuários humanos também não saberão se você está se referindo metaforicamente ou literalmente ao virem o título de sua página listado nos resultados de busca. Quem estiver buscando por ‘portas’ poderá pensar que sua página fala sobre as tais. Por outro lado o usuário em busca de ‘Javascript não-intrusivo’ poderá se confundir com o título e acabar não clicando no link por pensar que a página é sobre portas.

Webalorixá reconhece que esta limitação dos buscadores está gerando cada vez mais textos mecanicamente preparados para os buscadores e sugerimos a Matt Cutts de Google que estendesse a funcionalidade do Google SiteMaps, um arquivo XML que ajuda a Google organizar e achar as páginas de seu sítio, para determinar uma lista de palavras excluídas pelas quais um sítio não deveria ser encontrado. Isto ajudaria ao usuário do próprio buscador a não perder tempo visitando o seu sítio atrás de termos que você citou casualmente ou apenas figurativamente. Webalorixá por exemplo recebe centenas de visitas de pessoas buscando por 'adjetivos da língua inglesa' apenas por que usamos esta expressão em um de nossos artigos sobre padrões da web e Google entendeu que deveríamos estar nos primeiros 20 resultados, o que com certeza gera frustração para as pessoas que estão buscando uma gramática inglesa em português. Como dito anteriormente, nem uma resposta sequer do dito responsável pela qualidade dos resultados de Google.

Na hora de preencher a etiqueta <title> procure usar as palavras do seu texto pelas quais você deseja que os buscadores lhe encontrem, tendo em mente que seja algo claro para os seus usuários. Como alternativa, você pode deixar o título metafórico criado para o cabeçalho <h1> do texto.

Tomando como exemplo o título desta página:

O título do documento XHTML

<title>Encontrabilidade: Otimização para buscadores (MOB) – Práticas – Webalorixá</title>

O título do cabeçalho <H1> deste artigo

<h1>7 práticas de otimização para buscadores que farão seu sítio tornar-se o manjar dos buscadores (e dos seus usuários)</h1>

Na prática Google e MSN apenas mostrarão os primeiros 50 – 60 caracteres do título, enquanto Yahoo mostrará o título acima todo. Para nós não é tão importante que o título da publicação venha por último e não apareça em Google porque geralmente os usuários estão mais interessados na informação que no meio que oferece a informação.

O grau de importância de cada palavra cresce por sua ordem de chegada, sendo que as primeiras palavras a aparecerem terão um peso maior. Logo você vê que Webalorixá quer dar mais peso à palavra ‘encontrabilidade’ que ‘otimização’ e ‘buscadores’. Na prática, se você quer tornar um título usável tanto para humanos quanto para máquinas, algo sempre se perderá; a perda neste caso deve ser sempre do lado da máquina, não do usuário humano.

Note também que ao retirar palavras que aparecem no título literal deste artigo (manjar, usuários, sítio, tornar, etc.), Webalorixá concentrou o peso nas palavras pelas quais quer ser achado em uma busca: ‘encontrabilidade’, ‘otimização’, ‘otimização para buscadores’ e ‘MOB’. Note também que o título, muito embora otimizado para os robôs, é legível e compreensível para seres humanos, o que no final das contas é o mais importante na hora de selar o processo de otimização para buscadores: usuários visitando e entendendo suas páginas.

Esta prática cobre requerimentos dos padrões da web, acessibilidade para seres humanos e máquinas e usabilidade.

Prática 4: use as palavras-chaves centrais do conteúdo no nome do arquivo XHTML e diretórios.

Se você olhar para a sua barra de endereço notará que o nome do artigo é:

/artigos/
encontrabilidade/
otimizacao-buscadores-praticas-1.html

Webalorixá como uma revista de web design organiza seus artigos em diretórios temáticos (encontrabilidade, desenvolvimento, padrões da web, etc.), o que ajuda buscadores e usuários a identificarem a categoria dos artigos através de palavras encontradas no URL.

Fazendo assim, nós acabamos dando uma ajuda na usabilidade e acessibilidade do artigo ao nomear o arquivo e os diretórios de forma legível e retrospectiva para seres humanos também. Tenha em mente que nem sempre isto é possível em sítios dinâmicos de grande porte.

Prática 5: planeje a arquitetura de informação de suas páginas e use a XHTML semântica para marcar a hierarquia de seu conteúdo.

Muitos sítios com conteúdos excelentes simplesmente deixam de ocupar posições ainda mais visíveis nos resultados de busca por não adotarem um código baseado nos padrões da web que indicaria aos algoritmos de busca a relação entre conteúdo e cabeçalhos. É importante que o seu conteúdo esteja bem hierarquizado com cabeçalhos (h1h6) e etiquetas (tags) semânticas de marcação HTML/XHTML para que os robôs dos buscadores possam dar peso às suas palavras-chaves no texto.

Muitos sítios se esforçam em se posicionarem bem nos aparelhos de busca, mas não alcançam o efeito desejado por, entre vários fatores, apenas utilizarem parágrafos <p>, quebras de linha <br> e estilos CSS para determinarem visualmente a hierarquia de uma página.

Lembre-se que aquilo que os robôs vêem ao visitarem uma página não é a mesma coisa que você vê. Os sistemas de indexação de informação estão interessados em saber como as diferentes partes da informação em sua página se relacionam. Através da hierarquia da página estes sistemas julgam (nem sempre satisfatoriamente) se as palavras-chaves que aparecem no texto são discutidas dentro de uma estrutura que se aprofunda ou apenas aparecem dentro do mesmo nível que qualquer outra palavra. Ao colocar as palavras-chaves em etiquetas h1, h2, em diante, você está ressaltando quais termos são focais no texto que segue. Note que a HTML semântica não se resume aos cabeçalhos, também fazem partes do seu corpo, listas (<dl>, <ul>), abreviações e acrônimos (<abbr>, <acronym>), marcação de texto (<em>, <strong>) entre outros.

Em Webalorixá, a hierarquização da página é feita como no exemplo abaixo:

<h1>Buscadores em atuação no Brasil </h1>
<h2>Buscadores</h2>
<p>Texto</p>
<h3>Radix</h3>
<p>Texto</p>
<h3>Radar UOL</h3>
<p>Texto</p>
<h3>Altavista</h3>
<p>Texto</p>
<h2>Conclusão</h2>
<p>Texto</p>

Note como o assunto (Buscadores em atuação no Brasil) foi dividido em partes lógicas que por sua vez se dividiram em partes ainda mais especializadas e detalhadas (Radix, Radar UOL, Altavista).

A boa notícia é que não só buscadores adoram informação bem hierarquizada e semântica, mas também os leitores de tela utilizados por usuários com impedimentos visuais! Os ganhos não param por aí, a usabilidade de seu conteúdo também é afetada positivamente, pois os usuários também encontrarão informação e lerão a sua página mais facilmente quando o texto estiver bem estruturado e organizado com cabeçalhos e parágrafos, além de outros elementos como listas, abreviações e citações.  

Esta prática cobre requerimentos dos padrões da web, acessibilidade para seres humanos e máquinas e usabilidade.

Prática 6: utilize links âncora como atalhos para as seções de sua página web.

Principalmente se suas páginas forem longas.

Links âncora podem ajudar os robôs e muito. Como estes links estão dando um atalho através de um link com palavras-chaves e levam o robô direto àquele assunto, fica mais fácil determinar a relevância dos conteúdos de sua página. Sistemas automatizados adoram informação bem categorizada e acessível.

Mais uma vez, os seus usuários se beneficiarão com um recurso que os permitirá escolher que seção de suas páginas eles desejam ler e acessá-la prontamente. Considere utilizar um link para o topo da página ou para a lista de links ancoras ao fim de cada seção principalmente se cada seção é independente da outra como uma lista de perguntas mais freqüentes.

Esta prática cobre requerimentos da acessibilidade para seres humanos e máquinas e usabilidade.

Conclusão

Estas práticas são o começo para otimização para buscadores (MOB), e sendo as que Webalorixá utiliza mais frequentemente, podem ser um ótimo começo. A otimização para buscadores pode parecer, a depender do ponto de vista, uma área demasiadamente especulativa, entretanto quando o assunto é otimização de fatores em página como código e conteúdo, mantemos que seguir os princípios da acessibilidade, padrões da web e usabilidade traz ganhos. Ganham os buscadores, os seus usuários e você.

Coloque estes pontos em prática e veja a diferença!

Sobre o Autor

O autor rabugentamente representado por seu filho.

Luis de la Orden Morais é baiano de Salvador e reside no Reino Unido aonde é consultor e projetista de interfaces de usuário em projetos comerciais on-line.

Anteriormente trabalhou para o jornal catalão La Vanguardia Digital, em Barcelona. No Reino Unido trabalhou para Nortel Networks, Cisco Systems, Woolworths e LoveFilm, a maior empresa Européia de aluguel de DVDs pela internet.

É pós-graduado, com Distinção, em Gestão de Projetos de Nova Mídia, pelo Birkbeck College, University of London.

© Foto, Luis de la Orden Morais, 2006.

 
©2005-2006, Webalorixá e seus autores. Todos direitos reservados.