SEO – Search Engine Optimization – Introdução parte II

Transcrição do segundo artigo sobre SEO, escrito para a Revista Programar n.º 36.

Revista Programar n.º 36

Revista Programar n.º 36

Na edição n.º 34 da Revista Programar, que foi disponibilizada em Abril, mais concretamente na primeira parte desta Introdução ao SEO, fiz uma breve abordagem ao conceito de Search Engine Optimization com o intuito de desmistificar um assunto que para muitos ainda parece confuso, mas que aos poucos, e espero poder contribuir para esse efeito, vai sendo um tema cada vez mais claro e importante para todos os Webmasters/Webdesigners.

Na primeira parte já percebemos que os motores de busca na internet são grandes fontes de tráfego para os nossos sites e é tendo em conta essa importância que o SEO ganha força nos dias que correm. Para os leitores que ainda não tiveram a oportunidade de ler esse artigo, sugiro que o façam em primeiro lugar e só depois deverão ler este, tornando-se assim mais fácil de entender o que irei falar hoje.

Esta segunda parte pretende encerrar a parte introdutória sobre o SEO e apresentar algumas das ferramentas e restantes conceitos que iremos aprofundar nos artigos seguintes desta série.

imagem SEO

O que são os Bots, Spiders ou Crawlers

Não podemos falar em optimizar os nossos portais para os motores de busca sem primeiro conhecer os “bichinhos” que os visitam e por sua vez os indexam, atribuindo-lhes um ranking. Eles são dos mais importantes e críticos visitantes que os nossos sites recebem, pelo que lhes devemos dar o máximo de “atenção” se queremos ter sucesso nesta área. Estes Spiders, Bots e Crawlers (significam todos a mesma coisa) são mecanismos automatizados de software, que varrem a Internet (Web – teia – daí o termo spider: aranha) e catalogam os sites e páginas por onde vão passando. Nem todos os spiders são bons, pois alguns dos que respeitam menos as normas e protocolos, podem catalogar e indexar alguns conteúdos que nós não pretendíamos. Os bons crawlers são os que respeitam a norma REP – Robots Exclusion Protocol (veremos mais à frente nesta série o que é este protocolo e como tirar partido dele num site). De uma forma geral podemos percepcionar as passagens destes agentes pelos nossos sites através dos logs (relatórios) dos nossos Servidores Web.

Bots

 

Existem vários tipos de Web-spiders, que podemos conhecer mais em detalhe no endereço: http://www.user-agents.org/. Estes visitam os nossos sites de tempos a tempos, dependendo do algoritmo do motor de busca que os envia ao nosso site, assim como da relevância do nosso conteúdo. Eles não visitam um site apenas uma vez, mas vão voltando à medida que detectam alterações nele, ou novos conteúdos. Todo esse mecanismo pode ser definido por nós, como iremos aprender, ou ser deixado em modo “automático” e gerido de forma independente pelos motores de busca.

Uma das “aranhas” mais famosa da grande teia que é a internet é a “Googlebot”, a Web-spider da Google. A sua assinatura pode ser encontrada nos logs dos Servidores Web, através do header do protocolo HTTP:

GET / HTTP/1.1
Host: www.XXXXXXXXXX.pt
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1;
+HTTP://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

Neste exemplo extraído de um log file, podemos visualizar que o Googlebot fez um pedido para indexar a raiz do nosso site e que ele suporta a compressão gzip, uma forma de optimizar o tráfego web, comprimindo os dados transferidos entre o Servidor Web e o cliente.

Do lado da concorrência ao Google, o crawler da Yahoo chama-se Slurp e o do motor de busca da Microsoft, o Bing, o seu spider apelida-se de MSNBot, tendo ambos comportamentos semelhantes, se bem que os algoritmos de indexação são diferentes.

Contudo a tecnologia dos Web-spiders não é perfeita. Algumas vezes estes não conseguem indexar todos os conteúdos de uma página ou site (chama-se a isso os Search Engine Traps, ou armadilhas), devido à tecnologia com que estes estão inseridos no site, como por exemplo ficheiros em Flash, JavaScript, texto em imagens etc. Iremos também alertar e aconselhar os leitores para estes problemas, que em muito podem afectar a optimização de um website, ao longo dos próximos artigos.

Contudo o campo de trabalho destes bots não é um campo infinitamente aberto. Pelo menos para os que respeitam o protocolo REP. Existe também a possibilidade de nós proibirmos o acesso dos crawlers ao nosso site, ou a determinadas zonas deste, como forma de impedirmos que determinados conteúdos que desejamos serem privados, surjam nos resultados dos motores de busca, algo muito comum nos dias de hoje e que infelizmente gera algumas surpresas desagradáveis, como por exemplo quando pesquizamos na Web e damos de caras com informação a nosso respeito, num resultado de um motor de busca, por este estar disponível num website e os seus webmasters não terem tido o cuidado de restringir o acesso dos motores de busca a esse conteúdo. Lembrem-se que até o conteúdo escrito de um ficheiro PDF, como por exemplo a pauta das notas de uma determinada Cadeira da Faculdade, pode ser indexado por um motor de busca, caso este possua permissões para tal, e posteriormente disponibilizado para toda a internet através dos SERP’s (search engine result pages).

Como já deu para perceber, os spiders não indexam apenas ficheiros HTML, PHP, ASP etc., mas é já vasta a quantidade de tipos diferentes de ficheiros que os motores de busca conseguem ler e indexar: PDF, DOC, XLS, PPT, e muitos outros tipos de ficheiros, são já facilmente indexáveis e os seus conteúdos percorridos pelos bots dos motores de busca.

Como os spiders lêm os nossos sites

Os Webspiders não são humanos confinados numa enorme sala cheia de computadores ligados à Internet e que catalogam manualmente os sites que vão visitando. Estes bots são mecanismos de software automatizados que varrem a internet, saltando de link em link, sendo a “visão” que eles têm de um site um pouco diferente da nossa.

De acordo com a ferramenta Search Engine Spider Simulator, um simulador disponibilizado gratuitamente no site www.webconfs.com, esta é por exemplo a visão (parcial – apenas uma parte do texto gerado) que um spider tem do site www.portugal-a-programar.org:

Spidered Text :

Portugal-a-Programar Ir para conteúdo Twitter Facebook Google + Entrar Registe-se Pesquisa Avançado Pesquisar secção: FórumMembrosHelp Files Blog Downloads Calendário Ver Novo Conteúdo Blog Fórum Downloads Calendário Membros Revista PROGRAMAR Wiki Planeta IRC Mais Javascript Desactivado Tem actualmente o javascript desactivado. Diversas funcionalidades podem estar indisponíveis. Por favor active o javascript para ter acesso a todas as funcionalidades. Em Destaque Revista PROGRAMAR - Edição Nº 35 Junho 2012 Publicado por jpaulino em Revista PROGRAMAR, 08 Junho 2012 · 1401 visualizações Nesta edição continuaremos também a premiar os autores dos três melhores artigos, dado o sucesso nas edições anteriores. E os leitores devem dar a sua opinião para que possamos premiar correctamente. Para isso vote em http://tiny.cc/ProgramarED35_V Assim nesta edição trazemos até si, como... Ler o resto desta entrada → 1 Comentários Alternar Bem-vindos ao Portugal-a-Programar Bem-vindos ao Portugal-a-Programar…

Como percebemos facilmente, é apenas texto o que os spiders extraem dos sites. Todo o CSS, imagens e outras técnicas de embelezamento estético de um site são cortadas desta interpretação do nosso conteúdo. Onde nós encontramos caracteres especiais, isso não se torna um problema para o crawler, pois possuem algoritmos que os convertem em texto correcto, na medida em que as páginas HTML possuem no cabeçalho as indicações relativas à codificação do texto, que podem variar de país para país.

 

Rankings dos motores de busca

É aqui que o SEO entra um pouco no domínio do “esotérico”. Sabemos e lemos em tudo o que é livro sobre o tema, que os rankings são definidos através de algoritmos “ultra-secretos” e sofisticados das empresas proprietárias dos motores de busca. No entanto nunca conseguimos saber como é que essas fórmulas realmente funcionam, tornando-se difícil afinar o nosso site para atingir rankings mais elevados.

No entanto são disponibilizadas por estes as linhas mestras de orientação sobre as formas de melhorar um ranking de um site e que nos vão elucidando de qual o caminho a seguir. Outra forma de controlar todo esse processo de optimização, que é contínuo, é ir seguindo o desempenho dos nossos sites, através de ferramentas que iremos apresentar e utilizar, como o Google Analytics (www.google.com/analytics), ou o Statcounter (www.statcounter.com), sendo estas as mais populares das inúmeras à nossa disposição, umas pagas e outras gratuitas. Se a performance se degradar, é sinal que não estamos a utilizar a estratégia mais correcta. Nos próximos artigos irei explicar como utilizar estas ferramentas e outras ferramentas e tirar o máximo partido delas, no processo de optimização dos nossos sites.

Google Analytics

Outro factor que está constantemente a “baralhar” o universo de fieis seguidores da religião SEO, é que os tão badalados algoritmos estão também em constante mudança e aperfeiçoamento, pelo que convém estar atento e seguir as últimas modas. Um site optimizado para as regras de hoje, pode estar menos optimizado no ano seguinte. Além disso é aconselhável que verifiquemos o ranking do nosso site regularmente, de forma a detectarmos alterações menos positivas no nosso ranking.

Qual é o interesse de se atribuírem rankings às páginas web? A resposta é simples, porque as pessoas quando pesquisam algo num motor de busca, esperam encontrar o que procuram! Se não existisse um processo de selecção em que os melhores sites ficam mais bem posicionados, a experiencia do utilizador num motor de pesquisa seria péssima.

O algoritmo do Google para atribuição de ranking a uma página Web chama-se PageRank.

De acordo com uma própria definição antiga da Google (2005), PageRank é:

“PageRank is a link analysis algorithm that assigns a numerical weighting to each element of a hyperlinked set of documents, such as the World Wide Web, with the purpose of “measuring” its relative importance within the set. The algorithm may be applied to any collection of entities with reciprocal quotations and references. The numerical weight that it assigns to any given element E is also called the PageRank of E and denoted by PR(E).”

Que em Português significa que o PageRank é um algoritmo de análise de links que atribui um peso numérico a cada elemento de um conjunto de documentos interligados por links. Este algoritmo pode ser aplicado a uma colecção de entidades com referências reciprocas. O peso numérico que é atribuído ao elemento E, é também chamado de PageRank de E ou PR(E).

Em termos mais abstractos, o PageRank (PR) é uma aferição muito importante da popularidade que determinada página da Internet possui, numa escala de 0 a 10 em que 10 significa “o mais importante” ou de “alta popularidade”.

Podemos também pensar em PR como um conjunto de votos agregados de todas as páginas que “linkam” (hiperligam) para determinada página, como podemos observar pela imagem seguinte (fonte: Wikipedia):

links entre sites - SEO

Um dos sites sobejamente conhecidos por quem se interessa pelo tema, é o www.prchecker.info/, que permite visualizar qual o rank do nosso site, introduzindo o seu endereço num campo de pesquisa, que posteriormente nos devolve o nosso ranking, que pode ir de uma escala de 0 a 10, sendo que 10 é o santo Gral do SEO, onde poucos sites conseguem chegar. Como podem ver pela imagem seguinte, nem o portal www.google.pt consegue atingir essa meta, embora seja uma das páginas mais utilizadas no nosso país:

Pagerank cheker

 

Actualmente, e depois de muitas “mexidas” por parte da Google, muitos são os factores que levam ao cálculo deste número. Não é certo nem sabido como é que a Google atribui esta pontuação, mas este algarismo é o resultado de uma equação composta por múltiplas variáveis, cada qual com o seu peso, como por exemplo o número de links de qualidade que existem para a nossa página, riqueza de keywords, rapidez e desempenho do servidor, etc. etc. Fiquem descansados que entraremos em detalhe em cada um deles, em próximos artigos. Outra mensagem que gostaria que retivessem é que este número não é estático e que varia temporalmente. Umas vezes a Google deixa passar um ano sem lhe mexer, sendo que em outras o altera mensalmente. Não sejamos “fundamentalistas” do PageRank! Este número deve ser encarado como um barómetro, servindo apenas para irmos monitorizando o desempenho SEO do nosso site.

Lembrem-se sempre que a variável com maior peso deve ser sempre o nosso “conteúdo” e a sua qualidade. Os sites são construídos e actualizados a pensar nas pessoas e não para motores de busca! Ao despendermos demasiados recursos com o SEO podemos correr o risco de descuidar no conteúdo e isso sim faz com que as nossas páginas percam visitas! Os principais destinatários dos nossos sites são as pessoas, os bots vêm em segundo lugar!