Mister NASA: Como o Google entende seu texto

Se você gosta de Web Writer, essa é uma boa hora para conhecer como os mecanismos de busca processam o seu texto, e como você pode escrever um bom texto entendendo essa lógica. Esses conceitos são conhecidos por poucas pessoas aqui no Brasil, então sinta-se privilegiado ao final da leitura.

Não serei muito técnico para não deixar o texto cansativo, todos os conceitos que explicarei abaixo vou dar exemplos práticos como influem diretamente no seu HTML.

Para começar você deve saber o que é IR (Information retrieval) ou Recuperação da Informação para nós. É uma área da Ciência da Informação que está por trás do tratamento e busca por dados e meta dados em documentos.

É de fundamental importância que analistas SEO e SEM entendam os princípios básicos de IR para não bolarem teorias mirabolantes sem base técnica, como acontece e muito nos Estados Unidos. Muitos profissionais de Marketing sem conhecimento de Ciência da Informação bolam teorias de SEO com base em testes, só que montar uma teoria somente por percepção abre uma grande brecha para erros e dupla interpretação.

Etapas de Representação de dados de um Site pelos Mecanismos de Busca

Indexação

Durante o processo de Arquivamento da página (ou indexing) esse documento é preparado para uso por um sistema de IR. O site está todo cru para o sistema, cheio de tags, metatags, caracteres especiais, pontuações etc. Os sistemas precisam do conteúdo todo limpo para poder entender o que a sua página está falando. Então ele transforma o seu documento em uma representação de texto. Nesse processo ele cria duas bibliotecas: uma para expressões regulares e outra para stop words (palavras comuns, ex: que, de, etc.). Também seta alguns filtros e parsers (processadores).

Passos da Indexação

Linearização do Documento

É o processo onde o documento é reduzido somente a termos em minúsculo e sem pontuação. O sistema remove todas as tags HTML, toda a pontuação e acentuação, caracteres especiais e espaços.

O processo onde o texto é tratado após a remoção da marcação é conhecido como Tokenização.

Na tokenização o computador é instruído a entender que aquela seqüência de bytes é uma palavra separada da outra. Alguns usam hífen, outros não.

Durante a linearização o CSS é removido. Logo, você percebe que se o seu HTML não estiver em ordem, o buscador vai ter em um primeiro momento uma informação desconexa e poderá entender errado o seu texto. Se você fez pirotecnia no css, mandando um texto que está em primeiro no HTML para o rodapé do site, já está no caminho errado. Por isso a importância do envolvimento de todas as áreas de desenvolvimento no trabalho de SEO.

Se você tem um fluxo de informação coerente no seu HTML, na hora que o sistema de IR deixar "pelado" o seu site você estará tranqüilo, pois o carregamento da informação se dará de forma correta. Com os temas das informações sendo coerentes com tópicos e sub tópicos. O posicionamento do texto no seu carregamento na linearização se dá pela sua marcação HTML.

Quando há erros nesse fluxo o índice é avaliado erroneamente, alguns buscadores simplesmente ignoram os erros e você perde peso nessas determinadas áreas da sua página.

Filtragem

Neste processo o sistema faz a escolha dos termos que irão "representar" o seu documento, descrevendo o conteúdo e diferenciando a sua página das demais já arquivadas no banco de dados.

É nessa hora que as stop words são ignoradas da representação do texto, pois elas são palavras muito comuns presentes em milhares de textos, se elas fossem levadas em consideração a relevância seria afetada, porque elas não trazem a maior densidade de informação. Essa remoção se dá de forma padronizada, no começo da indexação o sistema cria uma biblioteca de termos muito usados e só os ignora nas representações posteriores como na Filtragem.

Deixando os talos

Aqui os termos irão ser reduzidos aos "talos". O sistema detona as variações. Exemplo: as palavras "pensamos", "pensais" e "pensam" vão virar somente "pensa". Nem todos os sistemas usam o mesmo tipo de algoritmo para redução de termos.

Os mecanismos de busca fazem isso para economizar espaço, é uma maneira de reduzir o processamento e indexar mais páginas rapidamente. Existem várias complicações para esse processo que eu particularmente desconheço.

E se você está se perguntando: e o que acontece com as variações? Lembre que é só uma representação do seu texto.

Pesos e Rankeamento

Esse é o último passo na maioria de sistemas IR da representação de texto da sua página, é onde os termos "talos" recebem pesos que podem ser atribuídos de diferentes formas, e é exatamente aqui que muitos analistas SEO e SEM começam a "chutação" com teorias mirabolantes como a de Keyword Density.

Quanto mais peso nos elementos on-page mais chances de posicionar o seu site em primeiro lugar nos buscadores, como o Google. Pois alguns fatores e elementos você não pode controlar, agora esses elementos é mais que seu dever como desenvolvedor fazer um bom trabalho.

Nos próximos artigos aqui no iMasters vou abordar o que realmente sabemos sobre esses pesos e é nesse ponto que a coisa começa a ficar interessante para escrevermos textos competitivos e com grande densidade de peso nos elementos na página.

Referências:

http://imasters.uol.com.br/artigo/10092/seo/como_o_google_entende_seu_texto/

Mi is lita

Information Retrieval

Mister NASA

Seja bem vindo

terça-feira, 23 de setembro de 2008

Como o Google entende seu texto

Etapas de Representação de dados de um Site pelos Mecanismos de Busca

Indexação

Passos da Indexação

Linearização do Documento

Filtragem

Deixando os talos

Pesos e Rankeamento

Referências:

Nenhum comentário:

Mister NASA

Quem sou eu

Para quem nunca viu

Arquivo do blog

Marcadores

Mister NASA

Seja bem vindo

terça-feira, 23 de setembro de 2008

Como o Google entende seu texto

Etapas de Representação de dados de um Site pelos Mecanismos de Busca

Indexação

Passos da Indexação

Linearização do Documento

Filtragem

Deixando os talos

Pesos e Rankeamento

Referências:

Nenhum comentário:

Mister NASA

Quem sou eu

Para quem nunca viu

Arquivo do blog

Inscrever-se

Marcadores