Não serei muito técnico para não deixar o texto cansativo, todos os conceitos que explicarei abaixo vou dar exemplos práticos como influem diretamente no seu HTML.
Para começar você deve saber o que é IR (Information retrieval) ou Recuperação da Informação para nós. É uma área da Ciência da Informação que está por trás do tratamento e busca por dados e meta dados em documentos.
É de fundamental importância que analistas SEO e SEM entendam os princípios básicos de IR para não bolarem teorias mirabolantes sem base técnica, como acontece e muito nos Estados Unidos. Muitos profissionais de Marketing sem conhecimento de Ciência da Informação bolam teorias de SEO com base em testes, só que montar uma teoria somente por percepção abre uma grande brecha para erros e dupla interpretação.
Etapas de Representação de dados de um Site pelos Mecanismos de Busca
Indexação
Durante o processo de Arquivamento da página (ou indexing) esse documento é preparado para uso por um sistema de IR. O site está todo cru para o sistema, cheio de tags, metatags, caracteres especiais, pontuações etc. Os sistemas precisam do conteúdo todo limpo para poder entender o que a sua página está falando. Então ele transforma o seu documento em uma representação de texto. Nesse processo ele cria duas bibliotecas: uma para expressões regulares e outra para stop words (palavras comuns, ex: que, de, etc.). Também seta alguns filtros e parsers (processadores).
Passos da Indexação
Linearização do Documento
É o processo onde o documento é reduzido somente a termos em minúsculo e sem pontuação. O sistema remove todas as tags HTML, toda a pontuação e acentuação, caracteres especiais e espaços.
O processo onde o texto é tratado após a remoção da marcação é conhecido como Tokenização.Na tokenização o computador é instruído a entender que aquela seqüência de bytes é uma palavra separada da outra. Alguns usam hífen, outros não.
Durante a linearização o CSS é removido. Logo, você percebe que se o seu HTML não estiver em ordem, o buscador vai ter em um primeiro momento uma informação desconexa e poderá entender errado o seu texto. Se você fez pirotecnia no css, mandando um texto que está em primeiro no HTML para o rodapé do site, já está no caminho errado. Por isso a importância do envolvimento de todas as áreas de desenvolvimento no trabalho de SEO.Se você tem um fluxo de informação coerente no seu HTML, na hora que o sistema de IR deixar "pelado" o seu site você estará tranqüilo, pois o carregamento da informação se dará de forma correta. Com os temas das informações sendo coerentes com tópicos e sub tópicos. O posicionamento do texto no seu carregamento na linearização se dá pela sua marcação HTML.
Quando há erros nesse fluxo o índice é avaliado erroneamente, alguns buscadores simplesmente ignoram os erros e você perde peso nessas determinadas áreas da sua página.Filtragem
Neste processo o sistema faz a escolha dos termos que irão "representar" o seu documento, descrevendo o conteúdo e diferenciando a sua página das demais já arquivadas no banco de dados.
É nessa hora que as stop words são ignoradas da representação do texto, pois elas são palavras muito comuns presentes em milhares de textos, se elas fossem levadas em consideração a relevância seria afetada, porque elas não trazem a maior densidade de informação. Essa remoção se dá de forma padronizada, no começo da indexação o sistema cria uma biblioteca de termos muito usados e só os ignora nas representações posteriores como na Filtragem.Deixando os talos
Aqui os termos irão ser reduzidos aos "talos". O sistema detona as variações. Exemplo: as palavras "pensamos", "pensais" e "pensam" vão virar somente "pensa". Nem todos os sistemas usam o mesmo tipo de algoritmo para redução de termos.
Os mecanismos de busca fazem isso para economizar espaço, é uma maneira de reduzir o processamento e indexar mais páginas rapidamente. Existem várias complicações para esse processo que eu particularmente desconheço.E se você está se perguntando: e o que acontece com as variações? Lembre que é só uma representação do seu texto.
Pesos e Rankeamento
Esse é o último passo na maioria de sistemas IR da representação de texto da sua página, é onde os termos "talos" recebem pesos que podem ser atribuídos de diferentes formas, e é exatamente aqui que muitos analistas SEO e SEM começam a "chutação" com teorias mirabolantes como a de Keyword Density.
Quanto mais peso nos elementos on-page mais chances de posicionar o seu site em primeiro lugar nos buscadores, como o Google. Pois alguns fatores e elementos você não pode controlar, agora esses elementos é mais que seu dever como desenvolvedor fazer um bom trabalho.Nos próximos artigos aqui no iMasters vou abordar o que realmente sabemos sobre esses pesos e é nesse ponto que a coisa começa a ficar interessante para escrevermos textos competitivos e com grande densidade de peso nos elementos na página.
Referências:
http://imasters.uol.com.br/artigo/10092/seo/como_o_google_entende_seu_texto/Information Retrieval
Nenhum comentário:
Postar um comentário