Segunda parte da saga sobre SEO: Como funciona um motor de busca: Processamento
Como funciona um motor de busca – Parte II
Processamento de Páginas
O processador de páginas prepara, procura e compila páginas, documentos ou sites. Um processador faz algumas das seguintes tarefas:
• Normaliza o documento
• Divide o documento em partes de acordo com as unidades pretendidas
• Identifica os elementos indexáveis
• Elimina stop words
• Redução ao termo base
• Extrai as entradas do índice
• Cria e actualiza o ficheiro inverso
Tudo começa na normalização dos diferentes documentos (formatos) existentes de diferentes provedores ou websites. Este processo serve para juntar todos os dados numa estrutura de dados consistente. É bastante importante na medida em que os ponteiros guardados no ficheiro invertido vão activar o sistema para recolher vários tamanhos unitários (site, página, secção, parágrafo, frase, …).
A identificação do potencial de indexação dos elementos no documento é de uma importância dramática porque afecta a natureza da qualidade de representação do documento que o motor de busca procura.
Quando se desenha um sistema deste tipo, deve ser definida a palavra ‘termo’. O que é um termo? Uma palavra alfa-numérica com ou sem pontuação? Várias palavras ordenadas ou sem ordenação? Isto é um problema pois existem palavras que isoladas têm um sentido completamente diferente. Por exemplo, alguns estrangeirismos muito comerciais como “hot dog”, têm uma representação que separadamente não se encontra com esse significado individual de cada palavra, não podendo ainda ser definida com base em apenas uma palavra.
Cada motor de busca define as suas regras e o processador executa-as. O separador das palavras (Tokenizer) deve seguir assim estas regras para que a estrutura de dados seja consistente.
O passo seguinte é eliminar as stop words para aumentar o potencial de correspondência nas pesquisas nos termos com menor valor na pesquisa. As stop words são geralmente as palavras tais como substantivos de pouca significância tais como:
• Artigos (a, o os, as)
• Conjunções (e, ou)
• Interjeições (oh, nas)
• Proposições (dentro, cima, baixo)
• Pronomes (ele, ela, isto)
• Formas do verbo ser (é, são)
De forma a eliminar estas palavras um algoritmo compara os termos candidatos ao índice no documento com a lista de stop words e elimina os correspondentes para não serem indexados para pesquisa.
A redução ao termo base pretende remover os sufixos das palavras, talvez recursivamente (penso que só assim o conseguirá). Este processo tem dois grandes objectivos:
• Eficiência – reduz o número de palavras únicas indexadas
• Eficácia – melhora as chamadas ao índice
A redução ao termo base significa reduzir uma série de palavras a um termo base entre elas, do qual todas elas derivam. Por exemplo, para a palavra ‘analisado’ temos:
Base: anali
Variantes: analisado, analista, analisou, analise, …..
Desta forma, uma pesquisa por análise poderão existir motores de busca de definam iguais possibilidades para todas as variantes de um termo base pesquisado, ou seja, todas as variantes podem ter oportunidade de ser colocadas como resposta à pesquisa. Isto nunca poderia acontecer sem a lógica do termo base, pois cada termo seria uma entrada única no índice e não existiria esta possibilidade.
Após a redução ao termo base, o texto lido pelo spider irá ficar reduzido à sua forma mais básica. Agora tem de ser inserido no ficheiro invertido que lista todas as entradas e a respectiva posição e frequência.
O peso é atribuído aos termos no ficheiro do índice. É sempre feita uma comparação sobre as frequências no índice e no documento. Este processo pode ser mais ou menos complexo dependendo do algoritmo utilizado (vai desde o 0-1 até algoritmos bastante complexos).
O índice ou ficheiro invertido é a estrutura de dados interna que guarda a informação indexada que será pesquisada. Ficheiros invertidos quanto mais complexos maior a qualidade que devolvem aos resultados da pesquisa.
Como funciona um motor de busca – Parte II
Etiquetas: motores de busca, seo
Videos SEO - Analytics
Videos SEO - Analytics: Vídeo de uma palestra com dicas muito interessantes do Avinash, nosso evangelista de Web Analytics.
Pequenas mudanças, grandes ganhos!!
Como funciona um motor de busca – I

O que sao motores de busca e como funcionam? Veja aqui a primeira parte da informação.
Como funciona um motor de busca – I
Motor de busca é um termo popular para um sistema de recolha de informação (IR). Enquanto os investigadores e programadores têm uma visão abrangente do IR, os utilizadores vêem-no como algo que responde a “o que eu quero que me digas é…”, ou seja, perguntas a bases de dados.
Os motores de busca fazem a correspondência entre uma pesquisa e o sue índice, criados por eles próprios. Este índice corresponde a palavras de cada página mais ponteiros para as respectivas localizações nas páginas. A isto chama-se de ficheiro invertido.
Um motor de busca deve ter um compromisso com os seguintes tópicos:
• Processamento de página
• Processamento de pesquisa
• Função de correspondência
• Capacidade de ranking
•
A influência dos utilizadores é assim em apenas um dos factores (Processamento de pesquisa), não sendo por isso menos relevante para a boa performance.
EVENTO: Practitioner Web Analytics Lisboa 2009
Lisboa, 21 de Maio de 2009. Um evento exclusivo e uma referência no domínio do online marketing desde a sua primeira edição em 2008.
Com a participação de Avinash Kaushik entre outros especialistas.
Um workshop professional para aprender com Avinash Kaushik e outros especialistas da indústria. Web Analytics, Business Cases, KPI’s, Networking e muito mais ao longo de 1 dia de prática em web analytics.
Inscreva-se no Practitioner Web Analytics Lisboa 2009
Analytics: Avinash Kaushik em Português
veja aqui um vídeo de Avinash Kaushik sobre o GA em Português
Já sabe tudo sobre o Google Analytics? Fique a saber algo mais com este vídeo.
SEO - liberdade de copy no 25 de Abril
Hoje somos livres derepetir palavras para aumentar o SEO
25 de ABRIL 
SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO.
25 de Abril SEMPRE.
Não o vivi mas espero que não precise de o viver mais tarde. Obrigado a quem oo conseguiu.
Etiquetas: seo
Etiquetas
- seo (21)
- adwords (7)
- analytics (6)
- SEM (4)
- links (3)
- manual de SEO (3)
- Palavras chave (2)
- google (2)
- motores de busca (2)
- Indexação (1)
- blogging (1)
- concentrador (1)
- e-commerce (1)
- google chrome (1)
- hub (1)
- page rank (1)
- robots.txt (1)
- sitelink (1)
- sitemap (1)
- tv em directo (1)
- yahoo (1)


