Jose Leite SEO | SEM | Web marketing em Portugues e CONSULTORIA

Como funciona um motor de busca – Parte II

· 0 comentários

Segunda parte da saga sobre SEO: Como funciona um motor de busca: Processamento

Como funciona um motor de busca – Parte II

Processamento de Páginas

O processador de páginas prepara, procura e compila páginas, documentos ou sites. Um processador faz algumas das seguintes tarefas:
• Normaliza o documento
• Divide o documento em partes de acordo com as unidades pretendidas
• Identifica os elementos indexáveis
• Elimina stop words
• Redução ao termo base
• Extrai as entradas do índice
• Cria e actualiza o ficheiro inverso

Tudo começa na normalização dos diferentes documentos (formatos) existentes de diferentes provedores ou websites. Este processo serve para juntar todos os dados numa estrutura de dados consistente. É bastante importante na medida em que os ponteiros guardados no ficheiro invertido vão activar o sistema para recolher vários tamanhos unitários (site, página, secção, parágrafo, frase, …).
A identificação do potencial de indexação dos elementos no documento é de uma importância dramática porque afecta a natureza da qualidade de representação do documento que o motor de busca procura.
Quando se desenha um sistema deste tipo, deve ser definida a palavra ‘termo’. O que é um termo? Uma palavra alfa-numérica com ou sem pontuação? Várias palavras ordenadas ou sem ordenação? Isto é um problema pois existem palavras que isoladas têm um sentido completamente diferente. Por exemplo, alguns estrangeirismos muito comerciais como “hot dog”, têm uma representação que separadamente não se encontra com esse significado individual de cada palavra, não podendo ainda ser definida com base em apenas uma palavra.
Cada motor de busca define as suas regras e o processador executa-as. O separador das palavras (Tokenizer) deve seguir assim estas regras para que a estrutura de dados seja consistente.
O passo seguinte é eliminar as stop words para aumentar o potencial de correspondência nas pesquisas nos termos com menor valor na pesquisa. As stop words são geralmente as palavras tais como substantivos de pouca significância tais como:
• Artigos (a, o os, as)
• Conjunções (e, ou)
• Interjeições (oh, nas)
• Proposições (dentro, cima, baixo)
• Pronomes (ele, ela, isto)
• Formas do verbo ser (é, são)
De forma a eliminar estas palavras um algoritmo compara os termos candidatos ao índice no documento com a lista de stop words e elimina os correspondentes para não serem indexados para pesquisa.
A redução ao termo base pretende remover os sufixos das palavras, talvez recursivamente (penso que só assim o conseguirá). Este processo tem dois grandes objectivos:
• Eficiência – reduz o número de palavras únicas indexadas
• Eficácia – melhora as chamadas ao índice
A redução ao termo base significa reduzir uma série de palavras a um termo base entre elas, do qual todas elas derivam. Por exemplo, para a palavra ‘analisado’ temos:
Base: anali
Variantes: analisado, analista, analisou, analise, …..
Desta forma, uma pesquisa por análise poderão existir motores de busca de definam iguais possibilidades para todas as variantes de um termo base pesquisado, ou seja, todas as variantes podem ter oportunidade de ser colocadas como resposta à pesquisa. Isto nunca poderia acontecer sem a lógica do termo base, pois cada termo seria uma entrada única no índice e não existiria esta possibilidade.
Após a redução ao termo base, o texto lido pelo spider irá ficar reduzido à sua forma mais básica. Agora tem de ser inserido no ficheiro invertido que lista todas as entradas e a respectiva posição e frequência.
O peso é atribuído aos termos no ficheiro do índice. É sempre feita uma comparação sobre as frequências no índice e no documento. Este processo pode ser mais ou menos complexo dependendo do algoritmo utilizado (vai desde o 0-1 até algoritmos bastante complexos).
O índice ou ficheiro invertido é a estrutura de dados interna que guarda a informação indexada que será pesquisada. Ficheiros invertidos quanto mais complexos maior a qualidade que devolvem aos resultados da pesquisa.

Ler mais deste artigo de Jose Leite......

Videos SEO - Analytics

· 0 comentários

Videos SEO - Analytics: Vídeo de uma palestra com dicas muito interessantes do Avinash, nosso evangelista de Web Analytics.

Pequenas mudanças, grandes ganhos!!

Ler mais deste artigo de Jose Leite......

Jose leite consultoria SEO | SEM

· 0 comentários

Novidade Yahoo:

http://ping.fm/irR1P

Mobile post sent by joseleite using Utterlireply-count Replies.

Ler mais deste artigo de Jose Leite......

Como funciona um motor de busca – I

· 0 comentários

jose leite seo
O que sao motores de busca e como funcionam? Veja aqui a primeira parte da informação.

Como funciona um motor de busca – I
Motor de busca é um termo popular para um sistema de recolha de informação (IR). Enquanto os investigadores e programadores têm uma visão abrangente do IR, os utilizadores vêem-no como algo que responde a “o que eu quero que me digas é…”, ou seja, perguntas a bases de dados.

Os motores de busca fazem a correspondência entre uma pesquisa e o sue índice, criados por eles próprios. Este índice corresponde a palavras de cada página mais ponteiros para as respectivas localizações nas páginas. A isto chama-se de ficheiro invertido.
Um motor de busca deve ter um compromisso com os seguintes tópicos:
Processamento de página
Processamento de pesquisa
Função de correspondência
Capacidade de ranking

A influência dos utilizadores é assim em apenas um dos factores (Processamento de pesquisa), não sendo por isso menos relevante para a boa performance.

Ler mais deste artigo de Jose Leite......

EVENTO: Practitioner Web Analytics Lisboa 2009

· 0 comentários

Lisboa, 21 de Maio de 2009. Um evento exclusivo e uma referência no domínio do online marketing desde a sua primeira edição em 2008.

Com a participação de Avinash Kaushik entre outros especialistas.

Um workshop professional para aprender com Avinash Kaushik e outros especialistas da indústria. Web Analytics, Business Cases, KPI’s, Networking e muito mais ao longo de 1 dia de prática em web analytics.
Inscreva-se no Practitioner Web Analytics Lisboa 2009

Ler mais deste artigo de Jose Leite......

Analytics: Avinash Kaushik em Português

· 0 comentários

veja aqui um vídeo de Avinash Kaushik sobre o GA em Português

Já sabe tudo sobre o Google Analytics? Fique a saber algo mais com este vídeo.

Ler mais deste artigo de Jose Leite......

SEO - liberdade de copy no 25 de Abril

· 0 comentários

Hoje somos livres derepetir palavras para aumentar o SEO

25 de ABRIL
SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO,SEO, SEO, SEO.
25 de Abril SEMPRE.
Não o vivi mas espero que não precise de o viver mais tarde. Obrigado a quem oo conseguiu.

Ler mais deste artigo de Jose Leite......

Adicionar iGoogle

Adicionar iGoogle

Fotos de José Leite

Loading...

A minha radio blog