Como funcionam os motores de pesquisa da World Wide Web?

Todos os utilizadores da Internet recorrem frequentemente aos motores de pesquisa que têm à sua disposição para procurar informação das temáticas mais variadas. Seja o Google, o Yahoo ou o Bing, um motor de pesquisa é um programa de computador construído para procurar informação na Web, sendo interessante refletir sobre a maneira como tais programas organizam e tornam acessível a inimaginável quantidade de informação que existe nos biliões de páginas dispersas por cerca de meio milhão de servidores da Internet.


Apesar da evolução tecnológica, a pesquisa em tempo real nesta imensidão de páginas é ainda ficção. Para isso, os motores de pesquisa recolhem e condensam todas essas páginas, em segundo plano. Teoricamente seria possível colocar estes resumos na memória de um conjunto reduzido de servidores, mas devido ao armazenamento simultâneo de conteúdos de páginas e ao elevado número de pessoas que efetuam pesquisas ao mesmo tempo (cerca de 800 mil pedidos por segundo), o número de servidores para o efeito chega a atingir os milhares, espalhados pelo mundo, interligados por uma rede exclusiva. Dependendo da importância das páginas, os motores de pesquisa efetuam esta recolha com maior, ou menor, frequência.


Neste momento, o motor de pesquisa encontra-se preparado para responder, com rapidez, quais as páginas que nos interessam com base num conjunto de palavras que digitamos. Como é que o motor de pesquisa seleciona, ordena e quais são as mais importantes?


Inicialmente, esta seriação era feita pela contagem do número de vezes que as palavras dos utilizadores surgiam nos documentos.


Mas, em 1996, Larry Page e Sergey Brin, os fundadores do motor de pesquisa Google, criaram um algoritmo engenhoso, chamado PageRank, em que a importância de uma página é dada pela importância das páginas que lhe ligam.


Atualmente, o PageRank tem sido gradualmente substituído por técnicas mais avançadas de inteligência artificial e aprendizagem automática, como é o caso do recente sistema de ordenação de páginas, Google Panda, adotado em 2011.

José Exposto e M. Fátima Pacheco (Instituto Politécnico de Bragança) - 2013-06-04 14:52:43