Cuil, a guerra do tamanho? – Parte I

Como tem sido recorrente nos últimos dez anos, vários projectos de motores de pesquisa surgiram com o intuito de destronar Google, o motor actualmente mais utilizado em todo o mundo. Foi o que voltou a ocorrer com o Cuil, lançado no passado dia 27 de Julho.

Cuil
Cuil

Nesta primeira parte, falaremos do projecto e principais características. Numa segunda fase, a atenção estará voltada para as reacções, testes e comentários ao desempenho do Cuil.

Cuil pronuncia-se “cool” e significa conhecimento na sua origem irlandesa, oferecendo uma imagem de transparência e inovação (veja-se a simplicidade do site) na forma de trabalhar uma área tão complexa como é a pesquisa e a recuperação de informação relevante na Internet.

O projecto arrancou em 2006 e está encabeçado por excelentes peritos na área da pesquisa, nada mais nada menos que Anna Patterson e Russel Power, dois ex-Google, aos quais se juntou Louis Monier.

Processo utilizado no Cuil

Neste projecto, como em qualquer projecto de indexação, foi recolhido o material – as páginas web, com um robot, o Twiceler. Uma vez capturadas as páginas, foi analisado o seu conteúdo e foram aplicadas técnicas de data mining. Quando um utilizador faz um pedido, o sistema analisa a expressão de pesquisa e apresenta os resultados em contexto. Ou seja, a pessoa escreve simplesmente “jaguar”, sem especificar se a informação que pretende diz respeito ao animal, ao carro ou ao sistema operativo. Essa polissemia é controlada e, na apresentação dos resultados parciais, a pessoa é convidada a precisar, sem ter que reformular a questão ou perder tempo a consultar uma lista de resultados sem interesse para o seu objectivo.

As “bandeiras” do Cuil

Em todos os artigos publicados na imprensa e na página oficial de Cuil sobressaem quatro aspectos neste novo motor de pesquisa.

  • Primeiro – Tamanho do índice

Os criadores do Cuil reclamam que têm um índice 3 vezes superior ao do Google, embora desde há três anos a empresa não divulgue o número de páginas que indexa. No caso do Cuil, o índice foi criado com base em 120 mil milhões de páginas de um total de 186 mil milhões recolhidas. No processo de indexação, manual ou automático, é necessário fazer uma depuração. São rejeitadas páginas duplicadas (a duplicação é uma característica da rede), páginas que constituem armadilhas para o robot, como calendários, porque fica a puxar páginas infinitamente, praticamente vazias de conteúdo.

  • Segundo – Apresentação/ Visualização dos resultados

A aposta para o layout do Cuil foi seguir a dos jornais, ou seja, a disposição dos resultados em três colunas. Trata-se de uma fórmula universalmente testada e bem sucedida na imprensa, por isso uma aposta ganha, pensam os criadores. Argumentam que é mais fácil de ler e mais limpa. Além disso, a pessoa pode ver mais resultados sem recorrer ao cursor. Para cada resultado, existe uma imagem que, segundo os autores, ajuda o utilizador a fazer uma avaliação mais rápida acerca do interesse da página recuperada.

Além da novidade no layout, é oferecida a possibilidade de refinar a pesquisa após um primeiro pedido e respectiva lista de resultados. A técnica usada é a de “clusters” ou tópicos que ajudam a pessoa a redireccionar o sentido da pesquisa.

Também na introdução da expressão da pesquisa funciona a “search suggestion”, ou seja, o sistema vai preenchendo automaticamente a partir dos caracteres que vão sendo digitados.

Neste capítulo, falta mencionar o “safe search” (que também existe na pesquisa avançada do Google Search) e a possibilidade de personalizar o layout. Por defeito o sistema assume 3 colunas e o modo de pesquisa segura, mas cada pessoa pode alterar e gravar as preferências no seu navegador.

  • Terceiro – Critério de ordenação baseado no conteúdo

O ranking é das partes mais sensíveis em todo o processo e é a alma do sistema de pesquisa, porque ninguém deseja uma lista de resultados sem qualquer critério. Os critérios inicialmente utilizados, antes da era Internet, portanto em colecções controladas, eram o alfabético e a data. Com um universo de resultados usualmente amplo, foi necessário desenvolver o critério da relevância, que aliás tem sido exportado para catálogos, bases de dados, etc.

David Sullivan, estudioso desde há uma década dos motores de pesquisa e autor do site Search Engine Land, considera 4 estádios de desenvolvimento nos critérios de ordenação de resultados. Apesar da evolução clara, é possível e desejável que as etapas seguintes incorporem o melhor ou o que continua a ser eficaz das anteriores.

  1. Critério baseado na ánalise do conteúdo das páginas. Corresponde à fase do Lycos, do Infoseek, do Webcrawler, etc. Consistia em apresentar em primeiro lugar as páginas que apresentassem a frequência mais elevada dos termos pesquisados. Também eram consideradas mais relevantes as páginas em que co-ocurressem termos ou que se encontrassem em partes do documento mais importantes, como na etiqueta title, por exemplo. O índice era praticamente uma “cópia” dos textos das páginas web.
  2. Critério que usa a análise dos links das páginas. Este método de cálculo da relevância representou uma revolução e está associado ao PageRank da dupla Page+Brin. Há várias fórmulas, mas a mais eficiente até à data é a de Google que usa o PageRank combinado com outras estratégias. Basicamente, trata-se de medir a relevância de uma página por meio dos links que apontam a essa página, ou seja, através da sua visibilidade na rede. Se outras páginas apontam a essa, parte-se do princípio que é importante. A situação complica-se quando é necessário calcular também a relevância/ autoridade de quem aponta a essa página. Se diversos organismos credíveis apontam a essa página, ela é muito mais relevante. Neste critério, fala-se de votos por meio dos links e de popularidade. O calcanhar de Aquiles desta técnica está no que ficou conhecido por Googlebombing.
  3. Critério de ordenação por tópicos (vertical search). É uma técnica que assenta na ideia elementar que um bom resultado depende muito da pessoa saber ou não o que procura. Assim, apresenta-se ao utilizador uma série de categorias ou tópicos (por temas, por área geográfica ou por tipologia de recursos – imagem, vídeo, blog, etc.) para ajudar a uma pesquisa mais focada. A pesquisa geral na web chama-se horizontal por oposição a este tipo de pesquisa mais especializado. Porém, a prática revele que as pessoas não usam ou não sabem para que serve, pelo que o uso da caixa simples e da pesquisa básica continua a ser preferido.
  4. Critério assente no uso da informação. É a mais recente tendência e utiliza informação dos padrões de comportamento e uso dos utilizadores para melhorar os resultados. O número de cliques, os resultados seleccionados e o tipo de navegação na folha de resultados, conjugado com a personalização da pesquisa, constituem os pontos fortes desta técnica. Trata-se de monitorizar os sites mais visitados, as queries feitas, associando-os a um grupo, ou mais propriamente a um indivíduo, fazendo com que as opções anteriores pesem na apresentação dos resultados futuros. Há quem defenda que o comportamento social pode funcionar para este fim, mas vários peritos dizem que a pesquisa, ao contrário dos favoritos, é um acto muito pessoal e não partilhável. Acrescentaríamos que é também um processo muito dinâmico. Vincent Cerf da Google garante, aliás, que se o Google é popular, isso se deve ao facto de procurar ser útil a cada indivíduo.

O Cuil usa o critério de análise do conteúdo, combinado com a popularidade. Só oferece pesquisa horizontal e não usa o tracking para melhorar resultados, visto não guardar qualquer informação das pesquisas efectuadas.

  • Quarto – Política de privacidade

O Cuil demarca-se substancialmente do Google e de outros motores no activo. Os responsáveis afirmam que não recolhem IP nem usam cookies para conhecer os utilizadores que os visitam. Actualmente, o Google guarda os dados por um período de 18 meses, tendo sido pressionado a estabelecer um prazo de armazenamento por protestos dos seus utilizadores e exigências legais. No Cuil a transparência é total. Respeitam-se os protocolos de proibição de captura por robot (ficheiros robot.txt) e as cookies usadas para personalizar o layout não são armazenadas nos servidores mas localmente no PC do utilizador.

3 thoughts on “Cuil, a guerra do tamanho? – Parte I

  1. Gracias por tu elección. He visitado los sites que has seleccionado y me ha gustado. Intentaré comentar y participar más activamente en los blogs que leo.

    Saludos de Portugal

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s