Competições na área da recuperação da informação

Um dos motores da inovação é, quer se goste quer não, a competição e o jogo. É muito comum nas áreas científicas, como astronomia, robótica, inteligência artificial, etc. A área da Information Retrieval também tem as suas competições, as TREC Text REtrieval Conference.
As “conferências-desafios” realizam-se anualmente e a elas concorrem investigadores, a título individual, universidades ou organismos governamentais.
Trata-se de uma iniciativa do NIST National Institut of Standards and Technologies e do Departamento de Defesa norte americano.
A ideia faz lembrar um jogo para passar o tempo, mas que tem imensa importância e impacto no sector da indexação e recuperação automáticas. Muitos produtos comerciais e ferramentas que conhecemos têm incorporadas técnicas que foram trabalhadas nestas competições. Aliás, um dos grandes objectivos da iniciativa é acelerar o processo de transferência tecnológica do meio académico ao mercado e à comunidade. Outro objectivo óbvio é a avaliação de sistemas de indexação e recuperação da informação.

Linhas de trabalho…
Não se pense que estas competições se desenrolam com atenção única à recuperação de texto. Existem uma série de áreas nas quais os candidatos se podem inscrever. Por exemplo: Blog (exploração da pesquisa de informação na blogosfera), Genoma (pesquisa de informação relacionada com a sequência dos genes, mas também com a documentação e laboratórios), Legal, Vídeo, Spam, etc.
Há uma área curiosa que é a das Perguntas. O objectivo é trabalhar a pesquisa e apresentação de informação que não seja um conjunto de textos, mas informação já “elaborada” e especialmente preparada para atender à pregunta realizada. Em geral, essa pregunta é feita em linguagem natural, que é outro trabalho de Hércules…
Uma área com bastante visibilidade, que até originou umas conferências próprias, é a das Línguas. Essas competições chamam-se CLEF (Cross-Language Evaluation Forum) e têm muita expressão na Europa, conhecendo o apoio directo de DELOS Network of Excellence for Digital Libraries. E compreende-se porquê. Não só, porque as colecções são em várias línguas, sobretudo se entendermos a biblioteca digital como sem fronteiras, veja-se o projecto da Biblioteca Digital Europeia, mas também porque cada vez mais os públicos são provenientes de vários países.
Uma pessoa que consulta um sistema de informação na sua língua materna deve recuperar não só os documentos nessa língua, mas todos os que existem, mesmo que noutras línguas. Isto obriga a que os sistemas de indexação e recuperação das colecções estejam preparados para “compreender” a query, a traduzi-la nas línguas em que existem os documentos e a apresentar os mais interessantes para essa necessidade.
É habitual nestes casos o uso de dicionários, tesauros, vocabulários controlados, metadados, ou combinações destes meios. Babelfish, Systran, Globallink Power Translator são algumas das ferramentas que beneficiaram das conferências e do “gozo” colectivo que geram.
Apesar de haver muitas áreas a concurso, o que é natural é que as entidades se especializem num ramo, porque é impossível dominar todas as especificidades. Essa escolha está sempre relacionada com projectos que já desenvolvem nas suas instituições ou com necessidades reais das suas comunidades.

“Regras do jogo”
O funcionamento é simples: existe uma colecção enorme de documentos e um grupo de perguntas (topics). Na colecção geral de documentos estão os que interessa recuperar para cada uma das perguntas (pool), mas é claro que o universo de documentos é muito maior e não se limita aos documentos que se relacionam com as respostas.
O “jogo” consiste em preparar e configurar os sistemas de modo a conseguir nos resultados:

  • recuperar todos os documentos assinalados como relevantes para uma determinada pregunta (recall)
  • ordenar esses documentos relevantes nas primeiras posições do ranking (precision)

Na imagem podemos ver que o sistema B foi mais eficiente que o sistema A, porque recuperou mais documentos do total de relevantes. Já o sistema A apresenta muitos documentos da colecção que não são importantes para a pergunta formulada.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s