Guia de apoio à investigação

Elaborei este guia para orientar, de alguma forma, quem pressente que pode tirar partido da Internet mas não sabe exactamente como. Este facto não é de estranhar, dada a variedade de escolha e de possibilidades que surgem continuamente. Mesmo os gestores de referências bibliográficas clássicos já renovaram modos de pesquisa e funcionalidades, de forma que quem tenha feito investigação há uns anos atrás tem de fazer uma reciclagem.

A selecção é questionável, aliás como qualquer selecção, por isso desafio aqueles que conhecem e usam outras aplicações que lhes são muito úteis a deixarem o relato e a darem o seu testemunho. Terei todo o gosto em incluir essas sugestões em próxima revisão deste guia.

Fica o link para download do documento: Pequeno guia do investigador

Competições na área da recuperação da informação

Um dos motores da inovação é, quer se goste quer não, a competição e o jogo. É muito comum nas áreas científicas, como astronomia, robótica, inteligência artificial, etc. A área da Information Retrieval também tem as suas competições, as TREC Text REtrieval Conference.
As “conferências-desafios” realizam-se anualmente e a elas concorrem investigadores, a título individual, universidades ou organismos governamentais.
Trata-se de uma iniciativa do NIST National Institut of Standards and Technologies e do Departamento de Defesa norte americano.
A ideia faz lembrar um jogo para passar o tempo, mas que tem imensa importância e impacto no sector da indexação e recuperação automáticas. Muitos produtos comerciais e ferramentas que conhecemos têm incorporadas técnicas que foram trabalhadas nestas competições. Aliás, um dos grandes objectivos da iniciativa é acelerar o processo de transferência tecnológica do meio académico ao mercado e à comunidade. Outro objectivo óbvio é a avaliação de sistemas de indexação e recuperação da informação.

Linhas de trabalho…
Não se pense que estas competições se desenrolam com atenção única à recuperação de texto. Existem uma série de áreas nas quais os candidatos se podem inscrever. Por exemplo: Blog (exploração da pesquisa de informação na blogosfera), Genoma (pesquisa de informação relacionada com a sequência dos genes, mas também com a documentação e laboratórios), Legal, Vídeo, Spam, etc.
Há uma área curiosa que é a das Perguntas. O objectivo é trabalhar a pesquisa e apresentação de informação que não seja um conjunto de textos, mas informação já “elaborada” e especialmente preparada para atender à pregunta realizada. Em geral, essa pregunta é feita em linguagem natural, que é outro trabalho de Hércules…
Uma área com bastante visibilidade, que até originou umas conferências próprias, é a das Línguas. Essas competições chamam-se CLEF (Cross-Language Evaluation Forum) e têm muita expressão na Europa, conhecendo o apoio directo de DELOS Network of Excellence for Digital Libraries. E compreende-se porquê. Não só, porque as colecções são em várias línguas, sobretudo se entendermos a biblioteca digital como sem fronteiras, veja-se o projecto da Biblioteca Digital Europeia, mas também porque cada vez mais os públicos são provenientes de vários países.
Uma pessoa que consulta um sistema de informação na sua língua materna deve recuperar não só os documentos nessa língua, mas todos os que existem, mesmo que noutras línguas. Isto obriga a que os sistemas de indexação e recuperação das colecções estejam preparados para “compreender” a query, a traduzi-la nas línguas em que existem os documentos e a apresentar os mais interessantes para essa necessidade.
É habitual nestes casos o uso de dicionários, tesauros, vocabulários controlados, metadados, ou combinações destes meios. Babelfish, Systran, Globallink Power Translator são algumas das ferramentas que beneficiaram das conferências e do “gozo” colectivo que geram.
Apesar de haver muitas áreas a concurso, o que é natural é que as entidades se especializem num ramo, porque é impossível dominar todas as especificidades. Essa escolha está sempre relacionada com projectos que já desenvolvem nas suas instituições ou com necessidades reais das suas comunidades.

“Regras do jogo”
O funcionamento é simples: existe uma colecção enorme de documentos e um grupo de perguntas (topics). Na colecção geral de documentos estão os que interessa recuperar para cada uma das perguntas (pool), mas é claro que o universo de documentos é muito maior e não se limita aos documentos que se relacionam com as respostas.
O “jogo” consiste em preparar e configurar os sistemas de modo a conseguir nos resultados:

  • recuperar todos os documentos assinalados como relevantes para uma determinada pregunta (recall)
  • ordenar esses documentos relevantes nas primeiras posições do ranking (precision)

Na imagem podemos ver que o sistema B foi mais eficiente que o sistema A, porque recuperou mais documentos do total de relevantes. Já o sistema A apresenta muitos documentos da colecção que não são importantes para a pergunta formulada.

Uso e investigação

No III Encuentro Ibérico de Docentes e Investigadores en Información y Documentación, Miquel Térmens [Departamento de Biblioteconomia e Documentação da Universidade de Barcelona] lançou uma proposta de estudo da investigação de uma instituição a partir do uso das revistas electrónicas.

Está mais ou menos estabelecida a prática de medir a produção em investigação através do número de artigos científicos e teses publicadas. A análise das referências de trabalhos por outros é também um indicador desse dinamismo e impacto da investigação. Nesta proposta, porém, o facto mais interessante é focar a análise não no resultado da investigação, mas no processo que a antecede e a alimenta, ou seja, no consumo de informação pelos investigadores.

Os resultados apresentados circunscreveram-se ao estudo do Consorcio de Bibliotecas Universitarias de Cataluña (CBUC) e às revistas electrónicas.

Foi possível concluir que havia assimetrias significativas no uso das revistas electrónicas pelas diferentes instituições do consórcio e que a um maior consumo estava associado um nível de investigação superior.

Em suma, os estudos de uso dos recursos devem servir para gerir as colecções e medir a satisfação dos utilizadores, mas também constituem um indicador interessante para a avaliação da investigação.