Alargar e automatizar o acesso à informação

De há um tempo para cá multiplicam-se as referências relacionadas com conversores e técnicas de pesquisa alargadas. É um passo muito significativo no universo da informação, por isso não queria deixar de abordá-lo aqui, embora reconheça que não tenho um conhecimento cabal da matéria nem uma perspectiva bem delineada do que se está a passar, tal é a catadupa de informações, projectos retomados, abandonados, melhorados, entrecruzados, ou potenciados para diferentes usos.

O mote é normalizar para universalizar

Quem se movimenta na Rede sabe que a sua base do sucesso são os protocolos universais e as normas adoptadas por todos os que nela querem intervir. Regra de ouro para o acesso e a comunicação sem barreiras tecnológicas (e ideológicas, embora este post se ocupe das respostas dadas pela tecnologia para o acesso universal).

À necessidade de protocolos de comunicação universais, estáveis e fiáveis, juntaram-se os indispensáveis conversores de formatos. Uma profusão de formatos texto, áudio, vídeo, imagem, compressão, etc., passaram a povoar a rede. Veja-se a título de exemplo a base de dados do InfoFile.net Pontualmente, temos de converter um formato noutro para podermos aceder à informação, porque a nossa aplicação não lê o formato original de recepção. Essa incompatibilidade é muito frequente em sistemas Windows que não lêem documentos do OpenOffice nem reconhecem o flash tão usual na web.

Porém, e sem que as fases anteriores estejam de todo resolvidas, pois persistem os problemas de codificação das páginas HTML e a eterniza-se a convivência entre formatos mais adoptados e outros menos frequentes ou com código fechado, desenha-se uma fase de alcance bem mais ambicioso e de grande impacto. A conversão já não se coloca entre os formatos de uma mesma família, mas entre famílias de formatos. O que está a ser equacionado não é converter flv em avi (campo do vídeo), mas converter vídeo em texto, texto em áudio, etc.

Um futuro com contornos já visíveis

O universo de informação que consultamos através dos motores de pesquisa é assustadoramente pequeno e pobre em relação ao volume e qualidade da informação realmente disponível. Todos já ouviram falar do iceberg da web profunda, do qual só conhecemos a ponta. Se juntarmos a isso as imensas fontes de informação que estão a ser digitalizadas, a quantidade de documentos audiovisuais, que têm sido o quebra-cabeças na indexação, e a enormidade de ficheiros digitais que estão a ser criados por novas aplicações que não existiam sequer (as gravações das chamadas telefónicas, por exemplo), estamos razoavelmente conscientes do volume de informação que não é tratado nem integrado no fluxo.

Empresas, investigadores, cidadãos, trabalham na procura de soluções. E basta uma simples pesquisa (em qualquer língua) para recuperar software que converte texto em áudio ou áudio em texto. O tratamento da imagem e do vídeo são, porém, mais complexos e estão a ser liderados por empresas como o Google.

As vantagens da conversão são inúmeras e beneficiam todos. Ao utilizador final dão-lhe uma liberdade e flexibilidade até agora impossíveis. As apresentações e o website podem ser complementados com ficheiros áudio a partir de texto sempre que o visitante queira. Ditar texto que é escrito é outra vertente interessante. Mas é óbvio que a conversão da voz humana em texto está sobretudo trabalhada para o inglês e que as técnicas de reconhecimento de voz têm ainda muito que evoluir. Na viagem de carro para o emprego, ouvem-se as notícias, os blogs, o correio electrónico, o relatório que ficou por ler. Deixo o exemplo da enciclopédia Knol que oferece 243 artigos com registo áudio alternativo, basta no formulário de pesquisa avançada activar a opção “Show only knols that can be played back in audio form”.

Uma outra consequência positiva para a sociedade é a acessibilidade para pessoas com deficiência, privadas da capacidade de ouvir ou ver. Existem também soluções que convertem texto em braille e braille em texto ou voz.

Paralelamente, estas tecnologias criam novas oportunidades, beneficiando empresas atentas e inovadoras no desenho de negócios. Com uma ferramenta de conversão do áudio em texto, é possível automatizar a extracção das letras das músicas e oferecer esse extra aos clientes ou criar uma base de dados de letras com pesquisa em full text.

Mas o centro da actividade está no negócio da pesquisa e na janela de oportunidade para uma recuperação da informação mais abrangente e eficaz.

Algumas tecnologias em prova

Como referi anteriormente, as imagens e os vídeos colocam desafios maiores. Não é minha intenção passar a imagem que o único actor neste universo é a empresa Google, porque há certamente outros projectos. Mas por uma questão de comodidade e fácil acesso à informação, centrei os exemplos nesta entidade.

Google Image Labeler

Cada vez é mais frequente as empresas usarem a chamada inteligência colectiva para melhorar os seus produtos. Google Image Labeler apela à colaboração dos utilizadores de Gogole Search no sentido de ajudarem a melhorar os resultados na pesquisa das imagens. Este é um processo que está a ser adoptado por várias instituições, como a Library of Congress no Flickr, que aproveita o voluntarismo para enriquecer os metadados associados às imagens, tratando fondos grandes em pouco tempo. No artigo do blog da BC os números de visualizações, comentários e o impressionante númerod e etiquetas em todas as línguas.

A aplicação do Google Image Labeler dá à pessoa dois minutos e pretende que ela acrescente tantas etiquetas quantas as que conseguir recordar e associar à imagem. Dois aspectos devem ser tidos em linha de conta: propor etiquetas que ainda não tenham sido sugeridas pelo nosso adversário; procurar sugerir etiquetas específicas. É mais importante identificar na imagem o tipo de pássaro, por exemplo andorinha, que dizer simplesmente pássaro. Suponho que os utilizadores contribuam generosamente, porque o serviço foi concebido numa base de jogo e torna-se muito aliciante. Desconheço se é possível sugerir etiquetas noutras línguas.

Segue a minha experiência. É possível ver no canto superior esquerdo o contador do tempo e os pontos; e do lado direito, as etiquetas já sugeridas pelo adversário.

googleimagelabeler

Google Translation Center e Google Translator

A tradução de páginas web foi um dos serviços precoces da rede, havendo muita oferta. Porém, a iniciativa do centro de tradução do Google visava revolucionar e optimizar o processo de tradução automática. Pela primeira vez, foi possível traduzir línguas como o árabe para inglês e vice-versa com taxas de sucesso consideráveis. A técnica utilizada foi usar um corpus de textos traduzidos por humanos que se deu ao sistema, servindo-lhe de padrão. No caso, foram usados milhões de textos da ONU em várias línguas. Esta “aprendizagem” pelo exemplo permitiu resultados excepcionais e foi possível aperfeiçoar ainda mais o sistema com as introdução das correcções facultadas pelos tradutores humanos que se associaram ao projecto.

Lembro-me, não há muito tempo, que na página do centro era possível requisitar traduções ou tradutores e também registar-se como tradutor profissional ou amador. Essas pessoas encarregavam-se das revisões dos erros na tradução automática. Neste momento, esse serviço está reservado a colaboradores registados.

O principal objectivo deste projecto foi desenvolver um sistema eficaz de tradução que permitisse incorporar materiais até aí inacessíveis ao motor de pesquisa. Além disso, com esta técnica é possível recuperar informação em várias línguas quando a expressão de pesquisa se faz numa língua específica. Até aqui, pesquisar “história dos computadores” era diferente de “computing history”. A tendência vai no sentido de a língua da pessoa que interroga a base de dados não influir na recuperação dos resultados. Salvo se esta decide restringir os resultados por língua.

Um efeito colateral foi a criação e disponibilização do serviço doméstico do Google Translator.

Tesseract OCR

A política mais recente do Google tem sido abrir o código. Na secção Google Code é possível descarregar o software que a empresa usa no reconhecimento de caracteres de documentos digitalizados. Este software faz o reconhecimento óptico de caracteres. O scanner produz uma imagem que muitas vezes é colocada tal e qual na web sem que seja possível a exploração do texto, o que impede os motores de indexarem esse material.

Com o Tesseract os resultados não são um reconhecimento 100% perfeito, mas é mais que suficiente para a extracção de 80 a 90% do conteúdo. É uma tecnologia desenvolvida pela HP e posteriormente retomada pelo Google.

No site oficial do Google, o artigo A picture of a thousand words descreve bem a problemática inerente à digitalização. Todo o documento é transformado numa imagem digital que tem de ser processada – ou seja é preciso converter a imagem em texto. A dificuldade está em ensinar ao sistema a distinguir uma imagem de um caracter.

EveryZing, Youtube, GAudi

É antigo o sonho de tratar exaustivamente imagens e vídeos extraindo-lhes o máximo de informação. Mas até há bem pouco tempo e apesar de vários projectos –incluso o SpeechBot da HP– os resultados eram pouco promissores numa aplicação comercial e a grande escala. Assim, durante muito tempo, a única informação disponível para recuperar este tipo de ficheiro foram os dados técnicos ou, mais recentemente, algumas categorias temáticas, por assim dizer. No Google Search Image podemos desde há muito seleccionar fotos por tamanho, formato e até cor (p&b, tons cinza e cor). Mas também é possível seleccionar as imagens obtidas numa determinada pesquisa por conteúdo noticioso, conteúdo fotográfico ou caras. Nesta recuperação funciona a tércnica dos clusters, isto é, agrupam-se imagens com características comuns, tomando por base a informação contida nos URL (permite, por exemplo destacar o conteúdo noticioso), nos títulos e na descrição da imagem.

No exemplo apresentado, deixo as imagens de rostos de pessoas que de alguma forma estão associadas à expressão de pesquisa lançada: “guantánamo”.

googlesearchimage
Em Julho de 2007, Google regista na WIPO a patente para uma tecnologia que tem estado a ensaiar no EveryZing (antigo Podzinger), e que, uma vez testada e amadurecida, é transferida para o Google Audio Indexing (GAudi).

Essa tecnologia anuncia-se capaz de extrair o texto presente em imagens e vídeos. No primeiro caso, identifica e recolhe todas as marcas textuais (vamos imaginar uma imagem de uma cidade), ou seja, nomes de ruas, texto da sinalização, expressões dos estabelecimentos comerciais e edifícios. No segundo caso, além destes elementos do contexto, extrai o texto dito por pessoas.

O EveryZing está a funcionar como laboratório do GAudi e apresenta muito mais vídeos e categorias para pesquisa. O GAudi neste momento só dispõe do tema das eleições americanas com base no discurso de vários políticos. Quem desejar pode instalar no iGoogle o gadget “Elections Video Search”.

electionsvideosearchSe compararmos a pesquisa do mesmo vídeo no serviço do Youtube ou Google Video e no EveryZing, obteremos resultados distintos quanto à precisão. Enquanto no Youtube e no Google Video a pesquisa se continua a fazer com base nos textos dos títulos, na descrição do vídeo e no URL; no EveryZing a pesquisa faz-se no próprio texto pronunciado pelas pessoas.

No exemplo dado, seleccionei previamente um vídeo e uma parte do discurso. Lancei a pesquisa num e noutro motor com o critério de que me pesquisasse exactamente aquela frase. Como era de prever, recuperei o vídeo no EveryZing, mas não no Youtube ou no Google Video, apesar do vídeo em questão se encontrar nessas colecções. No futuro, estas ferramentas serão certamente estendidas a todos os produtos da empresa.

googlevideoyoutube

Deixo agora o ecrã do EveryZing.

everyzing

Picasa

Para rematar, apresento uma última técnica que está a ser trabalhada e que contribui para um acesso a mais informação e por mais pessoas.

O serviço Google Picasa ajuda à catalogação das fotos ao disponibilizar uma tecnologia que procura similitude nas expressões faciais de fotos de pessoas. O mesmo já está a ser aplicado nos vídeos e os principais motores de pesquisa – Google, Live Search e Exalead, já têm incorporada essa característica.

One thought on “Alargar e automatizar o acesso à informação

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s