Alargar e automatizar o acesso à informação

De há um tempo para cá multiplicam-se as referências relacionadas com conversores e técnicas de pesquisa alargadas. É um passo muito significativo no universo da informação, por isso não queria deixar de abordá-lo aqui, embora reconheça que não tenho um conhecimento cabal da matéria nem uma perspectiva bem delineada do que se está a passar, tal é a catadupa de informações, projectos retomados, abandonados, melhorados, entrecruzados, ou potenciados para diferentes usos.

O mote é normalizar para universalizar

Quem se movimenta na Rede sabe que a sua base do sucesso são os protocolos universais e as normas adoptadas por todos os que nela querem intervir. Regra de ouro para o acesso e a comunicação sem barreiras tecnológicas (e ideológicas, embora este post se ocupe das respostas dadas pela tecnologia para o acesso universal).

À necessidade de protocolos de comunicação universais, estáveis e fiáveis, juntaram-se os indispensáveis conversores de formatos. Uma profusão de formatos texto, áudio, vídeo, imagem, compressão, etc., passaram a povoar a rede. Veja-se a título de exemplo a base de dados do InfoFile.net Pontualmente, temos de converter um formato noutro para podermos aceder à informação, porque a nossa aplicação não lê o formato original de recepção. Essa incompatibilidade é muito frequente em sistemas Windows que não lêem documentos do OpenOffice nem reconhecem o flash tão usual na web.

Porém, e sem que as fases anteriores estejam de todo resolvidas, pois persistem os problemas de codificação das páginas HTML e a eterniza-se a convivência entre formatos mais adoptados e outros menos frequentes ou com código fechado, desenha-se uma fase de alcance bem mais ambicioso e de grande impacto. A conversão já não se coloca entre os formatos de uma mesma família, mas entre famílias de formatos. O que está a ser equacionado não é converter flv em avi (campo do vídeo), mas converter vídeo em texto, texto em áudio, etc.

Um futuro com contornos já visíveis

O universo de informação que consultamos através dos motores de pesquisa é assustadoramente pequeno e pobre em relação ao volume e qualidade da informação realmente disponível. Todos já ouviram falar do iceberg da web profunda, do qual só conhecemos a ponta. Se juntarmos a isso as imensas fontes de informação que estão a ser digitalizadas, a quantidade de documentos audiovisuais, que têm sido o quebra-cabeças na indexação, e a enormidade de ficheiros digitais que estão a ser criados por novas aplicações que não existiam sequer (as gravações das chamadas telefónicas, por exemplo), estamos razoavelmente conscientes do volume de informação que não é tratado nem integrado no fluxo.

Empresas, investigadores, cidadãos, trabalham na procura de soluções. E basta uma simples pesquisa (em qualquer língua) para recuperar software que converte texto em áudio ou áudio em texto. O tratamento da imagem e do vídeo são, porém, mais complexos e estão a ser liderados por empresas como o Google.

As vantagens da conversão são inúmeras e beneficiam todos. Ao utilizador final dão-lhe uma liberdade e flexibilidade até agora impossíveis. As apresentações e o website podem ser complementados com ficheiros áudio a partir de texto sempre que o visitante queira. Ditar texto que é escrito é outra vertente interessante. Mas é óbvio que a conversão da voz humana em texto está sobretudo trabalhada para o inglês e que as técnicas de reconhecimento de voz têm ainda muito que evoluir. Na viagem de carro para o emprego, ouvem-se as notícias, os blogs, o correio electrónico, o relatório que ficou por ler. Deixo o exemplo da enciclopédia Knol que oferece 243 artigos com registo áudio alternativo, basta no formulário de pesquisa avançada activar a opção “Show only knols that can be played back in audio form”.

Uma outra consequência positiva para a sociedade é a acessibilidade para pessoas com deficiência, privadas da capacidade de ouvir ou ver. Existem também soluções que convertem texto em braille e braille em texto ou voz.

Paralelamente, estas tecnologias criam novas oportunidades, beneficiando empresas atentas e inovadoras no desenho de negócios. Com uma ferramenta de conversão do áudio em texto, é possível automatizar a extracção das letras das músicas e oferecer esse extra aos clientes ou criar uma base de dados de letras com pesquisa em full text.

Mas o centro da actividade está no negócio da pesquisa e na janela de oportunidade para uma recuperação da informação mais abrangente e eficaz.

Algumas tecnologias em prova

Como referi anteriormente, as imagens e os vídeos colocam desafios maiores. Não é minha intenção passar a imagem que o único actor neste universo é a empresa Google, porque há certamente outros projectos. Mas por uma questão de comodidade e fácil acesso à informação, centrei os exemplos nesta entidade.

Google Image Labeler

Cada vez é mais frequente as empresas usarem a chamada inteligência colectiva para melhorar os seus produtos. Google Image Labeler apela à colaboração dos utilizadores de Gogole Search no sentido de ajudarem a melhorar os resultados na pesquisa das imagens. Este é um processo que está a ser adoptado por várias instituições, como a Library of Congress no Flickr, que aproveita o voluntarismo para enriquecer os metadados associados às imagens, tratando fondos grandes em pouco tempo. No artigo do blog da BC os números de visualizações, comentários e o impressionante númerod e etiquetas em todas as línguas.

A aplicação do Google Image Labeler dá à pessoa dois minutos e pretende que ela acrescente tantas etiquetas quantas as que conseguir recordar e associar à imagem. Dois aspectos devem ser tidos em linha de conta: propor etiquetas que ainda não tenham sido sugeridas pelo nosso adversário; procurar sugerir etiquetas específicas. É mais importante identificar na imagem o tipo de pássaro, por exemplo andorinha, que dizer simplesmente pássaro. Suponho que os utilizadores contribuam generosamente, porque o serviço foi concebido numa base de jogo e torna-se muito aliciante. Desconheço se é possível sugerir etiquetas noutras línguas.

Segue a minha experiência. É possível ver no canto superior esquerdo o contador do tempo e os pontos; e do lado direito, as etiquetas já sugeridas pelo adversário.

googleimagelabeler

Google Translation Center e Google Translator

A tradução de páginas web foi um dos serviços precoces da rede, havendo muita oferta. Porém, a iniciativa do centro de tradução do Google visava revolucionar e optimizar o processo de tradução automática. Pela primeira vez, foi possível traduzir línguas como o árabe para inglês e vice-versa com taxas de sucesso consideráveis. A técnica utilizada foi usar um corpus de textos traduzidos por humanos que se deu ao sistema, servindo-lhe de padrão. No caso, foram usados milhões de textos da ONU em várias línguas. Esta “aprendizagem” pelo exemplo permitiu resultados excepcionais e foi possível aperfeiçoar ainda mais o sistema com as introdução das correcções facultadas pelos tradutores humanos que se associaram ao projecto.

Lembro-me, não há muito tempo, que na página do centro era possível requisitar traduções ou tradutores e também registar-se como tradutor profissional ou amador. Essas pessoas encarregavam-se das revisões dos erros na tradução automática. Neste momento, esse serviço está reservado a colaboradores registados.

O principal objectivo deste projecto foi desenvolver um sistema eficaz de tradução que permitisse incorporar materiais até aí inacessíveis ao motor de pesquisa. Além disso, com esta técnica é possível recuperar informação em várias línguas quando a expressão de pesquisa se faz numa língua específica. Até aqui, pesquisar “história dos computadores” era diferente de “computing history”. A tendência vai no sentido de a língua da pessoa que interroga a base de dados não influir na recuperação dos resultados. Salvo se esta decide restringir os resultados por língua.

Um efeito colateral foi a criação e disponibilização do serviço doméstico do Google Translator.

Tesseract OCR

A política mais recente do Google tem sido abrir o código. Na secção Google Code é possível descarregar o software que a empresa usa no reconhecimento de caracteres de documentos digitalizados. Este software faz o reconhecimento óptico de caracteres. O scanner produz uma imagem que muitas vezes é colocada tal e qual na web sem que seja possível a exploração do texto, o que impede os motores de indexarem esse material.

Com o Tesseract os resultados não são um reconhecimento 100% perfeito, mas é mais que suficiente para a extracção de 80 a 90% do conteúdo. É uma tecnologia desenvolvida pela HP e posteriormente retomada pelo Google.

No site oficial do Google, o artigo A picture of a thousand words descreve bem a problemática inerente à digitalização. Todo o documento é transformado numa imagem digital que tem de ser processada – ou seja é preciso converter a imagem em texto. A dificuldade está em ensinar ao sistema a distinguir uma imagem de um caracter.

EveryZing, Youtube, GAudi

É antigo o sonho de tratar exaustivamente imagens e vídeos extraindo-lhes o máximo de informação. Mas até há bem pouco tempo e apesar de vários projectos –incluso o SpeechBot da HP– os resultados eram pouco promissores numa aplicação comercial e a grande escala. Assim, durante muito tempo, a única informação disponível para recuperar este tipo de ficheiro foram os dados técnicos ou, mais recentemente, algumas categorias temáticas, por assim dizer. No Google Search Image podemos desde há muito seleccionar fotos por tamanho, formato e até cor (p&b, tons cinza e cor). Mas também é possível seleccionar as imagens obtidas numa determinada pesquisa por conteúdo noticioso, conteúdo fotográfico ou caras. Nesta recuperação funciona a tércnica dos clusters, isto é, agrupam-se imagens com características comuns, tomando por base a informação contida nos URL (permite, por exemplo destacar o conteúdo noticioso), nos títulos e na descrição da imagem.

No exemplo apresentado, deixo as imagens de rostos de pessoas que de alguma forma estão associadas à expressão de pesquisa lançada: “guantánamo”.

googlesearchimage
Em Julho de 2007, Google regista na WIPO a patente para uma tecnologia que tem estado a ensaiar no EveryZing (antigo Podzinger), e que, uma vez testada e amadurecida, é transferida para o Google Audio Indexing (GAudi).

Essa tecnologia anuncia-se capaz de extrair o texto presente em imagens e vídeos. No primeiro caso, identifica e recolhe todas as marcas textuais (vamos imaginar uma imagem de uma cidade), ou seja, nomes de ruas, texto da sinalização, expressões dos estabelecimentos comerciais e edifícios. No segundo caso, além destes elementos do contexto, extrai o texto dito por pessoas.

O EveryZing está a funcionar como laboratório do GAudi e apresenta muito mais vídeos e categorias para pesquisa. O GAudi neste momento só dispõe do tema das eleições americanas com base no discurso de vários políticos. Quem desejar pode instalar no iGoogle o gadget “Elections Video Search”.

electionsvideosearchSe compararmos a pesquisa do mesmo vídeo no serviço do Youtube ou Google Video e no EveryZing, obteremos resultados distintos quanto à precisão. Enquanto no Youtube e no Google Video a pesquisa se continua a fazer com base nos textos dos títulos, na descrição do vídeo e no URL; no EveryZing a pesquisa faz-se no próprio texto pronunciado pelas pessoas.

No exemplo dado, seleccionei previamente um vídeo e uma parte do discurso. Lancei a pesquisa num e noutro motor com o critério de que me pesquisasse exactamente aquela frase. Como era de prever, recuperei o vídeo no EveryZing, mas não no Youtube ou no Google Video, apesar do vídeo em questão se encontrar nessas colecções. No futuro, estas ferramentas serão certamente estendidas a todos os produtos da empresa.

googlevideoyoutube

Deixo agora o ecrã do EveryZing.

everyzing

Picasa

Para rematar, apresento uma última técnica que está a ser trabalhada e que contribui para um acesso a mais informação e por mais pessoas.

O serviço Google Picasa ajuda à catalogação das fotos ao disponibilizar uma tecnologia que procura similitude nas expressões faciais de fotos de pessoas. O mesmo já está a ser aplicado nos vídeos e os principais motores de pesquisa – Google, Live Search e Exalead, já têm incorporada essa característica.

Tempos modernos

Já há algum tempo que sinto um misto de entusiasmo e inquietação em relação à Internet e à forma como influi na vida das pessoas, das empresas e das instituições. Ao deambular pela Rede, descobri Digital Etnography. Trata-se do trabalho de um professor da Universidade do Kansas –Michael Wesch– que está a realizar, a meu ver, uma análise e crítica excelentes a estes temas com os seus alunos de Antropologia cultural.

Materializam frequentemente o trabalho em forma de vídeos que disponibilizam no Youtube. O curioso é que este canal de partilha e difusão é ele próprio objecto de um projecto de estudo. Nele contam a história do Youtube, tentam perceber por que razões as pessoas usam o Youtube, etc.

Da colecção de palestras e vídeos, destaco um sobre a mudança de paradigma de informação –chamado Information R/evolution— que de uma forma muito criativa e clara mostra o quão modificaram as maneiras de organizar, editar, classificar e recuperar a informação.

Deixo aqui para visualização, um outro vídeo que explica a web 2.0 com a sua característica multidão de tags, vídeos, fotos; elementos que são cada vez mais recombinados em aplicações “mashup”. Na música, por exemplo, é habitual um serviço usar a Wikipedia para apresentar o artista, a base de dados Leo Lyrics com as letras das músicas, os vídeos do Youtube desse artista, as fotos do Flickr, as playlists do Last.fm e… tudo o que a criatividade e o engenho permitirem. Esta nova relação com a informação, com o mundo, com as pessoas e connosco, exige que tudo seja REdefinido.

Finalmente, impõe-se este vídeo em que os alunos são objecto e sujeito da reflexão. Não há retórica balofa, apenas o desfiar de uma realidade que pressentimos e reconhecemos. Turmas grandes, professores que não sabem o nome dos alunos, leituras obrigatórias que não são feitas, reduzido nº de livros lidos ao ano contra os milhares de páginas web ou perfis do Facebook lidos nesse mesmo ano. É um ensino ainda nos moldes do século XIX (no qual toda a informação estava estruturada, era escassa, naturalmente fiável e cujo acesso era geralmente mediado) que tem de confrontar-se com uma realidade radicalmente diferente, composta por um universo informacional vasto e não mediado e por uma geração 100% digital.

OpenID está mais perto

Apesar de já ter abordado o tema do OpenID, retomo-o, porque houve desenvolvimentos e trata-se de um protocolo de autenticação para ficar.
As novidades estão relacionadas com a recém-criada associação OpenID Portugal e com a manifestação de um maior interesse e receptividade de instituições (ministérios, universidade, instituições bancárias, associações comerciais, etc.) que poderão vir a assumir o papel de fornecedores de serviços OpenID.

Mas uma outra novidade inegável é a actual abundância de informação sobre o tema, volvidos que são seis meses desde que tratei este assunto no blog. Diagramas, vídeos, white papers, e muito mais. Não resisto a colocar aqui uma representação divertida do drama vivido por muitos internautas. A analogia com a Hidra das muitas cabeças reflecte claramente o incómodo de ter de preencher formulários de registo (sign on) por cada website que interessa e ainda ter de reter uma série de logins e passwords. Porque começa-se pelo endereço de correio electrónico, mas depois segue-se o Flickr, o Youtube, o Facebook,e muitos outros. É perfeitamente comum um utilizador regular da Internet possuir muitos registos.

//openidexplained.com
Autores: Omer Bar-or e Benjamin Thomas em URL<http://openidexplained.com&gt;

Já se está a ver que, por contraste, o rapazito da direita usa OpenID. É reconhecido pelos vários websites/ serviços, usando o mesmo login/ password. Trata-se de um único registo válido para uma multiplicidade de websites, por isso esta tecnologia é conhecida por Single sign on (SSO). Mas é óbvio que o website que nos interessa tem de dispor do serviço OpenID, ou seja, de um formulário para esse efeito. Isso será cada vez mais frequente no futuro. Na imagem, vê-se um formulário com a opção OpenID. No primeiro caso, a pessoa não usou esse serviço, porque não possui OpenID ou não sabe o que é. No segundo caso, colocou o seu login e seleccionou esse serviço para um maior conforto e segurança.

sign_openid

O funcionamento do OpenID para identificação e autenticação da pessoa implica sempre três actores: a pessoa que quer utilizar os serviços de um website; a entidade responsável pelo website; a entidade que fornece o serviço de identificação digital, uma espécie de terceira parte ou mediador. Este terceiro elemento é fulcral, porque:

  • permite que o interessado se registe e crie a sua identidade digital, materializada num URL;
  • verifica a identidade da pessoa, assegurando aos websites que essa pessoa é efectivamente quem diz ser;
  • poupa imenso esforço ao utilizador e dá-lhe total controlo na gestão do seu perfil OpenID. Pois, o utilizador pode criar várias facetas do seu perfil, decidindo que dados são cedidos e o modo como é reconhecido num determinado website. Por exemplo, o nome de utilizador na página da faculdade pode ser “luismatos”, perfeitamente reconhecível, mas noutro website, pode usar um nickname.

Na figura que se segue, simulo uma ligação ao website da Wiki da Creative Commons em que quero participar. Como tenho OpenID (claudia.myopenid.com), selecciono essa forma de acesso. Vejamos o que se passa para que eu seja autorizada a entrar sem necessidade de login e password atribuídos pela Wiki do Creative Commons.

Funcionamento do OpenID

Planos do OpenID Portugal

Referi a criação da OpenID Portugal. Trata-se de uma organização sem fins lucrativos com um projecto ambicioso na manga, pode dizer-se. Para além da divulgação deste mecanismo de autenticação, planeia criar um plugin para o Firefox e desenvolver extensões do OpenID para mecanismos de segurança reforçados. Pormenores dos projecto estão acessíveis na entrevista que concederam ao SAPO Summerbits.

O plugin para o Firefox visa facilitar ainda mais a vida às pessoas. A autenticação é feita no início da sessão, não sendo necessário pedir para entrar nos vários websites que dispõem de OpenID visitados nessa mesma sessão. As extensões do OpenID é algo mais difícil de explicar. Mas começo por dizer que tenho usado indistintamente “identificação” e “autenticação”, quando, na realidade, não são sinónimos. E mesmo dentro da identificação, existem vários graus, consoante a segurança associada.

Como em outros casos, o protocolo do OpenID tem conhecido inúmeras especificações com níveis de segurança diferentes. Também existem websites que requerem elevada segurança, enquanto noutros uma simples identificação é suficiente. Foi a pensar em melhorar a confiança na navegação que a associação avançou com os projectos da criação da extensão OpenID para o cartão do cidadão (smart card) e com o reforço da identificação OpenID, complementada com dados biométricos, a usar em situações que o justifiquem.

E a verdade é que faz cada vez mais sentido o utilizador criar uma identidade digital que lhe permita relacionar-se com o Estado, fazer compras, assinar digitalmente contratos. Mas também é legítimo que tenha um avatar ou a um nickname, se for essa a sua vontade. Esta multiplicidade de identidades, ou melhor, facetas de identidade, é suportada pelo openID. No quotidiano digital, funcionará uma identificação simples nuns casos; noutros será exigível que a leitura do chip do cartão de cidadão seja feita e enviada ou que as impressões digitais, características da íris, etc. sejam elementos adicionais de identificação e autenticação, como já o é a assinatura digital qualificada.

Fornecedores de serviço de identificação OpenID

Em Portugal, está em experiência o SAPO, mas ao nível internacional existem muitos, além dos grandes nomes – Yahoo, Microsoft, AOL, VeriSign, Google, Sun Microsystems, Blogger e AOL, apoiarem e compatibilizarem serviços e software para este fim.

Alguns destes pesos pesados, têm evoluído nesta matéria. Por exemplo, o Google começou por disponibilizar acesso OpenID mediado por terceiros (myOpenid), mas passou a fornecedor do serviço este mês.

No site oficial do OpenID Foundation existe uma lista de fornecedores, mas a OpenID Portugal deixa a advertência de que é essencial escolher um fornecedor em quem se confie e com as garantias adequadas ao uso que pensamos fazer do OpenID.

Apesar da falta de neutralidade (o autor trabalha para a Viddop, um fornecedor de OpenID), penso que ajudará consultar a tabela comparativa dos vários fornecedores. Os parâmetros que serviram de análise podem funcionar para nós como pontos a que devemos estar particularmente atentos, quando escolhemos o serviço.

Recentemente, têm aparecido referências ao protocolo OAuth, um protocolo de identificação aberto como o OpenID, muito associado ao open social. Contudo, o OpenID tem a vantagem de já estar no terreno há mais tempo e de ter reunido em seu torno os grandes players da Internet.