Jornais e revistas na mira do Google

No passado dia 8, na Conferência deste ano do TechCrunch50, foi apresentado o projecto Google News Archive por Marissa Mayer.

Trata-se de um projecto lançado a 6 de Setembro de 2006, mas ao qual a empresa quer dar agora nova visibilidade e dimensão. Para isso, está a negociar com editores de jornais e revistas, à semelhança do que fez com o Google Books, iniciado em 2004.
Actualmente, o serviço Google News tem um tráfego de 9,5 milhões/ dia e atingiu a maturidade, pois já funciona desde 2002. A ideia de relançar a versão arquivo permite fortalecer a ferramenta e servir a mais necessidades e utilizadores.
De referir que a ideia do projecto não é nova. Além de decalcar modelos bem sucedidos nos mapas e nos livros, existe já no meio jornalístico desde 2003 o projecto Journalismnet, que permite pesquisar notícias antigas. Mas enquanto que neste exemplo, a recolha é da imprensa, rádio e televisão, no caso de Google só são notícias escritas.

Introdução

Google News Archive é um motor de pesquisa vertical (Vertical search) dedicado a notícias de arquivo. Trata-se de uma hemeroteca que difere do Google News Service por trabalhar mais a perspectiva temporal. Assim, as notícias com mais de 30 dias do Google News passam aos arquivos, embora ocorram atrasos nessas transferências. Por outro lado, o serviço de arquivo não recupera todas as notícias mais recentes, apesar de possuir a opção de notícias de há uma hora, do dia anterior ou de há uma semana.
Como explicámos em post anterior, a pesquisa vertical tem as suas virtudes, mas só funciona bem se a pessoa a usa para o fim para o qual foi pensada.
Presentemente, são dois serviços independentes, mas os responsáveis não descartam a hipótese de fundir tudo num só serviço no futuro. Está claro para quem estuda os motores, que existe um sub-aproveitamento da pesquisa especializada por parte dos utilizadores.

Finalidade do News Archive

Os responsáveis garantem que o objectivo principal é o de proporcionar uma mais rica experiência na pesquisa e alargar o leque de recursos gratuitos acessíveis pela Internet.
Nós podemos acrescentar, sem qualquer margem de erro, que a empresa pretende reforçar a sua liderança no mercado da organização e disponibilização de informação, criando mais produtos/ serviços para que o seu motor de pesquisa continue a ser o mais utilizado. Mais uso, mais interessados em usar o espaço Google para publicitar.
Todavia, há que reconhecê-lo, esta iniciativa prova que existem nichos no mercado que não são oportunamente explorados por outros actores. A própria imprensa mundial podia haver criado anteriormente consórcios e avançar com projectos de digitalização do papel e experimentar novos modelos de negócio na Rede.
Todos são conhecedores das graves dificuldades da imprensa convencional, da perda de assinaturas e da adopção da versão online de muitas edições em papel, ou ainda do aparecimento de versões electrónicas de raíz. Também se assistiu ao acesso incondicional aos arquivos dos jornais, depois ao acesso exclusivo para assinantes e, mais recentemente, à reabertura das hemerotecas digitais ao público em geral. É notória a reacção em vez do proactivismo neste sector. Uns resolveram esperar para ver, ciosos dos seus activos, outros não tiveram a dimensão nem a estrutura para isoladamente encontrarem um modelo sustentável na Internet.

Características do projecto

Fontes
Existem duas vias de alimentar a colecção deste arquivo. Na primeira possibilidade, Google coloca um crawler (spider) a recolher da Internet as notícias disponíveis. Mas, porque grande parte da informação não está acessível aos robots, por causa do que ficou conhecido por Internet invisível, a empresa decidiu sondar o mercado editorial da imprensa e propor essa disponibilização electrónica. Nesta via, há dois cenários: ou a entidade já tem o seu fundo em formato digital ou digitalizado, negociando-se apenas a modalidade de acesso; ou a colecção está em papel e deve ser digitalizada, assegurando Google esse serviço.
A receptividade da imprensa mundial nos primeiros anos foi pouca. Os detentores de conteúdos temiam a concorrência do Google. Mas a verdade é que sem concentrarem o acesso numa plataforma de consulta e distribuição, do Google ou de qualquer outra entidade, é complicado fazerem-se visíveis na Rede. O utilizador não vai estar a consultar jornal a jornal para um estudo ou levantamento de um tema, como já não o faz para se manter actualizado no dia-a-dia, recorrendo ao serviço Google News ou Yahoo News.
Agora, são mais as entidades que estão convencidas de que é uma fonte de receitas e que permite uma maior proximidade dos leitores.
Quanto à tipologia das fontes, existem basicamente 3 tipos de fornecedores de conteúdos: jornais/ revistas e agências de notícias (fontes primárias) e os agregadores (fontes secundárias), que dão acesso às primárias por subscrição e oferecem serviços/ produtos com valor acrescentado.
Google optou por não divulgar a lista de entidades do universo editorial que já aderiram ou com quem estão a negociar. Contudo, alguns nomes são conhecidos. Os jornais – Time, The Wall Street Journal, The New York Times, The Guardian e The Washington Post; os agregadores – Factiva, LexisNexis, Thomson Gale and HighBeam Research; as agências – AP e AFP.

Financiamento
Ter por objectivo disponibilizar online arquivos de notícias não é tarefa fácil, porque envolve custos pesados, sobretudo se as colecções estão em papel, se são muito grandes e/ou se estão em estado de preservação delicado. Qualquer das situações requer uma boa política de planificação quanto a direitos, armazenamento, etc., mesmo quando se trate de colecções born digital.
Google mantém o segredo acerca da fatia de orçamento destinada a este projecto, mas a viabilidade está assegurada pelas receitas que gerar o AdSense (ferramenta de publicidade do Google) e da cobrança da digitalização de colecções, nos casos em que isso vier a ocorrer. As receitas de publicidade serão para dividir com os editores.

Cobertura temporal e geográfica
Foi anunciado um período de cobertura temporal de 244 anos, o tempo de vida do jornal mais antigo que faz parte da colecção – Quebec Chronicle-Telegraph. Mas é óbvio que a maioria dos registos datam de épocas mais recentes, sobretudo de 1944 até à actualidade. O objectivo de Google é desbloquear situações de digitalização de fundos mais antigos junto de entidades que o queiram disponibilizar.
Na fase de arranque, os jornais e revistas incluídos eram americanos, mas presentemente estão a aderir editores de outros países e línguas.

Tamanho
Referem-se cerca de 100 entidades até ao momento. A colecção é ainda muito pequena e há temas/ tópicos sem qualquer notícia. Os responsáveis recomendam o tema do assassinato de Kennedy e a ida à Lua de Neil Armstrong e Edwin Aldrin para uma avaliação do potencial deste arquivo.
São já milhões as notícias pesquisáveis, mas isso representa uma gota no oceano da imprensa. Para ter uma ideia da dimensão do projecto, considerem-se os números de um único título. O jornal Time, que optou pelo regime de acesso livre, tem 1400 números e 300000 notícias digitalizadas que compreendem um período que vai desde 1923 à actualidade.

Tecnologia

Neste projecto Google usa a mesma tecnologia que para os livros com algumas melhorias, não só fruto da experiência, mas também da especificidade dos jornais (necessidade de localizar a notícia na página, em geral mais ampla). A Heritage Microfilm, especializada em criar microfilmes de preservação de jornais, e a ProQuest, grande fornecedor de serviços de informação – recolhe, organiza, publica e distribui informação, são os principais parceiros tecnológicos neste projecto.

Funcionalidades do site

Acesso
O acesso a este serviço faz-se desde a página do Google News através da opção “News Archive Search” ou da página do News Archive.
Quanto ao acesso às notícias, há o acesso livre e o acesso mediante pagamento. Se há lugar a cobrança, o utilizador é redireccionado para o jornal/ revista em causa. Isto significa que este processo escapa à gestão do Google e essa operação não tem lugar sequer na plataforma da empresa. Todavia, a pessoa pode sempre antever a notícia (preview) antes de passar à fase de aquisição.
Para as notícias em acesso aberto, existe o formato electrónico (independentemente da data), e o formato digitalizado, ao qual Google chama de notícias em contexto. Este último caso é fruto das digitalizações realizadas pela empresa e apresenta a notícia na página de jornal, sendo possível navegar pelas várias páginas desse jornal e ver outras notícias desse dia, a publicidade, as imagens e fotos, etc.

Na imagem, é possível ver uma notícia digitalizada em contexto, uma notícia digitalizada e uma notícia já publicada em formato electrónico.

Pesquisa

O motor procura em todo o corpo da notícia (pesquisa a texto completo). Dependendo da modalidade de pesquisa – simples ou avançada, é possível mais ou menos precisão. Os critérios são vários e parametrizáveis: a data pode ser detalhada ao dia; o custo da notícia permite filtrar por notícias gratuitas ou valores específicos. Além disso, o sistema permite introduzir o jornal pretendido e a língua dos resultados.

Debaixo do menú geral de pesquisa, existem uns tópicos/ temas seleccionados como sugestão. Funcionam como pre-pesquisa, caso algum dos temas interesse à pessoa, e também como exemplo de como se deve pesquisar, servindo de mote para um utilizador menos treinado.
Atentando nesses temas pre-pesquisados, avalia-se prontamente a forma como está organizada a informação para recuperação. São em geral personalidades individuais ou colectivas (marilyn monroe, duran duran), factos com designações bem conhecidas do grande público (keneddy murder), e fenómenos políticos, económicos, naturais, etc. (iraq war, kyoto protocol, aurora borealis, cyberespace). A organização da informação segue a lógica do clustering. Agrupa-se o que está relacionado com um tema ou tópico.

Visualização de resultados
O serviço oferece a possibilidade de consultar os resultados por notícias (News articles) ou por tabela cronológica (Timeline). Nesta última, são usados algoritmos que organizam as notícias na linha do tempo e geram um gráfico e uma espécie de clusters temporais do lado esquerdo. É uma forma muito sedutora de apresentar resultados e que permite leituras interessantes do tratamento de determinado tópico ao longo do tempo.

Experimentei a consulta por Timeline com o termo “web 2.0” e constatei que só há notícias com este tema desde 2004. A pesquisa a “marilyn monroe” apresenta dados que vão desde 1500 a.C. até à actualidade. É compreensível a predominância na fatia 1950/1960, época de auge da actriz; fazem igualmente sentido as datas mais recentes, associadas a notícias póstumas sobre revelações, objectos que vão a leilão e outros. Mas questionei-me sobre as datas a.C. Seleccionando essa zona na tabela temporal, verifiquei que se trata de uma data relacionada com ensaios sobre a beleza de que a actriz é um exemplo. Isto significa que a Timeline considera não só as datas das notícias, mas também as datas que fazem parte do conteúdo dessas notícias.
Creio que fica explicado o interesse e o potencial associado a esta ferramenta.
Sobre a consulta da notícia na página de jornal em que originalmente surgiu (notícia em contexto), o que se pode dizer é que é outro factor que enriquece a visualização de resultados. Isto só ocorre com as notícias digitalizadas pelo Google, ou seja, aquelas que contenham a indicação da entidade que detém o conteúdo, seguida de “Google News Archive”.

Todo o contexto da época pode ser recuperado, desde o destaque dado à notícia até à visualização das fotos originais, passando por aspectos mais técnicos como a composição, as fontes, etc. A exploração é muito intuitiva. Funciona:

  • o zooming;
  • a visualização em ecrã completo;
  • a navegação pelas várias páginas do jornal;
  • a cor de destaque nas palavras pesquisadas;
  • a localização da notícia na página (layout à direita);
  • a possibilidade de obter o URL exacto da notícia para colocar em listas de referências bibliográficas (Link to article).

Refinamento e expansão da pesquisa
Como fica provado, desde a visualização dos primeiros resultados, é possível numa lógica de clustering, relançar a pesquisa, restringindo os resultados a determinados parâmetros de tempo.
Além de reduzir o espectro de resultados, é possível alargar os mesmos através das opções “Related news” e “Related pages”. São opções com funções distintas. A primeira usa os clusters e apresenta outras notícias com o mesmo tópico/ temática. Já a segunda utiliza a lógica dos URL e dá páginas que estão ligadas à página da notícia que seleccionarmos.

Ordenação de resultados
Os resultados são apresentados por relevância na modalidade “News articles”. Quando se elege a opção “Timeline”, o critério é cronológico.

Monitorização de temas/ tópicos
À semelhança do serviço de alertas do Google News, é possível criar o “Google alert”. Para criar um alerta, basta indicar o tema, seleccionar a modalidade “News” no tipo de informação que se pretende, indicar a periodicidade com que se deseja que o alerta funcione (sempre que haja novidade, 1 vez no dia ou 1 vez na semana).
Desta forma, é-se notificado acerca da entrada de uma notícia nova no arquivo. É preciso não esquecer que este arquivo tende a crescer e está a ser alimentado.

Globalmente, penso que este projecto está ganho e é-o porque está pensado para o utilizador final. Por muitas críticas que se façam ao Google, há que reconhecer-lhe mérito e visão estratégica. Seria benéfico que outros “googlizassem” mais a sua perspectiva e tentassem antecipar-se, em vez de se contentarem em apanhar o comboio à última hora.
Acerca da crítica mais contundente ao projecto – acesso a notícias com pagamento, parece-me arrogante. Esse facto não depende do serviço. Além isso, é preferível ter um serviço que permita pesquisas e uma lista de referências que se poderá consultar sem custo em bibliotecas ou hemerotecas, do que não ter qualquer base de trabalho à partida. Por outro lado, num serviço rápido, cómodo e de qualidade, é legítimo que um valor justo seja cobrado. Já não estou de acordo que se cobrem exorbitâncias por um recurso para cujo acesso não existem alternativas.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s