Guia de apoio à investigação

Elaborei este guia para orientar, de alguma forma, quem pressente que pode tirar partido da Internet mas não sabe exactamente como. Este facto não é de estranhar, dada a variedade de escolha e de possibilidades que surgem continuamente. Mesmo os gestores de referências bibliográficas clássicos já renovaram modos de pesquisa e funcionalidades, de forma que quem tenha feito investigação há uns anos atrás tem de fazer uma reciclagem.

A selecção é questionável, aliás como qualquer selecção, por isso desafio aqueles que conhecem e usam outras aplicações que lhes são muito úteis a deixarem o relato e a darem o seu testemunho. Terei todo o gosto em incluir essas sugestões em próxima revisão deste guia.

Fica o link para download do documento: Pequeno guia do investigador

Anúncios

Creative Commons, o copyright à la carte

Muitos poderiam ser os motivos por detrás da escolha deste tema para post, mas o que esteve verdadeiramente na sua origem foi o rápido desenvolvimento deste projecto. Lembro que há um ano atrás, à Creative Commons estava associado o famoso conjunto de licenças alternativas ao copyright, mas em poucos meses multiplicaram-se os programas, o alcance e a popularidade da “marca” CC.

Problemas associados à propriedade intelectual e direitos de autoria

Ao contrário do que se possa pensar, a noção de autor é historicamente recente, mas de uma complexidade tal que parece não existir consenso entre os dois pratos da balança em conflito nestas questões – o direito de protecção à criação e o direito de acesso e uso da mesma.
A controvérsia é inevitável pelo conflito de interesses já referido, mas também por um conjunto de questões e implicações legais, abundantes em variedade, nuances e perspectivas. Senão vejamos:

  1. Recompensa monetária do autor
  2. Reconhecimento público e direito à menção de autoria
  3. Respeito pela integridade da obra
  4. Fronteira nem sempre evidente entre obra original e derivadas, adaptadas
  5. Gestão de direitos conexos (intérpretes, executantes…)
  6. Impossibilidade de conhecer a vontade do autor
  7. Classificação por defeito de qualquer criação como obra com copyright
  8. Existência de lobbies e círculos de interesses associados a indústrias do lazer, dos conteúdos e a grupos editoriais
  9. Possibilidade de transferir uma criação para suportes diferentes do suporte original, criando indefinições quer por alargar ou restringir abusivamente os direitos autorais. A aquisição de direitos de autor de obra impressa são extensivos ao formato digital? E neste caso, aplicam-se da mesma forma, seja online ou em CD-Rom?

Simplificar a complexidade

Num rasgo original e muito pragmático, a Creative Commons analisou as questões práticas associadas ao Copyright e desenhou um conjunto de licenças, cujo objectivo central é facilitar a vida a todos os implicados. E o impacto não é pequeno se pensarmos que o principal beneficiado é o cidadão comum.
Os problemas foram claramente balizados e as soluções surpreendentemente simples:

  1. Cabe ao autor definir que situação deseja aplicar à sua criação, ficando claro o que é e o que não é permitido fazer com a obra
  2. Reconhecimento público e menção à autoria são consagrados pela CC
  3. Respeito pela integridade da obra também faz parte do direito moral ligado à autoria
  4. Autor declara se é possível criar trabalhos a partir do seu
  5. Direitos conexos podem igualmente aplicar as CC
  6. Vontade do autor é tornada pública e conhecida para todo aquele que desejar usar a criação
  7. Alarga-se o espectro das opções de protecção para além do restritivo copyright
  8. Lobbies e interesses não encontram argumentos para destronar a clareza e funcionalidade das CC, porque não se trata de um ataque ao copyright, mas de fazer escolhas e exercer efectivamente o direito do copyright
  9. Aplica a licença a uma obra, independentemente do formato e canal.

O espírito da iniciativa CC está bem espelhado nos slogans e material que disponibilizam no seu sítio web e que acabam por resumir também os objectivos da organização.

Na realidade, CC está inscrita no movimento e filosofia mais amplos do acesso livre e difusão do conhecimento. O seu trabalho visa:

  1. Atribuir a todas as obras as liberdades e restrições que os seus autores entenderem
  2. Fomentar a partilha, a mistura e a reutilização legal e autorizada de conteúdos
  3. Aumentar a disponibilidade de obras originais, assente na crença de que “obra cria obra”
  4. Estimular a criatividade numa base livre e legal
  5. Refinar as regras do copyright, sem que se caia por falta de alternativa nas situações extremadas (copyright e domínio público)
  6. Equilibrar e fazer convergir o interesse do autor e o do consumidor/ utilizador

Na imagem, é possível observar a passagem do “All Rights Reserved” (Todos os direitos reservados) para “Some Rights Reserved” (Alguns direitos reservados), sem que se caia no domínio público (Nenhum direito reservado).
As licenças CC criam uma escala de variantes entre os dois extremos, permitindo ao autor escolher o cenário mais condizente com as suas conveniências e as do público a que se dirige, que nenhum dos cenários anteriores satisfazia.

escala_cc

Actividade organizada em 5 áreas

A Creative Commons é uma organização sem fins lucrativos, cujo produto de toda a actividade está livre e disponível para ser usado.
À semelhança de outros projectos, usa o voluntariado e os donativos para levar a cabo os objectivos, e evoluiu num breve espaço de tempo para objectivos mais amplos.

1. Apoio a comunidades
A Creative Commons dota as comunidades de um modelo prático para declarar direitos e condições de uso, mas não medeia conflitos nem tem qualquer influência nas escolhas das licenças pelos autores legítimos nem nos usos legais dos consumidores.
Nesta área foi dada prioridade a uma comunidade gigantesca que depende muito da retroalimentação dos pares – a comunidade científica. Ao projecto deu-se o nome de Science Commons, cujo objectivo é acelerar o processo de circulação das obras entre os autores e os receptores, bastante dificultado pelo circuito tradicional de publicação.
Por sua vez, a Creative Commons International encarrega-se de coordenar as contribuições dos peritos nos assuntos legais. Já a ccLearn tenta estreitar a relação com a comunidade académica. O ccMixter está orientado para a música e os remix. A pessoa interessada pode fazer download de samples e trabalhá-los, partilhando-os depois com a comunidade de forma totalmente legal. Este projecto usa a plataforma ccHost.

2. Licenças e protocolos
Criar as licenças CC, melhorá-las e funcionar como observatório da área são algumas das metas da Creative Commons. Para isso, realiza regularmente inquéritos e recolhe opiniões e experiências de pessoas e entidades sobre o uso de conteúdos na Internet. A ideia é compreender as necessidades, tanto ao nível da protecção de direitos dos criadores, como dos usos dos consumidores, procurando antecipar-se e adequar as respostas à realidade global, porque as CC pretendem ser reconhecidas como modelo universal em que todos se vejam representados.
Desta linha de actuação saem as licenças, os protocolos – para facilitar o processo de partilha e uso, e um motor de pesquisa de trabalhos com licença CC. Com esta ferramenta, fica mais fácil pesquisar trabalhos com licenças CC para uso comercial ou só para partilhar. Este interface pode ser integrado no Firefox, por exemplo.

3. Informação e divulgação
O que tem marcado o projecto desde a origem é a forte componente educativa e informativa, num esforço imparável para o tornar visível aos utilizadores.
Os meios utilizados são variados:

  • relato de casos de sucesso classificados por país, data de criação e domínio
  • documentação (tutoriais,  recomendações, especificações)
  • informação sobre a forma de licenciar o trabalho e colocar a licença visível para os interessados, seja um trabalho em texto, áudio, vídeo ou imagem
  • estatísticas e representação gráfica sobre o uso das CC
  • divulgação de eventos organizados

A Creative Commons disponibiliza uma secção de vídeos muito interessante, além de bem feita e esclarecedora.
A vontade de reunir todas as contribuições não é filosofia barata. Dada a quantidade de canais disponíveis e projectos em paralelo, dir-se-ia que o programa vive disso mesmo. Tem chat, forum, wiki, newsletter, mailing list.

4. Ferramentas
Ao longo dos anos, a CC criou ferramentas e instrumentos para implementar e usar facilmente as licenças.
A LicenseChooser.js é um widget escrito em java que permite colocar a licença em qualquer website. Para sites WordPress, existe o plugin WpLicense.
Liblicense permite que os programas usem os metadados para extrair informação sobre as licenças. Já o LiveContent encarrega-se de difundir conteúdo aberto, de identificar novos conteúdos licenciados pelas CC e de desenvolver tecnologias que apoiem essa missão.
O ccHost é um CMS para o projecto ccMixter.
O extra OpenOffice.org Add-in permite que documentos possam embeber a licença escolhida.

5. Desenvolvimento
ccLabs é a unidade de desenvolvimento por excelência, sendo dinamizada por muitos programadores e pessoas que queiram voluntariamente contribuir. As traduções são outro aspecto nesta área.

História e balanço

Já lá vão 8 anos desde a criação da CC pelo Center for the Public Domain, que reunia peritos na área da Propriedade Intelectual e Direito no ciberespaço. O mais carismático foi Lawrence Lessig.
A actividade iniciou-se em 2002 com a criação do primeiro conjunto de licenças CC, inspirada na licença GNU de software, aplicada à plataforma gigantesca que é a Internet. Esta iniciativa teve acolhimento muito positivo em todo o mundo, sendo actualmente transposta para 45 jurisdições de países.
Em 2005, seguiu-se o projecto Science Commons e outros numa tentativa de alargar o âmbito de acção sem esquecer a necessidade de especialização por áreas – música, imagens, etc.
O saldo é francamente positivo se atendermos a alguns números: estima-se em 130 milhões os trabalhos com licenças CC; as licenças encontram-se na terceira versão e são 45 os países que adaptaram à sua paisagem legislativa as CC.

Licenças Creative Commons

A quase todo o tipo de obra são aplicáveis as licenças CC – áudio (música, discursos), imagem (fotos, ilustração), vídeo (filmes, animação), texto (livros, blogs, artigos), material educativo (aulas, slides), mas em relação ao software, a Creative Commons desaconselha, porque existem licenças próprias para software – licenças da FSF e OSI.

A licença Atribuição é a mais permissiva de todas e a última é a mais restritiva, sendo associada à “publicidade livre”, ou seja, a alguém que pretende difundir, mas não permite que se use para fins comerciais nem que se altere.

Graças às várias combinações possíveis dos factores, será muito pouco provável que a pessoa não encontre uma licença que a satisfaça. Porém, o trabalho de depuração e melhoria segue a todo o vapor.

quadro_licencas_cc

OpenID está mais perto

Apesar de já ter abordado o tema do OpenID, retomo-o, porque houve desenvolvimentos e trata-se de um protocolo de autenticação para ficar.
As novidades estão relacionadas com a recém-criada associação OpenID Portugal e com a manifestação de um maior interesse e receptividade de instituições (ministérios, universidade, instituições bancárias, associações comerciais, etc.) que poderão vir a assumir o papel de fornecedores de serviços OpenID.

Mas uma outra novidade inegável é a actual abundância de informação sobre o tema, volvidos que são seis meses desde que tratei este assunto no blog. Diagramas, vídeos, white papers, e muito mais. Não resisto a colocar aqui uma representação divertida do drama vivido por muitos internautas. A analogia com a Hidra das muitas cabeças reflecte claramente o incómodo de ter de preencher formulários de registo (sign on) por cada website que interessa e ainda ter de reter uma série de logins e passwords. Porque começa-se pelo endereço de correio electrónico, mas depois segue-se o Flickr, o Youtube, o Facebook,e muitos outros. É perfeitamente comum um utilizador regular da Internet possuir muitos registos.

//openidexplained.com
Autores: Omer Bar-or e Benjamin Thomas em URL<http://openidexplained.com&gt;

Já se está a ver que, por contraste, o rapazito da direita usa OpenID. É reconhecido pelos vários websites/ serviços, usando o mesmo login/ password. Trata-se de um único registo válido para uma multiplicidade de websites, por isso esta tecnologia é conhecida por Single sign on (SSO). Mas é óbvio que o website que nos interessa tem de dispor do serviço OpenID, ou seja, de um formulário para esse efeito. Isso será cada vez mais frequente no futuro. Na imagem, vê-se um formulário com a opção OpenID. No primeiro caso, a pessoa não usou esse serviço, porque não possui OpenID ou não sabe o que é. No segundo caso, colocou o seu login e seleccionou esse serviço para um maior conforto e segurança.

sign_openid

O funcionamento do OpenID para identificação e autenticação da pessoa implica sempre três actores: a pessoa que quer utilizar os serviços de um website; a entidade responsável pelo website; a entidade que fornece o serviço de identificação digital, uma espécie de terceira parte ou mediador. Este terceiro elemento é fulcral, porque:

  • permite que o interessado se registe e crie a sua identidade digital, materializada num URL;
  • verifica a identidade da pessoa, assegurando aos websites que essa pessoa é efectivamente quem diz ser;
  • poupa imenso esforço ao utilizador e dá-lhe total controlo na gestão do seu perfil OpenID. Pois, o utilizador pode criar várias facetas do seu perfil, decidindo que dados são cedidos e o modo como é reconhecido num determinado website. Por exemplo, o nome de utilizador na página da faculdade pode ser “luismatos”, perfeitamente reconhecível, mas noutro website, pode usar um nickname.

Na figura que se segue, simulo uma ligação ao website da Wiki da Creative Commons em que quero participar. Como tenho OpenID (claudia.myopenid.com), selecciono essa forma de acesso. Vejamos o que se passa para que eu seja autorizada a entrar sem necessidade de login e password atribuídos pela Wiki do Creative Commons.

Funcionamento do OpenID

Planos do OpenID Portugal

Referi a criação da OpenID Portugal. Trata-se de uma organização sem fins lucrativos com um projecto ambicioso na manga, pode dizer-se. Para além da divulgação deste mecanismo de autenticação, planeia criar um plugin para o Firefox e desenvolver extensões do OpenID para mecanismos de segurança reforçados. Pormenores dos projecto estão acessíveis na entrevista que concederam ao SAPO Summerbits.

O plugin para o Firefox visa facilitar ainda mais a vida às pessoas. A autenticação é feita no início da sessão, não sendo necessário pedir para entrar nos vários websites que dispõem de OpenID visitados nessa mesma sessão. As extensões do OpenID é algo mais difícil de explicar. Mas começo por dizer que tenho usado indistintamente “identificação” e “autenticação”, quando, na realidade, não são sinónimos. E mesmo dentro da identificação, existem vários graus, consoante a segurança associada.

Como em outros casos, o protocolo do OpenID tem conhecido inúmeras especificações com níveis de segurança diferentes. Também existem websites que requerem elevada segurança, enquanto noutros uma simples identificação é suficiente. Foi a pensar em melhorar a confiança na navegação que a associação avançou com os projectos da criação da extensão OpenID para o cartão do cidadão (smart card) e com o reforço da identificação OpenID, complementada com dados biométricos, a usar em situações que o justifiquem.

E a verdade é que faz cada vez mais sentido o utilizador criar uma identidade digital que lhe permita relacionar-se com o Estado, fazer compras, assinar digitalmente contratos. Mas também é legítimo que tenha um avatar ou a um nickname, se for essa a sua vontade. Esta multiplicidade de identidades, ou melhor, facetas de identidade, é suportada pelo openID. No quotidiano digital, funcionará uma identificação simples nuns casos; noutros será exigível que a leitura do chip do cartão de cidadão seja feita e enviada ou que as impressões digitais, características da íris, etc. sejam elementos adicionais de identificação e autenticação, como já o é a assinatura digital qualificada.

Fornecedores de serviço de identificação OpenID

Em Portugal, está em experiência o SAPO, mas ao nível internacional existem muitos, além dos grandes nomes – Yahoo, Microsoft, AOL, VeriSign, Google, Sun Microsystems, Blogger e AOL, apoiarem e compatibilizarem serviços e software para este fim.

Alguns destes pesos pesados, têm evoluído nesta matéria. Por exemplo, o Google começou por disponibilizar acesso OpenID mediado por terceiros (myOpenid), mas passou a fornecedor do serviço este mês.

No site oficial do OpenID Foundation existe uma lista de fornecedores, mas a OpenID Portugal deixa a advertência de que é essencial escolher um fornecedor em quem se confie e com as garantias adequadas ao uso que pensamos fazer do OpenID.

Apesar da falta de neutralidade (o autor trabalha para a Viddop, um fornecedor de OpenID), penso que ajudará consultar a tabela comparativa dos vários fornecedores. Os parâmetros que serviram de análise podem funcionar para nós como pontos a que devemos estar particularmente atentos, quando escolhemos o serviço.

Recentemente, têm aparecido referências ao protocolo OAuth, um protocolo de identificação aberto como o OpenID, muito associado ao open social. Contudo, o OpenID tem a vantagem de já estar no terreno há mais tempo e de ter reunido em seu torno os grandes players da Internet.

Mais novidades sobre Feeds

Quando publiquei o post sobre os feeds, começaram a sair notícias sobre a disponibilização de feeds para pesquisas (web search results feeds) pela mão do Google. Além disso, descobri ferramentas que podem ser úteis, quando o serviço que queremos subscrever não nos permite a personalização dos feeds.
Pelas duas razões apontadas, é com natural teimosia que volto ao tema, até que os feeds são um formato universal que está a ser utilizado em múltiplas situações. Veja-se que começou por sindicar conteúdo de blogs, depois de notícias da actualidade, e por fim, resultados de pesquisa, em formato texto, áudio, etc.

Cenários possíveis

Vimos anteriormente que os feeds são um modo cómodo para a actualização e acompanhamento de um tema nos media e blogs.
Também tínhamos visto que há serviços de feeds mais flexíveis que outros. Uma passagem rápida por orgãos de comunicação electrónicos ou de versão electrónica portugueses revela que há ainda muitos jornais/ revistas que não usam esta tecnologia. Contudo, de entre aqueles que oferecem esse serviço, encontramos dois cenários:

  1. RSS sem qualquer filtro (exemplos dos jornais Expresso e Diário de Notícias). Todas as notícias publicadas são enviadas para o leitor de feeds.
  2. RSS por categoria (exemplos do El País, do Jornal de Negócios, e mais recentemente do Público, que tem os feeds por categoria em fase de experiência). Neste caso, o canal de feeds 57 do Público envia para a pessoa que subscreve o serviço apenas as notícias publicadas na área Economia.

Mas disto já eu tinha falado. O que desejo propor agora é uma terceira via ou cenário.

3. RSS por palavra/ expressão personalizada

Existem ferramentas que permitem aplicar filtros aos feeds genéricos ou por categoria. É a diferença entre receber todas as notícias publicadas, todas as notícias publicadas na secção Economia ou todas as notícias sobre a taxa Euribor.

Na construção do filtro de feeds, que nos serve de exemplo (ver imagem abaixo), foi utilizado o programa Feed Sifter, como se pode confirmar através da parte inicial do URL. O critério de filtro está na parte final. Em termos muito grosseiros, pode dizer-se que o programa interroga a lista de feeds disponível e selecciona apenas as entradas que cumpram os requisitos da pesquisa.

Segue uma breve apresentação, passo a passo sobre o processo de aplicação de filtro que foi exportado para a página web personalizada do Netvibes.

Programas que aplicam filtros em feeds

No blog ReadWriteWeb encontrei uma lista de programas. Alguns requerem registo e instalação, outros funcionam online. Experimentei dois deles por ser mais simples a utilização e o teste – o já referido Feed Sifter e o FilterMy RSS. Além destes, existem o Feed Rinse, o Blastfeed, o ZapTXT e o Pipes. Este último, propriedade do Yahoo, parece bastante potente e com funcionalidades bem interessantes.

O Feed Sifter é muito básico:

  • Só recupera a partir dos títulos. Tudo o que se encontre no corpo da notícia, não selecciona.
  • Apresenta só as entradas de feeds que comecem pela palavra pedida. Aplicando o filtro Santana, o título “Manuela, pressionada, retirou Santana da agenda” não é recuperado, mas “Santana e crise levam à ruptura Manuela/Marcelo” já é.
  • Não recupera palavras com acentos. Trata-se de uma ferramenta optimizada para a língua inglesa e com muitas limitações na construção do filtro.
  • Permite procurar vários temas, devendo cada um ocupar uma linha. Caso se trate de um tema com mais que uma palavra, devem ser escritas as palavras separadas por vírgulas: teixeira,dos,santos

Já o FilterMy RSS oferece mais opções:

  • Procura no título, na descrição/ resumo e na categoria, podendo escolher-se mais que um critério.
  • Permite excluir conteúdos.
  • Dá a possibilidade de ver em formato XML o rss original e o rss alterado.

Filtros personalizados em motores de pesquisa: histórico e características

Os próprios motores de pesquisa – Yahoo, Live Search, Google, dão a possibilidade de filtrar os resultados de pesquisa por RSS condizentes com as indicações dos utilizadores. O tema foi reavivado pela notícia do lançamento para breve deste serviço no Google. Sendo o motor mais popular e mais utilizado, não se compreende essa falha. O título “Finally! Google to Offer RSS Feeds for Web Search Results” é disso prova.
Na prática, isto significa que posso ter uma expressão de pesquisa personalizada e receber os seus resultados sempre que se verificam as condições, sem ter que repetidamente lançar essa pesquisa. Trata-se de uma monitorização permanente e com muito valor para quem vigia a sua influência na Rede, seja empresa ou investigador, ou para quem necessita de acompanhar de perto um tema, uma personalidade.

Histórico dos feeds na pesquisa

Foi a Microsoft que tomou a dianteira nesta matéria, quando em Janeiro de 2005, avançou com uma versão beta. Seguiu-se o Yahoo em Maio do mesmo ano. Este mês, Google informou que vai passar a oferecer este serviço, numa reacção tardia aos seus mais directos competidores.

Aplicação
O processo de construção de um endereço de feeds em resultados de pesquisa obriga a que se faça a primeira vez a pesquisa. Nos dias e semanas seguintes, o mecanismo de RSS encarregar-se-á de nos enviar tudo o que surgir nas notícias ou WWW sobre o tema acerca do qual lançámos a pesquisa.

No Live Search, são necessários três passos muito simples. Vou exemplificar com uma pesquisa a Lobo Antunes.
Passo 1 – Pesquisar na web em geral (http://search.live.com) ou na área das news (http://search.live.com/news), colocando na caixa de pesquisa a expressão que desejamos.
Passo 2 – Quando se lança a pesquisa, além de se obter a lista de resultados, pode-se ver o URL dessa pesquisa na caixa do navegador. Devemos acrescentar a essa direcção o seguinte texto: &format=rss
Exemplo para web: http://search.live.com/results.aspx?q=lobo+antunes&go=&format=rss
Exemplo para news: http://search.live.com/news/results.aspx?q=lobo+antunes&go=&format=rss
Passo 3 – Depois, basta copiar esse endereço de feeds, completo e já alterado, para o nosso leitor de feeds

Com o Yahoo é parecido. Deixo o exemplo para a área das notícias: http://news.search.yahoo.com/news/rss?p=lobo+antunes

Características do serviço de feeds de resultados de pesquisa
Duas questões que se colocam a respeito dos feeds aplicados a resultados de pesquisa são o canal de difusão e o uso ou não do formato aberto.
Faz todo o sentido enviar as actualizações de uma pesquisa personalizada via leitor/ agregador de feeds e não via email. Aliás, já há reacções quentes nos utilizadores Google que, depois de terem de esperar tanto tempo pelo serviço, o vêem agora associado ao Google Alerts, que trabalha com base na notificação por email. Neste ponto, os concorrentes do Google distanciam-se e permitem a dupla via.
Quanto ao uso de formatos abertos, nem a Microsoft nem o Yahoo estão a cumprir as normas OpenSearch. Trata-se de uma norma de 2005 da empresa A9, subsidiária da Amazon, que procura que os resultados de pesquisa de um motor possam ser reutilizados (agregados, partilhados) por múltiplas aplicações e serviços através da sindicação dos conteúdos.

RSS de páginas no Youtube

Filtros de RSS para o Youtube

Quem conhece bem o sítio do Youtube, já se deu conta de que existe sindicação de conteúdos apenas para as páginas do vídeos mais comentados, mais vistos, os destaques,etc. Porém, Artem Russakovskii, engenheiro de software que trabalha no motor Blinkx, desenvolveu uns feeds que podemos usar com muito proveito, filtrando o que nos interessa do que vai entrando no Youtube.

Deixa no seu site três sugestões de personalização de filtros para o Youtube. O sublinhado nos URL é meu e serve para indicar o que varia na expressão. Para experimentar, basta copiar cada um dos endereços e substituir a palavra ilustrativa pela que desejarmos. Funciona muito bem. Experimentem!

  1. Filtrar por tag. Ex. http://www.youtube.com/rss/tag/elearning.rss
  2. Filtrar por criador (user). Ex. http://www.youtube.com/rss/user/youtube/videos.rss
  3. Filtrar por palavra que se encontre em qualquer parte do registo. Ex. http://www.youtube.com/rss/search/wall%20street.rss (2 palavras) ou, por exemplo, http://www.youtube.com/rss/search/iphone.rss (1 palavra)

A imagem apresenta os resultados da pesquisa por RSS que poderemos copiar no nosso serviço de feeds, recebendo de futuro os vídeos que contenham o termo “iphone” na sua descrição de feeds.

Feeds, um mecanismo indispensável

Dada a imensidão de fontes de informação na Internet e a rapidez da renovação dessa informação, surgiu um mecanismo extremamente útil e versátil, que uma vez experimentado, não se dispensa mais. Falo dos Feeds, palavra em inglês para designar um conjunto de dados transferidos de máquina para máquina de forma automática, sem que seja necessária a intervenção humana.

O ícone genérico para esta funcionalidade é o do RSS .

Vantagens no uso dos feeds

Simplificar a actualização da informação que nos interessa é já um argumento de peso para usar feeds. Mas as vantagens não ficam por aí. Veja-se a lista de benefícios:

  • selecção pessoal das fontes de informação
  • recepção das novidades logo após publicação
  • proliferação de programas de leitura de feeds, havendo-os para todos os gostos
  • gestão simples das fontes: acrescentar, remover, organizar
  • protecção contra spam, vírus, etc., ao contrário do que acontece com as subscrições por email
  • gestão mais saudável do email, que não é inundado por “novidades”

Funcionamento dos feeds

Este mecanismo assenta na arquitectura servidor/ cliente. Isto é, o fornecedor de conteúdos —em geral um jornal, um autor de blog— disponibiliza um endereço que o utilizador final pode subscrever sem custos. Utilizando um programa de feeds, a pessoa copia essa direcção do jornal ou blog para a lista pessoal de feeds. Nesse mesmo instante, as últimas notícias são carregadas no seu programa e daí em diante isso far-se-á automaticamente, sem que o interessado tenha que digitar o endereço no navegador e incomodar-se a verificar se há novidades.

A tecnologia por detrás é conhecida por Pull Technology, já que o programa escolhido de feeds é que puxa as novidades do servidor onde estão alojados os conteúdos para difusão.

Neste vídeo divertido da Common Craft são apresentadas as vantagens e o princípio de funcionamento.

Soluções para ler feeds

Os feeds tornaram-se tão essenciais na Rede que o seu uso estende-se a todas as aplicações e ferramentas da web. Enumero as principais, embora haja variantes.

1. Páginas web personalizadas. Os feeds podem ser introduzidos naquilo que ficou conhecido por página de entrada na Web. É o caso do iGoogle, do PageFlakes, do Netvibes, do My Yahoo ou My MSN. Qualquer destas aplicações dispõe da opção de acrescentar conteúdo novo. Na imagem, pode-se ver essa opção no Netvibes. É uma forma muito prática, porque assim que nos conectamos, temos oportunidade de consultar as novidades dos serviços que subscrevemos. É muito fácil acrescentar novos feeds, mas também remover, quando concluímos que afinal não nos interessam.

2. Leitores de feeds na web. Serviço em que a pessoa se regista e acede quando quer ler os seus feeds. Caso do Bloglines, Google Reader. Permitem ler, importar e exportar feeds em ficheiro XML, partilhar feeds com amigos, organizá-los por categorias em estrutura de árvore, associar etiquetas, etc. Na imagem podemos ver o Google Reader que não difere muito de outras ferramentas.

3. Feeds nos navegadores. Qualquer navegador – Firefox. Internet Explorer, Safari…, dá a possibilidade de incluir feeds. Em geral, essa funcionalidade está disponível nos Favoritos. O procedimento no Firefox requer que visitemos a janela dos Marcadores. Uma das opções é “Subscrever a esta página”, precisamente a que surge na caixa do navegador e está indicada com o ícone de Feeds.

4. Programas de email. Outra opção de gerir os feeds é através do Outlook, Thunderbird, Kontact, etc. São em geral suites formadas por aplicações PIM (Personal Information Management), tais como gestor de correio, gestor de contactos, calendário, gestor de feeds. Apresento na imagem o Kontact, usado com o Linux. À semelhança de outros, oferece um serviço de gestão de feeds, neste caso, o AKgregator.

Formato dos feeds

O formato mais comum é o RSS (Really Simple Syndication), mas também existe  o Atom (Atom Syndication Format). A base de ambos é o XML e/ou o RDF/XML.

Em termos cronológicos, o RSS antecedeu o Atom, por isso é frequente designar a sindicação de conteúdos em geral por RSS. No entanto, o aparecimento do formato Atom veio na sequência da falta de interoperabilidade e falhas no RSS. O Atom é mais robusto e versátil, porque usa a estrutura de metadados RDF. Assim, quando existe a opção de subscrever nos dois formatos, é preferível eleger o Atom.

Há serviços e serviços…

Serve este capítulo para referir que os serviços de actualização são criados pelos fornecedores desses conteúdos, que estão obviamente interessados em que as pessoas os leiam, os refiram e os difundam em blogs, websites, etc.

Há-os especificamente para textos, mas também para podcast. Começa agora a aparecer o RSS-narrator, um tipo de feed com o mesmo objectivo geral, mas com a particularidade de converter o texto em voz. O utilizador não lê, mas ouve as novidades, algo bastante prático quando se conduz para o trabalho. Veja-se o caso do Talking News que além de usar os podcasts disponíveis nos media seleccionados, converte igualmente texto em audio.

Acontece que há serviços de Feeds que permitem uma selecção mais refinada da informação pretendida. Nos dois jornais de referência escolhidos, o Expresso e o El País, pode ver-se a diferença e o impacto na qualidade do serviço para o utilizador final.

Graças aos filtros disponibilizados pelo jornal El País, foi possível introduzir na “Agulha no palheiro” as 10 últimas notícias na área da tecnologia, sendo a área que sigo atentamente e que está relacionada com a temática tratada neste blog. Desta lista de apontadores, os leitores podem consultar alguma notícia que lhes desperte curiosidade.

Jornais e revistas na mira do Google

No passado dia 8, na Conferência deste ano do TechCrunch50, foi apresentado o projecto Google News Archive por Marissa Mayer.

Trata-se de um projecto lançado a 6 de Setembro de 2006, mas ao qual a empresa quer dar agora nova visibilidade e dimensão. Para isso, está a negociar com editores de jornais e revistas, à semelhança do que fez com o Google Books, iniciado em 2004.
Actualmente, o serviço Google News tem um tráfego de 9,5 milhões/ dia e atingiu a maturidade, pois já funciona desde 2002. A ideia de relançar a versão arquivo permite fortalecer a ferramenta e servir a mais necessidades e utilizadores.
De referir que a ideia do projecto não é nova. Além de decalcar modelos bem sucedidos nos mapas e nos livros, existe já no meio jornalístico desde 2003 o projecto Journalismnet, que permite pesquisar notícias antigas. Mas enquanto que neste exemplo, a recolha é da imprensa, rádio e televisão, no caso de Google só são notícias escritas.

Introdução

Google News Archive é um motor de pesquisa vertical (Vertical search) dedicado a notícias de arquivo. Trata-se de uma hemeroteca que difere do Google News Service por trabalhar mais a perspectiva temporal. Assim, as notícias com mais de 30 dias do Google News passam aos arquivos, embora ocorram atrasos nessas transferências. Por outro lado, o serviço de arquivo não recupera todas as notícias mais recentes, apesar de possuir a opção de notícias de há uma hora, do dia anterior ou de há uma semana.
Como explicámos em post anterior, a pesquisa vertical tem as suas virtudes, mas só funciona bem se a pessoa a usa para o fim para o qual foi pensada.
Presentemente, são dois serviços independentes, mas os responsáveis não descartam a hipótese de fundir tudo num só serviço no futuro. Está claro para quem estuda os motores, que existe um sub-aproveitamento da pesquisa especializada por parte dos utilizadores.

Finalidade do News Archive

Os responsáveis garantem que o objectivo principal é o de proporcionar uma mais rica experiência na pesquisa e alargar o leque de recursos gratuitos acessíveis pela Internet.
Nós podemos acrescentar, sem qualquer margem de erro, que a empresa pretende reforçar a sua liderança no mercado da organização e disponibilização de informação, criando mais produtos/ serviços para que o seu motor de pesquisa continue a ser o mais utilizado. Mais uso, mais interessados em usar o espaço Google para publicitar.
Todavia, há que reconhecê-lo, esta iniciativa prova que existem nichos no mercado que não são oportunamente explorados por outros actores. A própria imprensa mundial podia haver criado anteriormente consórcios e avançar com projectos de digitalização do papel e experimentar novos modelos de negócio na Rede.
Todos são conhecedores das graves dificuldades da imprensa convencional, da perda de assinaturas e da adopção da versão online de muitas edições em papel, ou ainda do aparecimento de versões electrónicas de raíz. Também se assistiu ao acesso incondicional aos arquivos dos jornais, depois ao acesso exclusivo para assinantes e, mais recentemente, à reabertura das hemerotecas digitais ao público em geral. É notória a reacção em vez do proactivismo neste sector. Uns resolveram esperar para ver, ciosos dos seus activos, outros não tiveram a dimensão nem a estrutura para isoladamente encontrarem um modelo sustentável na Internet.

Características do projecto

Fontes
Existem duas vias de alimentar a colecção deste arquivo. Na primeira possibilidade, Google coloca um crawler (spider) a recolher da Internet as notícias disponíveis. Mas, porque grande parte da informação não está acessível aos robots, por causa do que ficou conhecido por Internet invisível, a empresa decidiu sondar o mercado editorial da imprensa e propor essa disponibilização electrónica. Nesta via, há dois cenários: ou a entidade já tem o seu fundo em formato digital ou digitalizado, negociando-se apenas a modalidade de acesso; ou a colecção está em papel e deve ser digitalizada, assegurando Google esse serviço.
A receptividade da imprensa mundial nos primeiros anos foi pouca. Os detentores de conteúdos temiam a concorrência do Google. Mas a verdade é que sem concentrarem o acesso numa plataforma de consulta e distribuição, do Google ou de qualquer outra entidade, é complicado fazerem-se visíveis na Rede. O utilizador não vai estar a consultar jornal a jornal para um estudo ou levantamento de um tema, como já não o faz para se manter actualizado no dia-a-dia, recorrendo ao serviço Google News ou Yahoo News.
Agora, são mais as entidades que estão convencidas de que é uma fonte de receitas e que permite uma maior proximidade dos leitores.
Quanto à tipologia das fontes, existem basicamente 3 tipos de fornecedores de conteúdos: jornais/ revistas e agências de notícias (fontes primárias) e os agregadores (fontes secundárias), que dão acesso às primárias por subscrição e oferecem serviços/ produtos com valor acrescentado.
Google optou por não divulgar a lista de entidades do universo editorial que já aderiram ou com quem estão a negociar. Contudo, alguns nomes são conhecidos. Os jornais – Time, The Wall Street Journal, The New York Times, The Guardian e The Washington Post; os agregadores – Factiva, LexisNexis, Thomson Gale and HighBeam Research; as agências – AP e AFP.

Financiamento
Ter por objectivo disponibilizar online arquivos de notícias não é tarefa fácil, porque envolve custos pesados, sobretudo se as colecções estão em papel, se são muito grandes e/ou se estão em estado de preservação delicado. Qualquer das situações requer uma boa política de planificação quanto a direitos, armazenamento, etc., mesmo quando se trate de colecções born digital.
Google mantém o segredo acerca da fatia de orçamento destinada a este projecto, mas a viabilidade está assegurada pelas receitas que gerar o AdSense (ferramenta de publicidade do Google) e da cobrança da digitalização de colecções, nos casos em que isso vier a ocorrer. As receitas de publicidade serão para dividir com os editores.

Cobertura temporal e geográfica
Foi anunciado um período de cobertura temporal de 244 anos, o tempo de vida do jornal mais antigo que faz parte da colecção – Quebec Chronicle-Telegraph. Mas é óbvio que a maioria dos registos datam de épocas mais recentes, sobretudo de 1944 até à actualidade. O objectivo de Google é desbloquear situações de digitalização de fundos mais antigos junto de entidades que o queiram disponibilizar.
Na fase de arranque, os jornais e revistas incluídos eram americanos, mas presentemente estão a aderir editores de outros países e línguas.

Tamanho
Referem-se cerca de 100 entidades até ao momento. A colecção é ainda muito pequena e há temas/ tópicos sem qualquer notícia. Os responsáveis recomendam o tema do assassinato de Kennedy e a ida à Lua de Neil Armstrong e Edwin Aldrin para uma avaliação do potencial deste arquivo.
São já milhões as notícias pesquisáveis, mas isso representa uma gota no oceano da imprensa. Para ter uma ideia da dimensão do projecto, considerem-se os números de um único título. O jornal Time, que optou pelo regime de acesso livre, tem 1400 números e 300000 notícias digitalizadas que compreendem um período que vai desde 1923 à actualidade.

Tecnologia

Neste projecto Google usa a mesma tecnologia que para os livros com algumas melhorias, não só fruto da experiência, mas também da especificidade dos jornais (necessidade de localizar a notícia na página, em geral mais ampla). A Heritage Microfilm, especializada em criar microfilmes de preservação de jornais, e a ProQuest, grande fornecedor de serviços de informação – recolhe, organiza, publica e distribui informação, são os principais parceiros tecnológicos neste projecto.

Funcionalidades do site

Acesso
O acesso a este serviço faz-se desde a página do Google News através da opção “News Archive Search” ou da página do News Archive.
Quanto ao acesso às notícias, há o acesso livre e o acesso mediante pagamento. Se há lugar a cobrança, o utilizador é redireccionado para o jornal/ revista em causa. Isto significa que este processo escapa à gestão do Google e essa operação não tem lugar sequer na plataforma da empresa. Todavia, a pessoa pode sempre antever a notícia (preview) antes de passar à fase de aquisição.
Para as notícias em acesso aberto, existe o formato electrónico (independentemente da data), e o formato digitalizado, ao qual Google chama de notícias em contexto. Este último caso é fruto das digitalizações realizadas pela empresa e apresenta a notícia na página de jornal, sendo possível navegar pelas várias páginas desse jornal e ver outras notícias desse dia, a publicidade, as imagens e fotos, etc.

Na imagem, é possível ver uma notícia digitalizada em contexto, uma notícia digitalizada e uma notícia já publicada em formato electrónico.

Pesquisa

O motor procura em todo o corpo da notícia (pesquisa a texto completo). Dependendo da modalidade de pesquisa – simples ou avançada, é possível mais ou menos precisão. Os critérios são vários e parametrizáveis: a data pode ser detalhada ao dia; o custo da notícia permite filtrar por notícias gratuitas ou valores específicos. Além disso, o sistema permite introduzir o jornal pretendido e a língua dos resultados.

Debaixo do menú geral de pesquisa, existem uns tópicos/ temas seleccionados como sugestão. Funcionam como pre-pesquisa, caso algum dos temas interesse à pessoa, e também como exemplo de como se deve pesquisar, servindo de mote para um utilizador menos treinado.
Atentando nesses temas pre-pesquisados, avalia-se prontamente a forma como está organizada a informação para recuperação. São em geral personalidades individuais ou colectivas (marilyn monroe, duran duran), factos com designações bem conhecidas do grande público (keneddy murder), e fenómenos políticos, económicos, naturais, etc. (iraq war, kyoto protocol, aurora borealis, cyberespace). A organização da informação segue a lógica do clustering. Agrupa-se o que está relacionado com um tema ou tópico.

Visualização de resultados
O serviço oferece a possibilidade de consultar os resultados por notícias (News articles) ou por tabela cronológica (Timeline). Nesta última, são usados algoritmos que organizam as notícias na linha do tempo e geram um gráfico e uma espécie de clusters temporais do lado esquerdo. É uma forma muito sedutora de apresentar resultados e que permite leituras interessantes do tratamento de determinado tópico ao longo do tempo.

Experimentei a consulta por Timeline com o termo “web 2.0” e constatei que só há notícias com este tema desde 2004. A pesquisa a “marilyn monroe” apresenta dados que vão desde 1500 a.C. até à actualidade. É compreensível a predominância na fatia 1950/1960, época de auge da actriz; fazem igualmente sentido as datas mais recentes, associadas a notícias póstumas sobre revelações, objectos que vão a leilão e outros. Mas questionei-me sobre as datas a.C. Seleccionando essa zona na tabela temporal, verifiquei que se trata de uma data relacionada com ensaios sobre a beleza de que a actriz é um exemplo. Isto significa que a Timeline considera não só as datas das notícias, mas também as datas que fazem parte do conteúdo dessas notícias.
Creio que fica explicado o interesse e o potencial associado a esta ferramenta.
Sobre a consulta da notícia na página de jornal em que originalmente surgiu (notícia em contexto), o que se pode dizer é que é outro factor que enriquece a visualização de resultados. Isto só ocorre com as notícias digitalizadas pelo Google, ou seja, aquelas que contenham a indicação da entidade que detém o conteúdo, seguida de “Google News Archive”.

Todo o contexto da época pode ser recuperado, desde o destaque dado à notícia até à visualização das fotos originais, passando por aspectos mais técnicos como a composição, as fontes, etc. A exploração é muito intuitiva. Funciona:

  • o zooming;
  • a visualização em ecrã completo;
  • a navegação pelas várias páginas do jornal;
  • a cor de destaque nas palavras pesquisadas;
  • a localização da notícia na página (layout à direita);
  • a possibilidade de obter o URL exacto da notícia para colocar em listas de referências bibliográficas (Link to article).

Refinamento e expansão da pesquisa
Como fica provado, desde a visualização dos primeiros resultados, é possível numa lógica de clustering, relançar a pesquisa, restringindo os resultados a determinados parâmetros de tempo.
Além de reduzir o espectro de resultados, é possível alargar os mesmos através das opções “Related news” e “Related pages”. São opções com funções distintas. A primeira usa os clusters e apresenta outras notícias com o mesmo tópico/ temática. Já a segunda utiliza a lógica dos URL e dá páginas que estão ligadas à página da notícia que seleccionarmos.

Ordenação de resultados
Os resultados são apresentados por relevância na modalidade “News articles”. Quando se elege a opção “Timeline”, o critério é cronológico.

Monitorização de temas/ tópicos
À semelhança do serviço de alertas do Google News, é possível criar o “Google alert”. Para criar um alerta, basta indicar o tema, seleccionar a modalidade “News” no tipo de informação que se pretende, indicar a periodicidade com que se deseja que o alerta funcione (sempre que haja novidade, 1 vez no dia ou 1 vez na semana).
Desta forma, é-se notificado acerca da entrada de uma notícia nova no arquivo. É preciso não esquecer que este arquivo tende a crescer e está a ser alimentado.

Globalmente, penso que este projecto está ganho e é-o porque está pensado para o utilizador final. Por muitas críticas que se façam ao Google, há que reconhecer-lhe mérito e visão estratégica. Seria benéfico que outros “googlizassem” mais a sua perspectiva e tentassem antecipar-se, em vez de se contentarem em apanhar o comboio à última hora.
Acerca da crítica mais contundente ao projecto – acesso a notícias com pagamento, parece-me arrogante. Esse facto não depende do serviço. Além isso, é preferível ter um serviço que permita pesquisas e uma lista de referências que se poderá consultar sem custo em bibliotecas ou hemerotecas, do que não ter qualquer base de trabalho à partida. Por outro lado, num serviço rápido, cómodo e de qualidade, é legítimo que um valor justo seja cobrado. Já não estou de acordo que se cobrem exorbitâncias por um recurso para cujo acesso não existem alternativas.

Cuil, a guerra do tamanho? – Parte II

Vistos os objectivos e propostas do Cuil, debrucemos-nos agora sobre a sua prestação.

A difícil missão  de filtrar e apresentar informação relevante

Voltando ao tamanho…

Os responsáveis do Cuil afirmam ser importante o tamanho do índice e defendem que se incluam sites de pequena dimensão. Todavia, o que se verifica é que o tamanho pode ser contraproducente. Quanto maior for o índice, mais tempo leva a actualizar essa informação – o Google usa tempos diferentes para actualizar páginas de notícias, por exemplo. Outra consequência lógica é a maior lentidão na resposta e a maior dificuldade em filtrar, ou seja, separar o trigo do joio. Isto, apesar das possibilidades tecnológicas estarem em evolução.

Porém, existe mérito no trabalho realizado pela equipa. Com muito poucos recursos humanos e com menos computadores, recolheram um número muito elevado de páginas.

O novo look e a preocupação com a privacidade

Acerca da forma de apresentação dos resultados em colunas, há quem goste e há quem ache que dificulta a leitura, precisamente o contrário do argumento utilizado pelos criadores. O que me parece indiscutível e positivo é a novidade e o assumir o risco da mudança. A personalização do interface é também um aspecto que soma pontos, embora não seja inovador, porque outros motores já o fazem desde há muito.

Discutindo a relevância dos resultados

Nesta área parece haver consenso nas reações quanto ao fraco desempenho do Cuil. Existem vários testemunhos, mas tomámos o teste apresentado na Online Tech Tips que utilizou a expressão “shipping seven” que se refere à futura versão do Microsoft Windows. Analisou a pertinência dos dez primeiros resultados nos vários motores de pesquisa que foram: Cuil – 10%; Google – 100%; Yahoo – 50%; Live Search – 60%; Ask – 0%. Em dez resultados, Cuil apresentou apenas um relacionado com o tema pesquisado.

Eu mesma realizei um teste simplório com o Cuil e o Google. Digitei a expressão “mastersid”, que se refere a um master da Universidade de Salamanca. Cuil não recuperou nos dez resultados uma única página relevante. Google apresentou como primeiro resultado um trabalho de um aluno realizado nesse curso e, na terceira posição, a página oficial do dito master. Curiosamente, o sistema do Cuil recuperou, e apresentou na página 4 de resultados, uma série de entradas  do site Tagzania que possuíam a etiqueta “mastersid”. Foi um teste realizado pelos alunos desse master para experimentar as etiquetas e conhecer Tagzania. Devo dizer que o endereço do master é “http://mastersid.usal.es&#8221;, ficando claro que o sistema valorizou mais as etiquetas que os URL e recuperou, neste caso, o menos relevante.

A fórmula utilizada pelo Cuil necessita de muito trabalho para chegar à precisão actual do Google. Ao fraco desempenho na relevância, junta-se a ausência de pesquisa vertical, tendo sido o aspecto mais criticado a impossibilidade de este motor pesquisar especificamente imagens. Finalmente, a opção de não usar IP ou cookies para obter padrões de uso pode comprometer desenvolvimentos futuros.

O sucesso de um bom motor de pesquisa está associado à combinação de várias técnicas, e excluir à partida algumas possibilidades tecnológicas, não é muito sensato. A política de privacidade agrada à sociedade internauta, mas apenas a breve trecho, porque se a ferramenta não é eficaz, não vai ser utilizada.

Panorama actual e tendências que se desenham nos motores de pesquisa

Cuil tem muito para desenvolver e outra coisa não seria de esperar, porque estamos a falar de escalas muito diferentes, quando comparamos as duas empresas: Cuil tem 30 empregados contra os 20000 de Google; opera há 2 anos, tendo apresentado publicamente o seu produto há menos de dois meses. Ora, Google leva uma década de andanças.

Apesar de uma tecnologia poder alterar completamente as peças no tabuleiro de xadrez, não parece que isso vá ocorrer com Cuil, pelo menos no imediato. Google guarda bem o segredo do seu PageRank e tem procurado continuamente melhorá-lo e superá-lo com uma solução mais eficaz. É uma empresa com tecnologia muito madura, por enquanto líder, e que tem e usa todos os recursos para manter essa liderança com novos desenvolvimentos. Além disso, mantém-se muito atenta aos seus competidores… Seria até muito provável que uma qualquer melhora significativa conseguida por uma start up fosse imediatamente assimilada pelos grandes buscadores da actualidade – Google, Yahoo ou Live Search da Microsoft.

Creio que fica provado que o tamanho não é a questão de fundo, apesar do crescimento imparável da rede. O aumento do índice deve ser acompanhado de técnicas cada vez mais inteligentes no processamento de tanta informação. E nenhuma deve ser descartada.