Modelos de preservação para revistas electrónicas científicas

Na sequência do tratamento do tema do software para publicação de revistas científicas, quis abordar aqui a problemática da preservação, que deve fazer parte das preocupações da entidade que publica.

Preservação, neste contexto, significa a conservação a largo prazo do conteúdo intelectual e do aspecto do recurso, mas também a garantia do cumprimento das regras de acesso establecidas para esse documento. Um programa de preservação correcto deve garantir o acesso ao recurso para sempre, mas se o conteúdo estiver protegido por direitos de autor e restricções de outra natureza, isso deve ser assegurado, tal como no período “activo” do documento.

O conceito de “período activo” e “não activo” de um documento faz cada vez menos sentido na actual linha de desenvolvimento dos estudos e experiências na área de conservação. A visão australiana de tomar os recursos como “continuum” e não em fases ou ciclos (corrente mais convencional), obriga à tomada de consciência da importância de preservar e trabalhar nesse sentido desde o acto de criação do recurso. Assim, a preservação seria algo de intrínseco e presente em todo o proceso de gestão desse recurso.

Duas soluções radicalmente diferentes

No campo das revistas científicas, duas entidades avançaram com propostas que tomaram forma nos últimos tempos. Portico (Digital Preservation and Electronic Archiving Service) e Lockss.

Portico é a resultado da iniciativa de JSTOR que em 2002 procurava um modelo de preservação para a literatura científica viável. Actualmente, é uma entidade autónoma que recebe apoios da Biblioteca do Congresso, do JSTOR, do Ithaka e de Andrew W. Mellon Foundation.

A estratégia consiste na centralização do processo de preservação no Portico, retirando às bibliotecas e aos editores a tarefa de se ocuparem individualmente desse problema. Em contrapartida, é-lhes pedidoapoio financeiro e, no caso dos editores, autorização para que o Portico possa preservar e dar acesso permanente aos recursos, mesmo nos casos em que o editor desaparece, descontinua um título ou em que a biblioteca deixa de subscrever o serviço ao editor.

Tecnicamente, o processo resume-se à recepção do material original, à conversão para o formato de preservação e à migração, quando necessário. Existe uma cópia do arquivo do Portico na Biblioteca Nacional da Holanda. Os formato, esquema de metadados e modelo usados são: Journal Archiving and Interchange DTD, PREMIS, OAIS.

Aderiram ao projecto inúmeras universidades, sobretudo dos EUA, do Reino unido, da Austrália, da Itália e Grécia. Também muitos editores, compresença significativa das editoras académicas, mas também alguns editores profissionais como Elsevier, Springer, John Wiley & Sons.

Lockss é um projecto muito especial, a começar pelo logo. Trata-se de uma tartaruga e funciona como símbolo da “longevidade” que se deseja para os recursos electrónicos.

O motor tem sido a Universidade de Stanford, que deu o pontapé de saída em 2000, mas é actualmente apoiada pela Biblioteca do Congresso, pela Mellon Foundation, pela National Science Foundation, pela Sun Microsystems, HP Labs.

Os membros são também universidades e curiosamente alguns dos editores queabraçaram o projecto do portico: Elsevier e Springer, por exemplo. Isto prova que a preservação é um assunto muito sensível e que as entidades estão genuinamente interessadas em participar nas iniciativas que existam em curso.

Ao contrário do Portico, a filosofia do Lockss defende o modelo tradicional de preservação nas bibliotecas que funcionou muito bem durante séculos e séculos. No esquema proposto, cada entidade, biblioteca ou editor, deve participar no esforço conjunto de presrvação a largo prazo.

Em termos muito resumidos, a solução assenta na tecnologia disponível e no conceito de rede. São necessários computadores normais, crawlers usados na web, rede peer-to-peer, permissão dos editores para que seja possível efectuar a recolha sistemática, análise e correcção de errros, e, claro, os recursos originais.

O funcionamento é simples:

  • o trabalho é em parceria, o que significa que a monitorização dos recursos é repartida entre as entidades,
  • os recursos encontram-se replicados pela rede, pelo que quando ocorre um problema num recurso de uma entidade, ela tem a possibilidade de repor a autenticidade e integridade, valendo-se de outra entidade que não sofreu o dano,
  • o arquivo está distribuído, ou seja, o risco de que o arquivo seja todo destruído é impossível, o que já não é válido quando se tem um arquivo centralizado,
  • a garantia de que o sistema se auto-monitoriza e controla a qualidade está assegurada pela replicação dos recursos em diferentes peers, mas também pelas caches permanentes,
  • a migração é aplicada automaticamente, por isso um documento é sempre lido pelos navegadores sem problema,
  • além da monitorização dos títulos em preservação, é possível controlar os acessos e sinalizar novos títulos que devem passar ao programa de preservação,
  • elimina a necessidade de cópias de segurança em dispositivos móveis, porque a “cópia” está na rede,
  • facilita o acesso imediato ao recurso pedido, porque está disponível e não arquivado por uma entidade.

As grandes vantagens desta opção são: custo muito reduzido, quando comparado com os megaprojectos centralizados de preservação; recursos ao alcance de qualquer entidade (PC, rede peer-to-peer…); tecnologia inteiramente open source; implementação fácil e autonomia e quase auto-gestão do programa.

Fiquei muito impressionada com o Lockss e a transparência e simplicidade do projecto. Creio que merece a pena ser estudada esta opção, surpreendente pelo sentido de oportunidade e pelo excelente uso das redes peer-to-peer, que têm estado na mira dos meios de comunicação social pelas piores razões. Este caso só prova que as tecnologias são neutras e estão aí. Os usos que delas se fazem é que podem ser mais ou menos nobres.

Anúncios

Software para publicação de revistas científicas

A posição abusiva dos grandes grupos editoriais levou a comunidade académica a repensar o modelo de publicação dos artigos científicos. A concentração do mercado na mão de poucos, o aumento do número de títulos a adquirir, a pressão dos leitores e a redução dos orçamentos das bibliotecas concorreram para a tomada de consciência da insustentabilidade do modelo. Juntava-se a clara noção de que uma instituição investia a duplicar, porque pagava a investigação e, depois, os artigos resultantes dessa investigação.

Na senda da filosofia do Open Access Initiative, universidades, associações e investigadores enveredaram pela conhecida rota verde (criação de repositório da produção própria com imediata disponibilização, ou seja, os repositórios institucionais ou temáticos) e/ ou pela rota dourada (publicação das suas revistas).

Vantagens e desvantagens do Open Access na publicação

No campo da publicação das revistas científicas, é actualmente consensual que o modelo Open Access favorece mais os autores, fazendo com que sejam mais lidos, mais citados e que os seus trabalhos sejam publicados mais depressa. Mas também existem vantagens óbvias para as instituições: economia de recursos, controlo do copyright, mais visibilidade.

Outra vantagem está na rápida difusão por canais como os directórios de revistas científicas (DOAJ, Open J-Gate, LivRe), na possibilidade de ter os artigos indexados em bases de dados bibliográficas de renome (CSA ou PubMed Central). Além disso, há revistas de livre acesso que têm índice de impacto.

Porém, esta alternativa não está isenta de críticas. Há publicações que são consideradas “demasiado” híbridas quanto ao acesso, distanciando-se do ideal do livre acesso à informação. Este problema está intimamente relacionado com a dificuldade de financiamento a largo prazo de projectos de publicação, embora existam modelos bem sucedidos, caso do PLoS (Public Library of Science).

Um outro ponto sensível é a escolha do software, ou melhor, da plataforma de serviços e gestão para o processo de publicação.

Requisitos do software

A SPARC (Scholarly and Academic Resources Coalition) colocou no seu site uma lista de software para a publicação electrónica de revistas científicas. Uma análise cuidada permite concluir, positivamente, que há uma grande diversidade de entidades, desde universidades (Berkeley, Maryland, Michigan, Cornell…) a empresas e até a grupos editoriais (Thomson). Não obstante, as propostas não oferecem todas a mesma qualidade nem abrangência. Há sotware que não gere todo o ciclo de vida da publicação; há soluções que parecem ter sido descontinuadas, porque tiveram financiamento só para um período de tempo.

Os requisitos essenciais de um software para publicação são muito similares aos de qualquer software. Basicamente pretende-se que seja:

  • viável e tenha desenvolvimentos em perspectiva,
  • multiplataforma,
  • fácil de instalar e manter,
  • boa documentação e apoio da comunidade,
  • adaptável às necessidades da instituição ou consórcio,
  • modular, podendo ser acrescentadas novas funcionalidades, quando necessário
  • interoperável com outros sistemas (repositório institucional, sistema de ensino à distância, portal e/ou website)
  • cumpridor de normas internacionais, facilitando o import e export de dados e o arquivo a largo prazo
  • uso de tecnologia XML

Como dito anteriormente, um elemento decisivo na avaliação do software para publicação é a oferta da solução global. Isto é, o software deve contemplar todas as etapas e acompanhar a complexidade dos processos associados à actividade: envio/ recepção de artigos, revisão/ aprovação, edição/ publicação, integração do artigo no corpus existente, pesquisa/ recuperação, acesso/ entrega.

É importante que existam serviços de alerta/rss; controlo de versões e de acessos; ferramentas de comunicação entre os intervenientes; instrumentos de monitorização e estatísticas de uso (COUNTER, dados bibliométricos); meios de difusão e links a comunidades, índices, directórios, repositórios Open Access; apoio à investigação, pesquisa, estudo (URL persistentes, links entre referência e documento primário, pesquisa avançada e ao nível de artigo, compatibilidade com todos os gestores de referências – EndNote, RefWorks, Procite, Reference Manager); diversificação dos produtos (formatos HTML e PDF, acesso a texto e imagens em separado, impressão a pedido), etc.

Estamos a falar de uma série de serviços de valor acrescentado tanto para o gestor como para o editor, o revisor, o autor e o leitor.

Análise do mercado

De entre a lista de alternativas open source, destacam-se o muito conhecido OJS (Open Jornal Systems), o Topaz, utilizado pelo citado PLoS, e o DPubS (Digital Publishing System).

O OJS tem a seu favor o facto de ser um projecto antigo, data de 2001, e ser apoiado por entidades públicas, sendo mantido pelo PKP, Public Knowledge Project. Está traduzido em 15 línguas, mas estão na forja mais traduções. Atende a todas as etapas do ciclo e as publicações ficam indexadas à Google Scholar e à PubMed. Há quem advogue que satisfaz, mas que fica aquém do nivel da publicação profissional.

Em matéria de profissionalismo temos Topaz, a base para o PLoS, um caso de sucesso na área editorial de grande qualidade. Topaz tem como pontos fortes o uso das estruturas RDF e uma arquitectura voltada para o cliente (SOA). O facto de ser um projecto assumido por Fedora Commons dá-lhe grande visibilidade e garantia de desenvolvimentos de elevada qualidade. O grande problema é a instalação, nada amigável.

DPubS da Universidade de Cornell, a que se associou a Universidade Penn State, mostra ser um projecto muito consistente e bem estruturado. A arquitectura é modular, abrange todo o ciclo, é adaptável a cada caso, é compatível e interoperável com os repositórios Fedora e DSpace. O repositório ArXiv usa API de DPubS.

Outras soluções analisadas foram DiVA, uma iniciativa de um grupo de bibliotecas da Escandinávia. Está a funcionar, mas o estatuto da licença é pouco claro. E-Journal é resultado da comunidade DRUPAL, mas está muito verde. A versão é beta e cinge-se à publicação simples, sem workflow. Lodel é mantido por um grupo de voluntários, mas também só responde à publicação. HyperJournal é interessante por usar, tal como Topaz, as estruturas triples e defender a web semântica. Mas tem uma instalação complicada, só gere uma revista por cada instalação e não permite pesquisar em todo o texto. Finalmente, SOPS (Scix Open Publishing Services) desenvolvido pela universidad eslovena de Ljubljana está associado ao repositório Scix.

Apesar da grande responsabilidade associada à liderança de um projecto de publicação próprio, é importante não esquecer a longa tradição da publicação no meio académico – University Press. Cada universidade tem a sua marca e as suas publicações em papel. Também há quem entenda que as bibliotecas devem liderar esse processo e que a viabilidade de projectos desta natureza funciona melhor quando existe um grupo de entidades que se associam. Para chegar a bom porto, basta aproveitar as sinergias do grupo e apoiar-se numa solução tecnológica e economicamente adequada.

P2P numa encruzilhada

Foi há um mês que Pablo Soto, um criador de software P2P e fundador da empresa MP2P em 2000, foi alvo de acusação por parte da Promusicae (PROductores de MÚSICA Española), que pedia 13 milhões de Euros de indemnização por concorrência desleal.

Logo de Promusicae

Na sua página, Promusicae resume a sua missão à difusão da música espanhola, ao apoio à criação musical e à procura de alternativas de distribuição e canais mais condizentes com os hábitos e tendências actuais dos consumidores.

São todas elas causas muito válidas e verdadeiros desafios para a indústria discográfica e cinematográfica. O que não se compreende, porém, é a decisão de acusar um autor de software, quando o dano de que se diz vítima é o de descargas ilegais de música.

Tempos antes, Promusicae tinha os utilizadores das redes P2P na mira, mas como não conseguiu nada por essa via, voltou-se para a origem, o software que permite essas descargas.

Redes P2P

São redes onde não funciona a arquitectura servidor/ cliente, mas o peer/peer, ou seja, a relação entre pares ou iguais. Enquanto numa rede cliente/ servidor os recursos estão localizados num único local e o servidor atende aos muitos pedidos dos vários cliente (arquitectura centralizada); numa rede peer-to-peer, qualquer computador tem uma parte dos recursos e pede outra a outros computadores conectados em rede. Neste caso, um mesmo computador pode ser simultaneamente cliente e servidor, por isso se diz que a rede é descentralizada e o fluxo da informação é distribuído.

As redes P2P surgiram num contexto em que as ligações eram lentas e a troca de informação mais complicada. A distribuição dos recursos pela rede facilitava o fluxo e o acesso. Era o caso dos Grupos de discussão e a troca de ficheiros para a área da investigação. A partilha de música começou com a generalização da Internet nas década de 90, sobretudo nos finais.

Proteger uns e perseguir outros

A legitimidade da indústria e dos autores serem compensados não está em causa. É sobejamente conhecida a quantidade de acesso à música e aos filmes por vias alternativas, com prejuízos para essas indústrias. Mas o que parece perfeitamente desajustada é forma assumida para lidar com essa dificuldade. O exemplo aqui invocado é disso prova, mas também a pressão junto dos fornecedores de acesso à Internet (ISP) para que facultem dados que permitam identificar os “prevaricadores”.

Neste cenário de excessos e arrebatamentos, é preocupante que os ISP, por exigência legal nos seus países, tenham que notificar, suspender a ligação, e até fornecer os dados pessoais dos clientes que usam redes P2P. É uma autêntica “caça às bruxas” e uma clara violação da privacidade e dos direitos do cidadão. Além disso, como é possível considerar crime um comportamento que foi “tolerado” durante tanto tempo e cujos criminosos são a quase totalidade da população jovem?

Por uma questão de princípio, quem discorda da violação dos direitos de autor, não vai defender a violação dos direitos do cidadão. Também me parece falta de criatividade e coragem teimar na sobrevivência de um modelo exangue de defesa dos direitos de autor, totalmente inadequado ao meio digital, como é o copyright.

É pura retórica o que Promusicae, e provavelmente outras entidades garantem, quando se dizem profundamente empenhadas na defesa dos autores e da criação ou quando se afirmam resolutas a encontrar soluções para os consumidores. Acções consentâneas com as palavras seriam por exemplo descriminalizar as redes P2P, avançar com modelos de negócio adequados ao ambiente digital, valer-se mais da publicidade, cobrar valores mais justos pelos bens, “educar” os consumidores.

Porém, é frequente ler nos meios de comunicação social casos que revelam uma certa incapacidade em ler os sinais do tempos, em flexibilizar as políticas e em conquistar os consumidores para a causa que é afinal do interesse de todos – que os criadores tenham condições para continuar a criar.

Paisagem legislativa

Na Europa, há opções muito diferentes em matéria legislativa – descriminalização (Espanha) ou criminalização (Alemanha). Também há países que já discutiram bastante o assunto (França), outros em que existe um vazio.

Não existe uma política europeia uniforme, e este ano (Janeiro de 2008), o Tribunal Europeu determinou que é da competência de cada país decidir se os ISP devem ou não disponibilizar a informação e dados dos seus clientes em casos de suspeita de uso de redes P2P. Esta decisão prova, de certa maneira, que os lobbies desta indústria são muito fortes e que não houve coragem suficiente para defender o interesse dos cidadãos.