Creative Commons, o copyright à la carte

Muitos poderiam ser os motivos por detrás da escolha deste tema para post, mas o que esteve verdadeiramente na sua origem foi o rápido desenvolvimento deste projecto. Lembro que há um ano atrás, à Creative Commons estava associado o famoso conjunto de licenças alternativas ao copyright, mas em poucos meses multiplicaram-se os programas, o alcance e a popularidade da “marca” CC.

Problemas associados à propriedade intelectual e direitos de autoria

Ao contrário do que se possa pensar, a noção de autor é historicamente recente, mas de uma complexidade tal que parece não existir consenso entre os dois pratos da balança em conflito nestas questões – o direito de protecção à criação e o direito de acesso e uso da mesma.
A controvérsia é inevitável pelo conflito de interesses já referido, mas também por um conjunto de questões e implicações legais, abundantes em variedade, nuances e perspectivas. Senão vejamos:

  1. Recompensa monetária do autor
  2. Reconhecimento público e direito à menção de autoria
  3. Respeito pela integridade da obra
  4. Fronteira nem sempre evidente entre obra original e derivadas, adaptadas
  5. Gestão de direitos conexos (intérpretes, executantes…)
  6. Impossibilidade de conhecer a vontade do autor
  7. Classificação por defeito de qualquer criação como obra com copyright
  8. Existência de lobbies e círculos de interesses associados a indústrias do lazer, dos conteúdos e a grupos editoriais
  9. Possibilidade de transferir uma criação para suportes diferentes do suporte original, criando indefinições quer por alargar ou restringir abusivamente os direitos autorais. A aquisição de direitos de autor de obra impressa são extensivos ao formato digital? E neste caso, aplicam-se da mesma forma, seja online ou em CD-Rom?

Simplificar a complexidade

Num rasgo original e muito pragmático, a Creative Commons analisou as questões práticas associadas ao Copyright e desenhou um conjunto de licenças, cujo objectivo central é facilitar a vida a todos os implicados. E o impacto não é pequeno se pensarmos que o principal beneficiado é o cidadão comum.
Os problemas foram claramente balizados e as soluções surpreendentemente simples:

  1. Cabe ao autor definir que situação deseja aplicar à sua criação, ficando claro o que é e o que não é permitido fazer com a obra
  2. Reconhecimento público e menção à autoria são consagrados pela CC
  3. Respeito pela integridade da obra também faz parte do direito moral ligado à autoria
  4. Autor declara se é possível criar trabalhos a partir do seu
  5. Direitos conexos podem igualmente aplicar as CC
  6. Vontade do autor é tornada pública e conhecida para todo aquele que desejar usar a criação
  7. Alarga-se o espectro das opções de protecção para além do restritivo copyright
  8. Lobbies e interesses não encontram argumentos para destronar a clareza e funcionalidade das CC, porque não se trata de um ataque ao copyright, mas de fazer escolhas e exercer efectivamente o direito do copyright
  9. Aplica a licença a uma obra, independentemente do formato e canal.

O espírito da iniciativa CC está bem espelhado nos slogans e material que disponibilizam no seu sítio web e que acabam por resumir também os objectivos da organização.

Na realidade, CC está inscrita no movimento e filosofia mais amplos do acesso livre e difusão do conhecimento. O seu trabalho visa:

  1. Atribuir a todas as obras as liberdades e restrições que os seus autores entenderem
  2. Fomentar a partilha, a mistura e a reutilização legal e autorizada de conteúdos
  3. Aumentar a disponibilidade de obras originais, assente na crença de que “obra cria obra”
  4. Estimular a criatividade numa base livre e legal
  5. Refinar as regras do copyright, sem que se caia por falta de alternativa nas situações extremadas (copyright e domínio público)
  6. Equilibrar e fazer convergir o interesse do autor e o do consumidor/ utilizador

Na imagem, é possível observar a passagem do “All Rights Reserved” (Todos os direitos reservados) para “Some Rights Reserved” (Alguns direitos reservados), sem que se caia no domínio público (Nenhum direito reservado).
As licenças CC criam uma escala de variantes entre os dois extremos, permitindo ao autor escolher o cenário mais condizente com as suas conveniências e as do público a que se dirige, que nenhum dos cenários anteriores satisfazia.

escala_cc

Actividade organizada em 5 áreas

A Creative Commons é uma organização sem fins lucrativos, cujo produto de toda a actividade está livre e disponível para ser usado.
À semelhança de outros projectos, usa o voluntariado e os donativos para levar a cabo os objectivos, e evoluiu num breve espaço de tempo para objectivos mais amplos.

1. Apoio a comunidades
A Creative Commons dota as comunidades de um modelo prático para declarar direitos e condições de uso, mas não medeia conflitos nem tem qualquer influência nas escolhas das licenças pelos autores legítimos nem nos usos legais dos consumidores.
Nesta área foi dada prioridade a uma comunidade gigantesca que depende muito da retroalimentação dos pares – a comunidade científica. Ao projecto deu-se o nome de Science Commons, cujo objectivo é acelerar o processo de circulação das obras entre os autores e os receptores, bastante dificultado pelo circuito tradicional de publicação.
Por sua vez, a Creative Commons International encarrega-se de coordenar as contribuições dos peritos nos assuntos legais. Já a ccLearn tenta estreitar a relação com a comunidade académica. O ccMixter está orientado para a música e os remix. A pessoa interessada pode fazer download de samples e trabalhá-los, partilhando-os depois com a comunidade de forma totalmente legal. Este projecto usa a plataforma ccHost.

2. Licenças e protocolos
Criar as licenças CC, melhorá-las e funcionar como observatório da área são algumas das metas da Creative Commons. Para isso, realiza regularmente inquéritos e recolhe opiniões e experiências de pessoas e entidades sobre o uso de conteúdos na Internet. A ideia é compreender as necessidades, tanto ao nível da protecção de direitos dos criadores, como dos usos dos consumidores, procurando antecipar-se e adequar as respostas à realidade global, porque as CC pretendem ser reconhecidas como modelo universal em que todos se vejam representados.
Desta linha de actuação saem as licenças, os protocolos – para facilitar o processo de partilha e uso, e um motor de pesquisa de trabalhos com licença CC. Com esta ferramenta, fica mais fácil pesquisar trabalhos com licenças CC para uso comercial ou só para partilhar. Este interface pode ser integrado no Firefox, por exemplo.

3. Informação e divulgação
O que tem marcado o projecto desde a origem é a forte componente educativa e informativa, num esforço imparável para o tornar visível aos utilizadores.
Os meios utilizados são variados:

  • relato de casos de sucesso classificados por país, data de criação e domínio
  • documentação (tutoriais,  recomendações, especificações)
  • informação sobre a forma de licenciar o trabalho e colocar a licença visível para os interessados, seja um trabalho em texto, áudio, vídeo ou imagem
  • estatísticas e representação gráfica sobre o uso das CC
  • divulgação de eventos organizados

A Creative Commons disponibiliza uma secção de vídeos muito interessante, além de bem feita e esclarecedora.
A vontade de reunir todas as contribuições não é filosofia barata. Dada a quantidade de canais disponíveis e projectos em paralelo, dir-se-ia que o programa vive disso mesmo. Tem chat, forum, wiki, newsletter, mailing list.

4. Ferramentas
Ao longo dos anos, a CC criou ferramentas e instrumentos para implementar e usar facilmente as licenças.
A LicenseChooser.js é um widget escrito em java que permite colocar a licença em qualquer website. Para sites WordPress, existe o plugin WpLicense.
Liblicense permite que os programas usem os metadados para extrair informação sobre as licenças. Já o LiveContent encarrega-se de difundir conteúdo aberto, de identificar novos conteúdos licenciados pelas CC e de desenvolver tecnologias que apoiem essa missão.
O ccHost é um CMS para o projecto ccMixter.
O extra OpenOffice.org Add-in permite que documentos possam embeber a licença escolhida.

5. Desenvolvimento
ccLabs é a unidade de desenvolvimento por excelência, sendo dinamizada por muitos programadores e pessoas que queiram voluntariamente contribuir. As traduções são outro aspecto nesta área.

História e balanço

Já lá vão 8 anos desde a criação da CC pelo Center for the Public Domain, que reunia peritos na área da Propriedade Intelectual e Direito no ciberespaço. O mais carismático foi Lawrence Lessig.
A actividade iniciou-se em 2002 com a criação do primeiro conjunto de licenças CC, inspirada na licença GNU de software, aplicada à plataforma gigantesca que é a Internet. Esta iniciativa teve acolhimento muito positivo em todo o mundo, sendo actualmente transposta para 45 jurisdições de países.
Em 2005, seguiu-se o projecto Science Commons e outros numa tentativa de alargar o âmbito de acção sem esquecer a necessidade de especialização por áreas – música, imagens, etc.
O saldo é francamente positivo se atendermos a alguns números: estima-se em 130 milhões os trabalhos com licenças CC; as licenças encontram-se na terceira versão e são 45 os países que adaptaram à sua paisagem legislativa as CC.

Licenças Creative Commons

A quase todo o tipo de obra são aplicáveis as licenças CC – áudio (música, discursos), imagem (fotos, ilustração), vídeo (filmes, animação), texto (livros, blogs, artigos), material educativo (aulas, slides), mas em relação ao software, a Creative Commons desaconselha, porque existem licenças próprias para software – licenças da FSF e OSI.

A licença Atribuição é a mais permissiva de todas e a última é a mais restritiva, sendo associada à “publicidade livre”, ou seja, a alguém que pretende difundir, mas não permite que se use para fins comerciais nem que se altere.

Graças às várias combinações possíveis dos factores, será muito pouco provável que a pessoa não encontre uma licença que a satisfaça. Porém, o trabalho de depuração e melhoria segue a todo o vapor.

quadro_licencas_cc

Anúncios

Alargar e automatizar o acesso à informação

De há um tempo para cá multiplicam-se as referências relacionadas com conversores e técnicas de pesquisa alargadas. É um passo muito significativo no universo da informação, por isso não queria deixar de abordá-lo aqui, embora reconheça que não tenho um conhecimento cabal da matéria nem uma perspectiva bem delineada do que se está a passar, tal é a catadupa de informações, projectos retomados, abandonados, melhorados, entrecruzados, ou potenciados para diferentes usos.

O mote é normalizar para universalizar

Quem se movimenta na Rede sabe que a sua base do sucesso são os protocolos universais e as normas adoptadas por todos os que nela querem intervir. Regra de ouro para o acesso e a comunicação sem barreiras tecnológicas (e ideológicas, embora este post se ocupe das respostas dadas pela tecnologia para o acesso universal).

À necessidade de protocolos de comunicação universais, estáveis e fiáveis, juntaram-se os indispensáveis conversores de formatos. Uma profusão de formatos texto, áudio, vídeo, imagem, compressão, etc., passaram a povoar a rede. Veja-se a título de exemplo a base de dados do InfoFile.net Pontualmente, temos de converter um formato noutro para podermos aceder à informação, porque a nossa aplicação não lê o formato original de recepção. Essa incompatibilidade é muito frequente em sistemas Windows que não lêem documentos do OpenOffice nem reconhecem o flash tão usual na web.

Porém, e sem que as fases anteriores estejam de todo resolvidas, pois persistem os problemas de codificação das páginas HTML e a eterniza-se a convivência entre formatos mais adoptados e outros menos frequentes ou com código fechado, desenha-se uma fase de alcance bem mais ambicioso e de grande impacto. A conversão já não se coloca entre os formatos de uma mesma família, mas entre famílias de formatos. O que está a ser equacionado não é converter flv em avi (campo do vídeo), mas converter vídeo em texto, texto em áudio, etc.

Um futuro com contornos já visíveis

O universo de informação que consultamos através dos motores de pesquisa é assustadoramente pequeno e pobre em relação ao volume e qualidade da informação realmente disponível. Todos já ouviram falar do iceberg da web profunda, do qual só conhecemos a ponta. Se juntarmos a isso as imensas fontes de informação que estão a ser digitalizadas, a quantidade de documentos audiovisuais, que têm sido o quebra-cabeças na indexação, e a enormidade de ficheiros digitais que estão a ser criados por novas aplicações que não existiam sequer (as gravações das chamadas telefónicas, por exemplo), estamos razoavelmente conscientes do volume de informação que não é tratado nem integrado no fluxo.

Empresas, investigadores, cidadãos, trabalham na procura de soluções. E basta uma simples pesquisa (em qualquer língua) para recuperar software que converte texto em áudio ou áudio em texto. O tratamento da imagem e do vídeo são, porém, mais complexos e estão a ser liderados por empresas como o Google.

As vantagens da conversão são inúmeras e beneficiam todos. Ao utilizador final dão-lhe uma liberdade e flexibilidade até agora impossíveis. As apresentações e o website podem ser complementados com ficheiros áudio a partir de texto sempre que o visitante queira. Ditar texto que é escrito é outra vertente interessante. Mas é óbvio que a conversão da voz humana em texto está sobretudo trabalhada para o inglês e que as técnicas de reconhecimento de voz têm ainda muito que evoluir. Na viagem de carro para o emprego, ouvem-se as notícias, os blogs, o correio electrónico, o relatório que ficou por ler. Deixo o exemplo da enciclopédia Knol que oferece 243 artigos com registo áudio alternativo, basta no formulário de pesquisa avançada activar a opção “Show only knols that can be played back in audio form”.

Uma outra consequência positiva para a sociedade é a acessibilidade para pessoas com deficiência, privadas da capacidade de ouvir ou ver. Existem também soluções que convertem texto em braille e braille em texto ou voz.

Paralelamente, estas tecnologias criam novas oportunidades, beneficiando empresas atentas e inovadoras no desenho de negócios. Com uma ferramenta de conversão do áudio em texto, é possível automatizar a extracção das letras das músicas e oferecer esse extra aos clientes ou criar uma base de dados de letras com pesquisa em full text.

Mas o centro da actividade está no negócio da pesquisa e na janela de oportunidade para uma recuperação da informação mais abrangente e eficaz.

Algumas tecnologias em prova

Como referi anteriormente, as imagens e os vídeos colocam desafios maiores. Não é minha intenção passar a imagem que o único actor neste universo é a empresa Google, porque há certamente outros projectos. Mas por uma questão de comodidade e fácil acesso à informação, centrei os exemplos nesta entidade.

Google Image Labeler

Cada vez é mais frequente as empresas usarem a chamada inteligência colectiva para melhorar os seus produtos. Google Image Labeler apela à colaboração dos utilizadores de Gogole Search no sentido de ajudarem a melhorar os resultados na pesquisa das imagens. Este é um processo que está a ser adoptado por várias instituições, como a Library of Congress no Flickr, que aproveita o voluntarismo para enriquecer os metadados associados às imagens, tratando fondos grandes em pouco tempo. No artigo do blog da BC os números de visualizações, comentários e o impressionante númerod e etiquetas em todas as línguas.

A aplicação do Google Image Labeler dá à pessoa dois minutos e pretende que ela acrescente tantas etiquetas quantas as que conseguir recordar e associar à imagem. Dois aspectos devem ser tidos em linha de conta: propor etiquetas que ainda não tenham sido sugeridas pelo nosso adversário; procurar sugerir etiquetas específicas. É mais importante identificar na imagem o tipo de pássaro, por exemplo andorinha, que dizer simplesmente pássaro. Suponho que os utilizadores contribuam generosamente, porque o serviço foi concebido numa base de jogo e torna-se muito aliciante. Desconheço se é possível sugerir etiquetas noutras línguas.

Segue a minha experiência. É possível ver no canto superior esquerdo o contador do tempo e os pontos; e do lado direito, as etiquetas já sugeridas pelo adversário.

googleimagelabeler

Google Translation Center e Google Translator

A tradução de páginas web foi um dos serviços precoces da rede, havendo muita oferta. Porém, a iniciativa do centro de tradução do Google visava revolucionar e optimizar o processo de tradução automática. Pela primeira vez, foi possível traduzir línguas como o árabe para inglês e vice-versa com taxas de sucesso consideráveis. A técnica utilizada foi usar um corpus de textos traduzidos por humanos que se deu ao sistema, servindo-lhe de padrão. No caso, foram usados milhões de textos da ONU em várias línguas. Esta “aprendizagem” pelo exemplo permitiu resultados excepcionais e foi possível aperfeiçoar ainda mais o sistema com as introdução das correcções facultadas pelos tradutores humanos que se associaram ao projecto.

Lembro-me, não há muito tempo, que na página do centro era possível requisitar traduções ou tradutores e também registar-se como tradutor profissional ou amador. Essas pessoas encarregavam-se das revisões dos erros na tradução automática. Neste momento, esse serviço está reservado a colaboradores registados.

O principal objectivo deste projecto foi desenvolver um sistema eficaz de tradução que permitisse incorporar materiais até aí inacessíveis ao motor de pesquisa. Além disso, com esta técnica é possível recuperar informação em várias línguas quando a expressão de pesquisa se faz numa língua específica. Até aqui, pesquisar “história dos computadores” era diferente de “computing history”. A tendência vai no sentido de a língua da pessoa que interroga a base de dados não influir na recuperação dos resultados. Salvo se esta decide restringir os resultados por língua.

Um efeito colateral foi a criação e disponibilização do serviço doméstico do Google Translator.

Tesseract OCR

A política mais recente do Google tem sido abrir o código. Na secção Google Code é possível descarregar o software que a empresa usa no reconhecimento de caracteres de documentos digitalizados. Este software faz o reconhecimento óptico de caracteres. O scanner produz uma imagem que muitas vezes é colocada tal e qual na web sem que seja possível a exploração do texto, o que impede os motores de indexarem esse material.

Com o Tesseract os resultados não são um reconhecimento 100% perfeito, mas é mais que suficiente para a extracção de 80 a 90% do conteúdo. É uma tecnologia desenvolvida pela HP e posteriormente retomada pelo Google.

No site oficial do Google, o artigo A picture of a thousand words descreve bem a problemática inerente à digitalização. Todo o documento é transformado numa imagem digital que tem de ser processada – ou seja é preciso converter a imagem em texto. A dificuldade está em ensinar ao sistema a distinguir uma imagem de um caracter.

EveryZing, Youtube, GAudi

É antigo o sonho de tratar exaustivamente imagens e vídeos extraindo-lhes o máximo de informação. Mas até há bem pouco tempo e apesar de vários projectos –incluso o SpeechBot da HP– os resultados eram pouco promissores numa aplicação comercial e a grande escala. Assim, durante muito tempo, a única informação disponível para recuperar este tipo de ficheiro foram os dados técnicos ou, mais recentemente, algumas categorias temáticas, por assim dizer. No Google Search Image podemos desde há muito seleccionar fotos por tamanho, formato e até cor (p&b, tons cinza e cor). Mas também é possível seleccionar as imagens obtidas numa determinada pesquisa por conteúdo noticioso, conteúdo fotográfico ou caras. Nesta recuperação funciona a tércnica dos clusters, isto é, agrupam-se imagens com características comuns, tomando por base a informação contida nos URL (permite, por exemplo destacar o conteúdo noticioso), nos títulos e na descrição da imagem.

No exemplo apresentado, deixo as imagens de rostos de pessoas que de alguma forma estão associadas à expressão de pesquisa lançada: “guantánamo”.

googlesearchimage
Em Julho de 2007, Google regista na WIPO a patente para uma tecnologia que tem estado a ensaiar no EveryZing (antigo Podzinger), e que, uma vez testada e amadurecida, é transferida para o Google Audio Indexing (GAudi).

Essa tecnologia anuncia-se capaz de extrair o texto presente em imagens e vídeos. No primeiro caso, identifica e recolhe todas as marcas textuais (vamos imaginar uma imagem de uma cidade), ou seja, nomes de ruas, texto da sinalização, expressões dos estabelecimentos comerciais e edifícios. No segundo caso, além destes elementos do contexto, extrai o texto dito por pessoas.

O EveryZing está a funcionar como laboratório do GAudi e apresenta muito mais vídeos e categorias para pesquisa. O GAudi neste momento só dispõe do tema das eleições americanas com base no discurso de vários políticos. Quem desejar pode instalar no iGoogle o gadget “Elections Video Search”.

electionsvideosearchSe compararmos a pesquisa do mesmo vídeo no serviço do Youtube ou Google Video e no EveryZing, obteremos resultados distintos quanto à precisão. Enquanto no Youtube e no Google Video a pesquisa se continua a fazer com base nos textos dos títulos, na descrição do vídeo e no URL; no EveryZing a pesquisa faz-se no próprio texto pronunciado pelas pessoas.

No exemplo dado, seleccionei previamente um vídeo e uma parte do discurso. Lancei a pesquisa num e noutro motor com o critério de que me pesquisasse exactamente aquela frase. Como era de prever, recuperei o vídeo no EveryZing, mas não no Youtube ou no Google Video, apesar do vídeo em questão se encontrar nessas colecções. No futuro, estas ferramentas serão certamente estendidas a todos os produtos da empresa.

googlevideoyoutube

Deixo agora o ecrã do EveryZing.

everyzing

Picasa

Para rematar, apresento uma última técnica que está a ser trabalhada e que contribui para um acesso a mais informação e por mais pessoas.

O serviço Google Picasa ajuda à catalogação das fotos ao disponibilizar uma tecnologia que procura similitude nas expressões faciais de fotos de pessoas. O mesmo já está a ser aplicado nos vídeos e os principais motores de pesquisa – Google, Live Search e Exalead, já têm incorporada essa característica.

Tempos modernos

Já há algum tempo que sinto um misto de entusiasmo e inquietação em relação à Internet e à forma como influi na vida das pessoas, das empresas e das instituições. Ao deambular pela Rede, descobri Digital Etnography. Trata-se do trabalho de um professor da Universidade do Kansas –Michael Wesch– que está a realizar, a meu ver, uma análise e crítica excelentes a estes temas com os seus alunos de Antropologia cultural.

Materializam frequentemente o trabalho em forma de vídeos que disponibilizam no Youtube. O curioso é que este canal de partilha e difusão é ele próprio objecto de um projecto de estudo. Nele contam a história do Youtube, tentam perceber por que razões as pessoas usam o Youtube, etc.

Da colecção de palestras e vídeos, destaco um sobre a mudança de paradigma de informação –chamado Information R/evolution— que de uma forma muito criativa e clara mostra o quão modificaram as maneiras de organizar, editar, classificar e recuperar a informação.

Deixo aqui para visualização, um outro vídeo que explica a web 2.0 com a sua característica multidão de tags, vídeos, fotos; elementos que são cada vez mais recombinados em aplicações “mashup”. Na música, por exemplo, é habitual um serviço usar a Wikipedia para apresentar o artista, a base de dados Leo Lyrics com as letras das músicas, os vídeos do Youtube desse artista, as fotos do Flickr, as playlists do Last.fm e… tudo o que a criatividade e o engenho permitirem. Esta nova relação com a informação, com o mundo, com as pessoas e connosco, exige que tudo seja REdefinido.

Finalmente, impõe-se este vídeo em que os alunos são objecto e sujeito da reflexão. Não há retórica balofa, apenas o desfiar de uma realidade que pressentimos e reconhecemos. Turmas grandes, professores que não sabem o nome dos alunos, leituras obrigatórias que não são feitas, reduzido nº de livros lidos ao ano contra os milhares de páginas web ou perfis do Facebook lidos nesse mesmo ano. É um ensino ainda nos moldes do século XIX (no qual toda a informação estava estruturada, era escassa, naturalmente fiável e cujo acesso era geralmente mediado) que tem de confrontar-se com uma realidade radicalmente diferente, composta por um universo informacional vasto e não mediado e por uma geração 100% digital.

Modelos de preservação para revistas electrónicas científicas

Na sequência do tratamento do tema do software para publicação de revistas científicas, quis abordar aqui a problemática da preservação, que deve fazer parte das preocupações da entidade que publica.

Preservação, neste contexto, significa a conservação a largo prazo do conteúdo intelectual e do aspecto do recurso, mas também a garantia do cumprimento das regras de acesso establecidas para esse documento. Um programa de preservação correcto deve garantir o acesso ao recurso para sempre, mas se o conteúdo estiver protegido por direitos de autor e restricções de outra natureza, isso deve ser assegurado, tal como no período “activo” do documento.

O conceito de “período activo” e “não activo” de um documento faz cada vez menos sentido na actual linha de desenvolvimento dos estudos e experiências na área de conservação. A visão australiana de tomar os recursos como “continuum” e não em fases ou ciclos (corrente mais convencional), obriga à tomada de consciência da importância de preservar e trabalhar nesse sentido desde o acto de criação do recurso. Assim, a preservação seria algo de intrínseco e presente em todo o proceso de gestão desse recurso.

Duas soluções radicalmente diferentes

No campo das revistas científicas, duas entidades avançaram com propostas que tomaram forma nos últimos tempos. Portico (Digital Preservation and Electronic Archiving Service) e Lockss.

Portico é a resultado da iniciativa de JSTOR que em 2002 procurava um modelo de preservação para a literatura científica viável. Actualmente, é uma entidade autónoma que recebe apoios da Biblioteca do Congresso, do JSTOR, do Ithaka e de Andrew W. Mellon Foundation.

A estratégia consiste na centralização do processo de preservação no Portico, retirando às bibliotecas e aos editores a tarefa de se ocuparem individualmente desse problema. Em contrapartida, é-lhes pedidoapoio financeiro e, no caso dos editores, autorização para que o Portico possa preservar e dar acesso permanente aos recursos, mesmo nos casos em que o editor desaparece, descontinua um título ou em que a biblioteca deixa de subscrever o serviço ao editor.

Tecnicamente, o processo resume-se à recepção do material original, à conversão para o formato de preservação e à migração, quando necessário. Existe uma cópia do arquivo do Portico na Biblioteca Nacional da Holanda. Os formato, esquema de metadados e modelo usados são: Journal Archiving and Interchange DTD, PREMIS, OAIS.

Aderiram ao projecto inúmeras universidades, sobretudo dos EUA, do Reino unido, da Austrália, da Itália e Grécia. Também muitos editores, compresença significativa das editoras académicas, mas também alguns editores profissionais como Elsevier, Springer, John Wiley & Sons.

Lockss é um projecto muito especial, a começar pelo logo. Trata-se de uma tartaruga e funciona como símbolo da “longevidade” que se deseja para os recursos electrónicos.

O motor tem sido a Universidade de Stanford, que deu o pontapé de saída em 2000, mas é actualmente apoiada pela Biblioteca do Congresso, pela Mellon Foundation, pela National Science Foundation, pela Sun Microsystems, HP Labs.

Os membros são também universidades e curiosamente alguns dos editores queabraçaram o projecto do portico: Elsevier e Springer, por exemplo. Isto prova que a preservação é um assunto muito sensível e que as entidades estão genuinamente interessadas em participar nas iniciativas que existam em curso.

Ao contrário do Portico, a filosofia do Lockss defende o modelo tradicional de preservação nas bibliotecas que funcionou muito bem durante séculos e séculos. No esquema proposto, cada entidade, biblioteca ou editor, deve participar no esforço conjunto de presrvação a largo prazo.

Em termos muito resumidos, a solução assenta na tecnologia disponível e no conceito de rede. São necessários computadores normais, crawlers usados na web, rede peer-to-peer, permissão dos editores para que seja possível efectuar a recolha sistemática, análise e correcção de errros, e, claro, os recursos originais.

O funcionamento é simples:

  • o trabalho é em parceria, o que significa que a monitorização dos recursos é repartida entre as entidades,
  • os recursos encontram-se replicados pela rede, pelo que quando ocorre um problema num recurso de uma entidade, ela tem a possibilidade de repor a autenticidade e integridade, valendo-se de outra entidade que não sofreu o dano,
  • o arquivo está distribuído, ou seja, o risco de que o arquivo seja todo destruído é impossível, o que já não é válido quando se tem um arquivo centralizado,
  • a garantia de que o sistema se auto-monitoriza e controla a qualidade está assegurada pela replicação dos recursos em diferentes peers, mas também pelas caches permanentes,
  • a migração é aplicada automaticamente, por isso um documento é sempre lido pelos navegadores sem problema,
  • além da monitorização dos títulos em preservação, é possível controlar os acessos e sinalizar novos títulos que devem passar ao programa de preservação,
  • elimina a necessidade de cópias de segurança em dispositivos móveis, porque a “cópia” está na rede,
  • facilita o acesso imediato ao recurso pedido, porque está disponível e não arquivado por uma entidade.

As grandes vantagens desta opção são: custo muito reduzido, quando comparado com os megaprojectos centralizados de preservação; recursos ao alcance de qualquer entidade (PC, rede peer-to-peer…); tecnologia inteiramente open source; implementação fácil e autonomia e quase auto-gestão do programa.

Fiquei muito impressionada com o Lockss e a transparência e simplicidade do projecto. Creio que merece a pena ser estudada esta opção, surpreendente pelo sentido de oportunidade e pelo excelente uso das redes peer-to-peer, que têm estado na mira dos meios de comunicação social pelas piores razões. Este caso só prova que as tecnologias são neutras e estão aí. Os usos que delas se fazem é que podem ser mais ou menos nobres.

Um volteface ou um golpe de mestre?

No dia 16 de Junho a Microsoft foi aceite como patrocinadora do The Open Source Census (OSC). A notícia foi recebida com muitas reservas e desconfianças por parte da comunidade de software livre e já há quem ponha em causa a credibilidade do projecto OSC, que arrancou em Janeiro de 2008 e tem por objectivo medir o uso do Open Source nas empresas.

The Open Source Census

Mais sobre The Open Source Software Census

O grande objectivo é conhecer os níveis de adopção do software livre nas empresas e contribuir para o aumento do seu uso nesses meios. Para consegui-lo, não são feitas recolhas de dados em formato tradicional, mas através de um software que foi especialmente criado para esse efeito e que o faz automaticamente – OSS Discover.

Cada colaborador do projecto recebe o software que realiza um “scan” às máquinas de uma dada empresa. São apenas recolhidas informações dos pacotes de software utilizado, seja em ambiente Windows, Linux ou outro. Esses dados são depois colocados na Base de Dados geral, sem que seja possível associar a un IP, empresa ou nome específico. Os colaboradores têm acesso privilegiado aos dados e podem realizar benchmarking.

Argumentos a favor… argumentos contra e linhas de actuação

Os argumentos podem ser palavras de força, se apoiadas em condutas coerentes, ou palavras ocas, se não têm, nem no passado recente nem longínquo, práticas condizentes.

Vejamos os argumentos a favor. O projecto OSC é global e colaborativo, aberto a qualquer participante, pelo que a entrada da Microsoft não deveria motivar qualquer oposição da comunidade de Open Source.

Outros argumentos a favor da Microsoft: tem toda a legitimidade de apoiar e participar nos projectos que bem entender e tem o direito a rever a sua estratégia quanto ao software livre. Linus Torvalds sempre disse que a Microsoft poderia ter a sua própria distribuição Linux.

A nota oficial sobre esta iniciativa é a de que o OSC ganha com a heterogeneidade dos participantes e a de que a Microsoft está genuinamente interessada no projecto, porque existem muitos pacotes de software livre que correm em Windows.

Que atitudes recentes da empresa sustentam este súbito interesse pelo Open Source? Talvez um outro facto mediático: recentemente, a Microsoft apoiou o SourceForge.com 2008 Community Choice Awards…

As vozes do contra é que não se calam e as práticas parecem dar-lhes razão.

A “teoria da conspiração” é certamente argumento de filme, mas é legítimo questionar as boas intenções da Micosoft ao aliar-se a este projecto. Se a ideia é cair nas boas graças da comunidade Open Source, o melhor a fazer seria escrever código aberto. Se a intenção é entrar no “negócio” do software livre, então o melhor seria criar software com código aberto. Os mais cépticos vêem neste patrocínio uma forma da empresa ter acesso a dados e conseguir uma base para atacar legalmente empresas e produtos de software aberto mais populares.

Os factos e as práticas recentes apontam para isso: a Microsoft acusa o Open Source de violar 200 das suas patentes.

Juízo de cada um

Quando se lê uma notícia como esta, é difícil esquecer que a Microsoft é uma empresa de código proprietário, que sempre atacou como pôde os seus competidores directos, que abusou e abusa da posição dominante no mercado (multa da União Europeia) e que, recentemente, sujeita a própria indústria do hardware às suas regras e interesses.

O consumidor Windows beneficiaria se houvesse mais bom senso na abordagem da dupla proprietário Vs. livre e a comunidade de open source teria a beneficiar com um participante de peso como a Microsoft.

A solução proprietária e a solução livre não têm que estar em conflito, têm que saber adequar-se e deixar a escolha ao consumidor.

Estudo da Internet: ficção ou realidade?

Um excelente sensor para averiguar as tendências futuras da Internet são os departamentos de investigação de Yahoo e Google. Neste post tratamos de Yahoo Research.

A localização dos centros de investigação de Yahoo Research já diz muito da sua estratégia:

  • 3 nos EUA (Nova Iorque, Califórnia e Silicon Valley),
  • 1 na Europa (Barcelona),
  • 1 no Médio Oriente (Israel),
  • E destaco: 1 na América Latina (Santiago do Chile) e 1 na Índia (Bangalore).

As áreas geográficas emergentes – Ásia e América do Sul, serão determinantes no desenho da Internet, não só como mercados, mas também como dinamizadores e impulsionadores do seu desenvolvimento.

Se atentamos no programa e nas áreas prioritárias de investigação, depressa concluímos que se trata de uma continuidade, mas é uma continuidade exigente e rigorosa que modificará certamente a “face” da Internet que conhecemos hoje.

A aposta de Yahoo está a fazer-se: na pesquisa, sobretudo de imagens e vídeos, na extracção automatizada de informação das páginas web, na classificação e clustering também aplicada a páginas web. Mas uma área fascinante e que revolucionará muito do que conhecemos é a pesquisa na web y o web mining.

É precisamente nessa vertente que encontramos Ricardo Baeza-Yates. É um chileno, investigador e responsável pelas secções da Yahoo Research em Barcelona e em Santiago do Chile. Os seus centros de interesse estão todos orientados para o estudo da web e para a recuperação de informação na web. Ele e a sua equipa centram-se sobretudo nos algoritmos, na estrutura de dados, na pesquisa de bases de dados e multimédia e na melhor forma de visualizar e representar as redes, um trunfo importante neste tipo de estudos.

Nos últimos anos, dois estudos de fundo foram realizados e publicados sobre web de países – “Características de la web de España” (2005) e “Caracterización del espacio web en Argentina” (2007). É impressionante o número de dados que são manipulados nestes trabalhos: dezenas de milhões de páginas e milhares de domínios. É justo perguntar: mas esses números não são uma gota no oceano? Sabe-se que a Internet é uma rede livre de escalas e é redundante. Se a recolha é razoável (no caso de um país são necessárias dezenas de milhões de páginas, dependendo claro está do estado de desenvolvimento da rede), é perfeitamente possível extrapolar com toda a segurança, porque é como se se tivesse recolhido e analisado a totalidade das páginas existentes.

Na Rede, tal como na natureza, nada é aleatório. Leis muito simples regem a sua construção e crescimento e é sobre isso tudo que este ramo de investigação trabalha. São leis como a centralização, a intermediação, o grau de influência, tudo dimensões muito fáceis de compreender e muito similares ao comportamento das redes sociais de sempre.

O valor e uso da informação obtida é estratégico e tem múltiplas aplicações. E os resultados são deveras curiosos, seja pela surpresa seja pela reprodução da realidade na Web.

Por exemplo, é possível saber se um país está a apostar na criação de uma rede com tecnologia aberta ou não através da linguagem, dos servidores, etc., usados na criação das suas páginas. Sabe-se com que países esse país em particular tem relações mais fortes, porque os links o reflectem. Consegue-se medir o contributo de entidades públicas e privadas na construção da rede nacional, etc.

Vale a pena ler os estudos e conhecer um pouco a análise de redes.

MESUR, a avaliação multidimensional

A avaliação do impacto é tema de grande actualidade, sobretudo com a recente afirmação de alguns projectos open access ligados a repositórios ou a revistas (arXiv, PLOS). Os lugares de trânsito da comunidade científica estenderam-se a outros meios, vão muito mais além que as publicações do circuito tradicional.

As recentes práticas no ambiente digital, possibilitadas pelos novos serviços e plataformas, pulverizaram e multiplicaram as manifestações da actividade da comunidade académica. Avaliar a produção de um grupo de investigação pelo factor de impacto (ISI Impact Factor) é manifestamente insuficiente.

O projecto MESUR, financiado pela Fundação Andrew W. Mellon, pretende criar um modelo de avaliação mais amplo e imediato dessa actividade e produção.

No seu sítio web encontra-se informação sobre o projecto:

  • Duração: Outubro de 2006 – Outubro de 2008
  • Coordenador: Herbert Van de Sompel (Laboratório de Los Alamos)
  • Investigador principal: Johan Bollen
  • Financiamento: Andrew Mellon W. Foundation
  • Resultados: Modelo formal de avaliação, Linhas de orientação/ recomendações

MESUR diferencia-se das metodologias habituais quanto à abrangência e à avaliação em tempo real. Considera os critérios convencionais – citações, contagem dos clics (visualizações…), mas também tudo o que ocorre nas redes sociais e nos motores de pesquisa.

Parâmetros

Avaliação tradicional

Modelo MESUR

Actualização da informação Existe um intervalo de tempo entre a publicação e a avaliação do impacto (2 anos em média) Informação da avaliação está mais próxima do momento em que é conhecida, porque o uso é registado de imediato após a publicação/ depósito, encortando tempo de reacção
Universo de elementos avaliados Publicações formais (revistas, sobretudo) Analisa todo o tipo de comunicação científica: formal ou informal (redes sociais, motores de pesquisa), ou seja, está mais próximo dos workflows dos actores
Objectos de avaliação Avalia autores, artigos, instituições Avalia autores, leitores, profissionais
Instrumentos de avaliação web logs web logs, estatísticas de uso
Dimensão avaliativa monodimensional multidimensional e cruzada

Os maiores desafios para a equipa que trabalha esta proposta está em recolher uma massa de dados representativa, em validar esses dados e enriquecê-los semanticamente com relações (triples).

Projecto Mesur

Em Outubro, serão conhecidos as conclusões desta proposta que irá certamente modificar a forma de avaliar no futuro. O mapa de avaliação da comunicação científica será mais fiel e actual. Disso não têm dúvidas os promotores, aliás sustentados pelos resultados alcançados até agora. Existem instituições, cuja avaliação interna se aproxima do modelo global, outras em que existe uma marcada diferença. Também, regra geral, não é coincidente a análise do factor de impacto com a de uso.

A combinação de indicadores e o cruzamento de fontes de dados, correctamente controlados e validados, são sem dúvida um bom contributo na direcção de uma avaliação mais global e fidedigna.