Um volteface ou um golpe de mestre?

No dia 16 de Junho a Microsoft foi aceite como patrocinadora do The Open Source Census (OSC). A notícia foi recebida com muitas reservas e desconfianças por parte da comunidade de software livre e já há quem ponha em causa a credibilidade do projecto OSC, que arrancou em Janeiro de 2008 e tem por objectivo medir o uso do Open Source nas empresas.

The Open Source Census

Mais sobre The Open Source Software Census

O grande objectivo é conhecer os níveis de adopção do software livre nas empresas e contribuir para o aumento do seu uso nesses meios. Para consegui-lo, não são feitas recolhas de dados em formato tradicional, mas através de um software que foi especialmente criado para esse efeito e que o faz automaticamente – OSS Discover.

Cada colaborador do projecto recebe o software que realiza um “scan” às máquinas de uma dada empresa. São apenas recolhidas informações dos pacotes de software utilizado, seja em ambiente Windows, Linux ou outro. Esses dados são depois colocados na Base de Dados geral, sem que seja possível associar a un IP, empresa ou nome específico. Os colaboradores têm acesso privilegiado aos dados e podem realizar benchmarking.

Argumentos a favor… argumentos contra e linhas de actuação

Os argumentos podem ser palavras de força, se apoiadas em condutas coerentes, ou palavras ocas, se não têm, nem no passado recente nem longínquo, práticas condizentes.

Vejamos os argumentos a favor. O projecto OSC é global e colaborativo, aberto a qualquer participante, pelo que a entrada da Microsoft não deveria motivar qualquer oposição da comunidade de Open Source.

Outros argumentos a favor da Microsoft: tem toda a legitimidade de apoiar e participar nos projectos que bem entender e tem o direito a rever a sua estratégia quanto ao software livre. Linus Torvalds sempre disse que a Microsoft poderia ter a sua própria distribuição Linux.

A nota oficial sobre esta iniciativa é a de que o OSC ganha com a heterogeneidade dos participantes e a de que a Microsoft está genuinamente interessada no projecto, porque existem muitos pacotes de software livre que correm em Windows.

Que atitudes recentes da empresa sustentam este súbito interesse pelo Open Source? Talvez um outro facto mediático: recentemente, a Microsoft apoiou o SourceForge.com 2008 Community Choice Awards…

As vozes do contra é que não se calam e as práticas parecem dar-lhes razão.

A “teoria da conspiração” é certamente argumento de filme, mas é legítimo questionar as boas intenções da Micosoft ao aliar-se a este projecto. Se a ideia é cair nas boas graças da comunidade Open Source, o melhor a fazer seria escrever código aberto. Se a intenção é entrar no “negócio” do software livre, então o melhor seria criar software com código aberto. Os mais cépticos vêem neste patrocínio uma forma da empresa ter acesso a dados e conseguir uma base para atacar legalmente empresas e produtos de software aberto mais populares.

Os factos e as práticas recentes apontam para isso: a Microsoft acusa o Open Source de violar 200 das suas patentes.

Juízo de cada um

Quando se lê uma notícia como esta, é difícil esquecer que a Microsoft é uma empresa de código proprietário, que sempre atacou como pôde os seus competidores directos, que abusou e abusa da posição dominante no mercado (multa da União Europeia) e que, recentemente, sujeita a própria indústria do hardware às suas regras e interesses.

O consumidor Windows beneficiaria se houvesse mais bom senso na abordagem da dupla proprietário Vs. livre e a comunidade de open source teria a beneficiar com um participante de peso como a Microsoft.

A solução proprietária e a solução livre não têm que estar em conflito, têm que saber adequar-se e deixar a escolha ao consumidor.

Competições na área da recuperação da informação

Um dos motores da inovação é, quer se goste quer não, a competição e o jogo. É muito comum nas áreas científicas, como astronomia, robótica, inteligência artificial, etc. A área da Information Retrieval também tem as suas competições, as TREC Text REtrieval Conference.
As “conferências-desafios” realizam-se anualmente e a elas concorrem investigadores, a título individual, universidades ou organismos governamentais.
Trata-se de uma iniciativa do NIST National Institut of Standards and Technologies e do Departamento de Defesa norte americano.
A ideia faz lembrar um jogo para passar o tempo, mas que tem imensa importância e impacto no sector da indexação e recuperação automáticas. Muitos produtos comerciais e ferramentas que conhecemos têm incorporadas técnicas que foram trabalhadas nestas competições. Aliás, um dos grandes objectivos da iniciativa é acelerar o processo de transferência tecnológica do meio académico ao mercado e à comunidade. Outro objectivo óbvio é a avaliação de sistemas de indexação e recuperação da informação.

Linhas de trabalho…
Não se pense que estas competições se desenrolam com atenção única à recuperação de texto. Existem uma série de áreas nas quais os candidatos se podem inscrever. Por exemplo: Blog (exploração da pesquisa de informação na blogosfera), Genoma (pesquisa de informação relacionada com a sequência dos genes, mas também com a documentação e laboratórios), Legal, Vídeo, Spam, etc.
Há uma área curiosa que é a das Perguntas. O objectivo é trabalhar a pesquisa e apresentação de informação que não seja um conjunto de textos, mas informação já “elaborada” e especialmente preparada para atender à pregunta realizada. Em geral, essa pregunta é feita em linguagem natural, que é outro trabalho de Hércules…
Uma área com bastante visibilidade, que até originou umas conferências próprias, é a das Línguas. Essas competições chamam-se CLEF (Cross-Language Evaluation Forum) e têm muita expressão na Europa, conhecendo o apoio directo de DELOS Network of Excellence for Digital Libraries. E compreende-se porquê. Não só, porque as colecções são em várias línguas, sobretudo se entendermos a biblioteca digital como sem fronteiras, veja-se o projecto da Biblioteca Digital Europeia, mas também porque cada vez mais os públicos são provenientes de vários países.
Uma pessoa que consulta um sistema de informação na sua língua materna deve recuperar não só os documentos nessa língua, mas todos os que existem, mesmo que noutras línguas. Isto obriga a que os sistemas de indexação e recuperação das colecções estejam preparados para “compreender” a query, a traduzi-la nas línguas em que existem os documentos e a apresentar os mais interessantes para essa necessidade.
É habitual nestes casos o uso de dicionários, tesauros, vocabulários controlados, metadados, ou combinações destes meios. Babelfish, Systran, Globallink Power Translator são algumas das ferramentas que beneficiaram das conferências e do “gozo” colectivo que geram.
Apesar de haver muitas áreas a concurso, o que é natural é que as entidades se especializem num ramo, porque é impossível dominar todas as especificidades. Essa escolha está sempre relacionada com projectos que já desenvolvem nas suas instituições ou com necessidades reais das suas comunidades.

“Regras do jogo”
O funcionamento é simples: existe uma colecção enorme de documentos e um grupo de perguntas (topics). Na colecção geral de documentos estão os que interessa recuperar para cada uma das perguntas (pool), mas é claro que o universo de documentos é muito maior e não se limita aos documentos que se relacionam com as respostas.
O “jogo” consiste em preparar e configurar os sistemas de modo a conseguir nos resultados:

  • recuperar todos os documentos assinalados como relevantes para uma determinada pregunta (recall)
  • ordenar esses documentos relevantes nas primeiras posições do ranking (precision)

Na imagem podemos ver que o sistema B foi mais eficiente que o sistema A, porque recuperou mais documentos do total de relevantes. Já o sistema A apresenta muitos documentos da colecção que não são importantes para a pergunta formulada.

Estudo da Internet: ficção ou realidade?

Um excelente sensor para averiguar as tendências futuras da Internet são os departamentos de investigação de Yahoo e Google. Neste post tratamos de Yahoo Research.

A localização dos centros de investigação de Yahoo Research já diz muito da sua estratégia:

  • 3 nos EUA (Nova Iorque, Califórnia e Silicon Valley),
  • 1 na Europa (Barcelona),
  • 1 no Médio Oriente (Israel),
  • E destaco: 1 na América Latina (Santiago do Chile) e 1 na Índia (Bangalore).

As áreas geográficas emergentes – Ásia e América do Sul, serão determinantes no desenho da Internet, não só como mercados, mas também como dinamizadores e impulsionadores do seu desenvolvimento.

Se atentamos no programa e nas áreas prioritárias de investigação, depressa concluímos que se trata de uma continuidade, mas é uma continuidade exigente e rigorosa que modificará certamente a “face” da Internet que conhecemos hoje.

A aposta de Yahoo está a fazer-se: na pesquisa, sobretudo de imagens e vídeos, na extracção automatizada de informação das páginas web, na classificação e clustering também aplicada a páginas web. Mas uma área fascinante e que revolucionará muito do que conhecemos é a pesquisa na web y o web mining.

É precisamente nessa vertente que encontramos Ricardo Baeza-Yates. É um chileno, investigador e responsável pelas secções da Yahoo Research em Barcelona e em Santiago do Chile. Os seus centros de interesse estão todos orientados para o estudo da web e para a recuperação de informação na web. Ele e a sua equipa centram-se sobretudo nos algoritmos, na estrutura de dados, na pesquisa de bases de dados e multimédia e na melhor forma de visualizar e representar as redes, um trunfo importante neste tipo de estudos.

Nos últimos anos, dois estudos de fundo foram realizados e publicados sobre web de países – “Características de la web de España” (2005) e “Caracterización del espacio web en Argentina” (2007). É impressionante o número de dados que são manipulados nestes trabalhos: dezenas de milhões de páginas e milhares de domínios. É justo perguntar: mas esses números não são uma gota no oceano? Sabe-se que a Internet é uma rede livre de escalas e é redundante. Se a recolha é razoável (no caso de um país são necessárias dezenas de milhões de páginas, dependendo claro está do estado de desenvolvimento da rede), é perfeitamente possível extrapolar com toda a segurança, porque é como se se tivesse recolhido e analisado a totalidade das páginas existentes.

Na Rede, tal como na natureza, nada é aleatório. Leis muito simples regem a sua construção e crescimento e é sobre isso tudo que este ramo de investigação trabalha. São leis como a centralização, a intermediação, o grau de influência, tudo dimensões muito fáceis de compreender e muito similares ao comportamento das redes sociais de sempre.

O valor e uso da informação obtida é estratégico e tem múltiplas aplicações. E os resultados são deveras curiosos, seja pela surpresa seja pela reprodução da realidade na Web.

Por exemplo, é possível saber se um país está a apostar na criação de uma rede com tecnologia aberta ou não através da linguagem, dos servidores, etc., usados na criação das suas páginas. Sabe-se com que países esse país em particular tem relações mais fortes, porque os links o reflectem. Consegue-se medir o contributo de entidades públicas e privadas na construção da rede nacional, etc.

Vale a pena ler os estudos e conhecer um pouco a análise de redes.

A portabilidade levada ao extremo

O conceito de portabilidade sempre foi uma preocupação da indústria e serviços, basta pensar na restauração e no sucesso dos Take away, ou no sector automóvel e na luta pela autonomia do veículo. Na área do hardware e do software verifica-se a mesma tendência: computadores mais leves e finos (veja-se o recente ibooK air de Apple), dispositivos de armazenamento leves, pequenos e de grande capacidade.

Aproveitando a actual capacidade de armazenamento da pen-drive, iPod, discos duros amovíveis, Portable APPS avançou com um produto interessante. Uma suite, conjunto de programas, que são armazenados num desses dispositivos e vão com o seu dono para todo o lado. Todos os programas são software livre com licença GPL. A pessoa não necessita de utilizar aplicações alheias, usa as suas e com a configuração que decidiu – caso do gestor de correio, dos navegador e dos favoritos, etc.

É de facto uma solução inteligente que tira partido das possibilidades tecnológicas e vai ao encontro das necessidades de muitas pessoas – comodidade, autonomia e independência. Uma vantagem inegável é o funcionamento em qualquer computador público a partir do dispositivo sem necessidade de instalação e sem correr o risco de deixar passwords ou informação pessoal.

O funcionamento é simples: existe uma plataforma que é gravada no dispositivo e sobre essa são gravados os programas sugeridos (suite feita) ou elabora-se o pacote de forma personalizada.

As áreas dos programas disponíveis são: acessibilidade, desenvolvimento, jogos, gráficos/ imagens, Internet, música/ vídeo, Office, OS, utilitários. A aplicação mais usada é o navegador Mozilla Firefox.

O processo de instalação é muito simples.

Creio que a tendência futura já está bem delineada: programas portáteis, suites personalizadas, processo de instalação de programas inexistente, sobretudo em aplicações mais usadas. Isto graças a esta solução de aplicações portáteis, mas também ao aparecimento de programas que se utilizam quando estamos conectados, mas que não se instalam localmente (ej. Google Docs).