Qual o próximo passo para a biodiversidade digital?

Nota: as opiniões aqui escritas são minhas e não refletem a opinião do meu empregador.

Chamo de biodiversidade digital todos os aspectos que envolvem a biodiversidade no mundo digital.

Tendo um pouco de experiência em digitalização e publicação da biodiversidade então irei descrever aqui o que eu acho que deve mudar para que o campo avance e possamos nos preocupar mais com coisas mais relevantes.

Padrões

EML

Estado da arte e apresenta poucos espaços disponíveis para melhoria. Não consigo me lembrar da última vez que nesses últimos seis meses que sequer citei o EML no trabalho. Acredito que quando a solução de um problema passa desapercebido significa que ele foi bem resolvido.

DwC

O padrão em si precisa ser mais aberto a sugestões e a equipe do TDWG (“mantedora” do padrão)  precisa de mais pessoas na equipe. É muito triste entrar na página de um padrão tão usado e o link de histórico permanecer quebrado a vários meses.

Muitas melhorias precisam ser feitas no grupo de taxonomia, falta várias sub/sob categorias e uma solução como a dada aos dados ecológicas seria o ideal. Informar o rank taxonômico e seu valor parece uma solução melhor do que termos fixos que contemplam apenas rankings básicos da taxonomia (é muita gente usa tribo!).

Ideal

Uma solução onde os dados são alimentados ao sistema na forma como o pesquisador descreveu sem a necessidade de modificações ou transformações. Também é precisa se desligar da ideia que todo dado é representado por tabelas. Quem grava o áudio/vídeo/fotos não fica usando tabela para salvar o produto. Links na tabela para esses recursos multimídia não são a solução, quando eu baixo um pacote de dados eu quero todos os dados dentro do pacote. Se ocorrer problemas no local da hospedagem o meu pacote de dados se torna inútil.

Solução para o problema é dar uma olhada nas ideias do padrão noSQL, onde é possível ter um formato híbrido com formato tabular e objetos (nossos vídeos).

Ferramentas

IPT

Uma opção para armazenamento de dados em algum banco de dados. Iria facilitar a indexação de recursos assim como a geração de métricas dos dados. Relacionado a isso o IPT precisa urgente de uma API. Só existe a necessidade de indexadores devido a falta de uma API…

A definição dos termos DwC em núcleos começa a ser irritante mostrando suas limitações no padrão estrela. Essa definição dos núcleos não pertence ao padrão do DwC. Nenhum pesquisador gosta de ideia de modificar sua tabela  e depois ter que dividi-la em outras três por uma implementação de um padrão de forma arbitraria pela ferramenta de publicação.

Metacat

Estou afastado da ferramenta a alguns meses. Ainda assino a lista de desenvolvimento para acompanhar as novidades e parece que última relevante é relacionada ao sistema de busca da DataONE (off-topic da ferramenta) que parece ter sofrido melhorias consideráveis.

Tentei fazer o download do último código fonte e desisti depois de ver o tamanho de quase 900 mb. Me pergunto como um código fonte pode chegar a esse tamanho absurdo? Este projeto também já deveria ter migrado para o GitHub. Se o financiamento acabar também podemos perder acesso ao código fonte. O GitHub daria o prolongamento da vida da ferramenta por contribuições da comunidade.

Ainda possui recursos que eu sonho em ver no IPT como a replicação que permite compartilhar seus dados de forma segura entre instalações da ferramenta. API local que permite criação de portal de dados com a própria ferramenta e indexação por Solr.

Ideal

Uma ferramenta com todos os recursos listados no último paragrafo do Metacat mas com a interface de adição de recursos do IPT e com um novo modelo de armazenamento de dados que também iria implicar em um novo padrão superior ao DwC. A noção de dados de ocorrência ou ecológicos deve desaparecer para o software e existir apenas na cabeça do pesquisador.

E claro que não seja em Java, não adianta falar que Java roda em qualquer plataforma se todo mundo usa servidores Linux eliminando assim a principal vantagem argumentada. Java não é ruim, mas desenvolvedores competentes parecem escassos. Toda vez que eu olhei para um campo na ferramenta e imaginei “se eu fizer isso vai dar pau” aconteceu. Eu sou um biólogo, se é óbvio para mim deveria ser ridículo para um programador com diploma. Um desses bugs que reportei pode simplesmente travar o IPT por vários segundos, com um pouco de maldade eu poderia travar todas os IPTs disponíveis por quanto tempo eu tivesse paciência. Esses bugs são comuns em ambas as ferramentas.

Conclusão ou tl;dr

Desaparecimento dos padrões de formatação de tabelas. Não queremos mais tabelas! Queremos poder usar vídeos e áudio nos pacotes de dados, nada de anexo. Um vídeo por registro se assim eu desejar.

A ferramenta deve se virar para resolver meu problema. Eu me adaptar a soluções dos informáticos não é solução do problema. Se a minha “tabela” está nesse formato deve ter um motivo muito bom. Será que é o formato mais comum para a análise deste tipo de dado? Será que meus pares de pesquisa também gostariam de receber nesse formato? Se eu apresentar em outro formato isso vai ajudar o compartilhamento de dados sobre a biodiversidade? São todas perguntas que parecem esquecidas e precisam ser feitas e refeitas até a exaustão para avançarmos para o próximo nível.

Fim da relação política/financeira dessas ferramentas/padrões. Sim várias vezes eu consigo notar que todo mundo sabe do problema, concorda com o problema, mas não vamos fazer nada por motivos políticos.

Que se foda *****, eu quero é resolver o problema.

Conclusão no final da discussão sobre o “estado da arte” da biodiversidade digital

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: