Experimentos científicos baseados em simulações (chamados de in silico) são fortemente dependente de recursos computacionais. Muitos experimentos são compostos de centenas ou milhares de invocações de programas. Esses experimentos comumente se beneficiam de ambientes de processamento de alto desempenho (PAD) como clusters e nuvens de computadores para acelerar sua execução. Entretanto, mesmo executando em ambientes de PAD, o volume de dados (dados de execução dos experimentos e dados de proveniência) produzido/consumido e que deve ser gerenciado, pode se tornar um gargalo. A gerência desses dados, se realizada de forma centralizada, pode impactar na análise e validação dos resultados e também no próprio desempenho da execução do experimento. Uma alternativa é armazenar e consultar esses dados de forma distribuída, o que adiciona desafios. Apesar de existirem abordagens para gerência de dados de proveniência distribuídos, não há um padrão de fato. Isso torna muito difícil correlacionar, classificar e comparar as várias abordagens existentes. Ao longo dos anos, mapeamentos sistemáticos e taxonomias foram usados para criar modelos que permitem o levantamento e a classificação de abordagens dentro de um domínio. O principal objetivo deste artigo é aplicar um mapeamento sistemático sobre a área de gerência de dados de proveniência distribuídos e propor uma taxonomia deste domínio, classificando as abordagens existentes de acordo com as classes da taxonomia
Luiz Gustavo DiasBruno LopesDaniel de Oliveira