Validação de Dados: uma base para análises confiáveis
💡 Leia até o fim para entender a solução 💡
A validação de dados é uma prática fundamental para garantir a integridade das informações. Além disso, ela nos dá confiança de que os dados usados são limpos, consistentes e prontos para orientar decisões.
Imagine a seguinte situação:
Você se dedicou para montar aquele dashboard completo: análises, insights, gráficos elegantes… tudo pronto para apresentar ao diretor executivo. Mas, na hora H, ele solta:
“Esses números de faturamento não batem com os do sistema…”
💥 E agora? Vergonha, desconfiança, questionamentos… Tudo por causa de dados não validados.
A verdade é: isso nem deveria acontecer. Uma simples verificação antes da análise já teria evitado o constrangimento.
Como praticar a validação de dados?
A validação pode (e deve) ser feita de várias formas durante toda a análise.
Algumas práticas incluem:
Analisar a fonte dos dados: é confiável? atualizado?
Tratar colunas importantes com cuidado: nomes, formatos, valores nulos...
Verifique as restrições do modelo de negócio: por exemplo, um valor de venda não pode ser negativo.
Verificar consistência estrutural: tipos de dados, duplicidades, outliers.
A validação dos dados deve ser apresentada no início ao final da análise. Desde a coleta até o momento da visualização e apresentação final.
Abaixo compartilho as duas soluções, para o problema apresentado acima, por meio da linguagem SQL:
Explicação da Solução: A primeira mostra uma comparação linha a linha, e caso houvesse diferenças entre o total vendido com a (quantidade * preco unitário), a query retornaria as linhas divergentes.
A segunda solução olha para o total agregado, caso a soma do total vendido fosse diferente da soma da quantidade * preço unitário, observaríamos facilmente. Poucas linhas de código podem garantir um compartilhamento de soluções sem constrangimento.
Comentários
Postar um comentário