Trilha machine learning: ETL
No artigo anterior, tivemos uma introdução ao tema de aprendizado de máquina, e após entendê-lo, é bom sabermos também sobre uma etapa super importante, que é o processo de ETL (ou ELT em alguns casos) e deve anteceder qualquer projeto seja de aprendizado de máquina ou BI para garantir a qualidade da nossa base de dados e a eficiência na execução dos nossos algoritmos. Vamos lá!
O ETL (Extract Transform Load, ou Extração Transformação e Carregamento) é capaz de tornar o processo mais preciso e eficiente,
é nesse processo que os dados são padronizados e limpos e é nele que conseguimos entender os dados que nossa base tem e já ter
uma noção prévia do que eles nos fornecem e são capazes de fornecer depois de aplicarmos técnicas de BI, machine learning...
ELT (Extrair, carregar e transformar) nesse caso a carga é feita antes da transformação, ela otimiza a carga e é normalmente usada
em Data Lakes e dados para serem usados em Big Data, ou casos de aprendizado de máquina que exigem que todos os dados, independente de
estarem padronizados ou não, devem ser considerados, mas por quê considerar dados fora do padrão? Em branco? Vazios? Até esses dados podem
nos dizer alguma coisa, principalmente sobre o comportamento do grupo que nos forneceu esses dados, então em alguns casos vale a pena mantê-los.
Como funciona?
Extração, é o momento em que os dados são retirados do banco de origem, essas extrações podem ser feitas de forma completa (Ex: dados históricos), ou de forma gradual (Ex: Extração diária, horária) e ainda existem casos de extração em tempo real, mas tudo vai depender de como o sistema que faz
essa extração é configurado.
Transformação, é nesse momento que temos a oportunidade de conhecer nossos dados, podemos explorar a base e analisar o comportamento de cada linha e coluna, nessa etapa vamos retirar dados duplicados, dados em branco, dados com valor zerado, podemos também converter dados caso necessário, texto pra número por exemplo, podemos converter quilos para toneladas, mapear valores "F" para "Feminino". Numa etapa mais avançada podemos usar os dados que já temos para gerar novos dados, unir dados de tabelas distintas, separar colunas e em alguns casos ainda podemos criptografar os dados antes de serem enviados para o banco de dados de destino.
Carregamento, é o final da nossa operação de ETL, é aqui em que o dado transformado é levado para nosso banco de destino, normalmente Data Warehouses ou Data Lakes, e assim como na extração, o carregamento pode seguir algum padrão de carga (horária, diária, anual...) a depender do sistema usado.
Exemplos de ferramentas de ETL:
- ODI (Oracle Data Integrator)
- Apache Spark
- Apache Airflow
- Azure Databricks
Para termos uma noção de como funcionam esses sistemas, vamos ver um exemplo em Python:
Comentários
Postar um comentário