ETL, do inglês Extract Transform Load, é uma etapa muito importante em Data Science, pois é durante a ETL que extraímos os dados.
São n possibilidades de extração, sejam elas relacionais ou não relacionais. Entre elas estão planilhas Excel, banco de dados, arquivos csv, txt, json entre várias outras possibilidades.
Quando os dados estão no mesmo formato, podemos dizer que os dados são estruturados. Mas, se precisamos trabalhar com dados em vários formatos, então eles podem semi-estruturados ou não estruturados.
Para isso a fundo no conceito, eu recomendo este artigo aqui, sobre dados estruturados, semi-estruturados e não estruturados.
Pela ordem, após extrair os dados, precisamos tratar/transformar os dados. É nessa etapa que retiramos o máximo de informações úteis possíveis.
Para completar o ciclo ETL é necessário carregar os dados e então exibí-los para os interessados utilizando representações gráficas, mais comumente conhecidas como dashboards.
Agora sim, ETL na prática
Existem diversas ferramentas para etapa de ETL.
No caso desse tutorial utilizaremos o Power Bi, ferramenta líder de mercado em business intelligence.
Usaremos o Power BI para tratar os dados e criar um dashboard para o usuário final.
Vamos extrair os dados de uma planilha Excel, tratá-los e então exibir de forma elegante e simples. Tudo bem prático.
Vou dar um exemplo bem simples de transformação de dados, já que a lógica se repetirá em qualquer processo de extração e tratamento.
>>Leitura Recomendada:
Leia nosso artigo sobre os melhores softwares para Big Data
Power BI na prática
Se você ainda precisa implementar o Power BI , aqui está um conteúdo que ajudará.
Abra o PowerBI.
Vá até Página inicial > Obter dados > Excel, conforme mostra figura abaixo:
Essa etapa é o ‘E do nosso ETL’, onde vamos obter os dados.
Note aqui como o nosso arquivo Excel será tratado e como é a extração de dados utilizando o PowerBI. É claro que você precisa ter uma planilha ‘populada’ no Excel para isso.
As planilhas do Excel são mostradas de formas separadas na obtenção dos dados. Podemos selecionar apenas as planilhas que nos importam e tratar seus dados, ou tratar todo o arquivo (todas as abas juntas).
A imagem abaixo ilustra bem o que quero dizer:
Agora vamos para ‘T do nosso ETL’, o tratamento dos dados. Selecionamos a planilha “Clara” e então clicamos em Editar, para que possamos tratar os dados e ver o ETL na prática, acontecendo.
É aí que o Power BI abre uma extensão chamada ‘Power Query Editor’, para que possamos tratar nossos dados. Na nossa planilha, podemos ver alguns tratamentos.
>>Leitura Recomendada:
DataWarehouse: Conceitos Fundamentais e Arquiteturas
Exemplo tratamento de dados no Power BI
1.Vamos considerar o modo de exibição de datas, representado pela coluna “mês”.
As datas, da forma que estão, não são úteis para o usuário, então vamos mudar seu formato. Neste caso, eu quero apenas a informação de mês.
Selecionamos a coluna que queremos transformar, vamos em ‘Tipos de Dados’ e então selecionamos o tipo que queremos utilizar.
2. Vamos retirar os null e completar a tabela com algum dado — país, por exemplo — para que fique mais fácil de visualizar cada linha da planilha.
Para isso vamos para a aba Transformar e então utilizaremos o botão de preenchimento. O resultado será a figura abaixo:
3. Com os nossos dados tratados, clicamos então na aba Página Inicial e então em Fechar e Aplicar.
Seguindo o exemplo e explorando o Power Query, você tem todas opções para tratar os dados. Mas, precisa ter uma coisa em mente: qual o objetivo do seu dashboard?
A quais necessidades atenderá? Quais as métricas que o usuário final em questão analisará? Essa lógica é a parte mais importante.
A forma que você transforma os dados influenciará muito na montagem do dashboard.
Montando nosso dashboard no Power BI
Podemos ver que nossa tabela de Excel possui 3 tipos de dados diferentes: País, Data e nº de Clientes.
Para melhor visualizar esses dados, devemos criar um gráfico que, logicamente, permita a seleção por mês, país e quantidade de clientes.
Perceba que no painel ‘VISUALIZAÇÕES’, você tem uma infinidade de representações gráficas.
Eu quero criar um gráfico que possibilite a visualização de clientes ganhos x mês.
O resultado é a figura abaixo, onde você seleciona a coluna soma de Clientes e a coluna Mês. Como a coluna mês é uma data completa, você apaga os eixos que não interessam (ano, trimestre, dia) conforme necessidade inicial.
Pronto: deixamos apenas o mês, pois o intuito desse gráfico é ver a quantidade de clientes por mês, mas podemos escolher qualquer outro eixo, ano, trimestre e assim por diante.
Outra opção de análise que adicionarei ao dashboard é a quantidade de clientes por país. Usarei agora a visualização “Gráfico de Pizza”.
Seguindo o mesmo padrão acima. Vou selecionar apenas a coluna soma de clientes e a coluna país.
Podemos fazer diversos estudos de casos com o painel de ‘VISUALIZAÇÕES‘, e então garantir que o usuário final entenda melhor os dados e possa tirar as conclusões e definir as novas metas.
Nesse pequeno estudo, podemos ver sem nenhuma dificuldade que uma das vendedoras — vamos imaginar que é a vendedora Clara — teve o maior número de clientes em dado mês e, nos meses restantes, ela teve um ganho bem equilibrado de clientes.
Também vemos que maioria dos Clientes são do Canadá. Também visualizamos em nossos dados, uma matriz que apresenta o total de clientes por país e por ano, o total geral e ainda temos um gráfico com as 3 colunas mostrando o ganho de clientes por trimestre.
Agora você já sabe porque ETL é uma etapa tão importante em Data Science. A maior parte do tempo de um Cientista de Dados é gasto extraindo e transformando dados.
Embora haja muito mais o que estudar, agora você já tem um impulso para começar a estudar mais ETL.
Espero que tenham gostado. Até breve e obrigada!
>> Leitura recomendada: Bancos de dados NoSQL x Bancos de dados relacionais