Como usar Python para análise de dados

Python é uma linguagem de alto nível. É interpretada, de script, imperativa, orientada a objetos, funcional, de forte tipagem e dinâmica. Não poderia deixar de ser uma excelente opção para quem quer trabalhar com análise de dados, pois suas fortes características e suas grandes opções de bibliotecas disponíveis fazem dela uma ótima escolha para análise de dados.

Para melhor instruir quem está querendo começar a jornada de análise de dados e pretende utilizar essa linguagem como ferramenta, vou mostrar algumas das bibliotecas que utilizamos para dados com Python.

10 Livros de Python para ser um especialista

A análise com Python

telas de computador com codigos de programacao e um oculos

Uma análise é feita utilizando vários métodos. Primeiro é necessário extrair e organizar os dados, que podem vir de diversas fontes: arquivos de texto, csv, excel, xml, banco de dados, mineração de dados, enfim, são diversas as fontes onde podemos obter informações.

Contudo, imaginando que você que está lendo esse artigo já tenha noção de programação, é necessário em primeiro lugar escolher qual fonte de dados utilizar.

>>Leitura Recomendada:
Você sabe qual é a melhor linguagem para data science?

As bibliotecas Python

As bibliotecas mais utilizadas para análise de dados com Python são:

NumPy
Pandas
Matplotlib

Iremos abordar uma visão geral de cada uma delas, começando pela NumPy.

NumPy

É utilizada principalmente para realizar cálculos em Arrays, sejam eles comuns ou multidimensionais.

Ela fornece várias funções e operações que nos ajudam a executar esses cálculos numéricos com facilidade. Por exemplo: multiplicação de Arrays, transposição, adição, manipulação de matrizes, entre outros. Tudo isso com códigos fáceis e rápidos.

NumPy também oferece funções para manipulação de imagem, como por exemplo espelhamento e rotação de imagens, já que elas são representadas como Arrays Multidimensionais.

Como NumPy executa cálculos com facilidade, é fortemente utilizado para operações de matemática, estatística, álgebra linear, geração de números aleatórios, entre outras manipulações.

Para se ter noção do poder dessa biblioteca: ela, em conjunto com SciPy e Matplot, pode substituir com tranquilidade o famoso MATLAB quando se trata de tarefas matemáticas.

Pandas

No meu ponto de vista uma das mais utilizadas, pois fornece ferramentas para análise e estrutura de dados de alta performance que são, ao mesmo tempo, fáceis de codificar.

Basicamente o Pandas explora a manipulação, leitura e visualização de dados. Ele trabalha com dois tipos principais de estruturas de dados: Series e DataFrames.

Uma Series é igual a um Array unidimensional, ou uma lista.

Ela possui um índice que dá rótulos a cada elemento da lista, como por exemplo:

Produtos = pd.Series([‘cabo usb’, ‘pendrive’, ‘ssd’, ’hd’])

Quando mando mostrar na tela esse código, Pandas me retorna o Array serializado com um índice:

1	Cabo usb
2	pendrive
3	ssd
4	hd

Um outro exemplo utilizando series:

notas = pd.Series([2,7,5,10,6], index=["Alfredo", "Aline", "Enzo", "Sarah", "João"])

Alfredo	2
Aline	7
Enzo	5
Sarah	10
João	6

Nas series é possível, também, pesquisar utilizando um índice como chave. Se eu chamar notas [“Sarah”], terei como saída 10.

Além de acessar por índice, também podemos aplicar funções estatísticas sobre os valores, como: média, desvio padrão, moda, além de ser flexível o suficiente para aplicar diversas funções matemáticas do NumPy.

Agora vamos aos DataFrames do Pandas, definidos como uma estrutura bidimensional de dados, tal qual uma planilha do Excel.

Os DataFrames são fantásticos, pois neles conseguimos fazer diversas manipulações que fazemos no banco de dados sem precisar ter todo o trabalho de mexer com banco de dados diretamente.

Um exemplo seria: preciso filtrar alguns dados de um arquivo CSV.

Com o Pandas DataFrames você lê o arquivo e ele, sem adicionar a nenhum banco de dados, já te mostra todo CSV tabulado. Com isso você decide utilizar os dados ou descartá-los.

Resumindo, te poupa o trabalho de importar o CSV para um banco de dados para então visualizar os dados de forma organizada e tabulada.

Além da exibição feita acima, ainda podemos utilizar diversos recursos de estatística e manipulação dos dados diretamente no Python.

De forma geral, é possível fazer toda parte de extração, tratamento e visualização de dados apenas com essa biblioteca.

Sem contar com uma característica especial muito facilitadora, que é o Pandas exibir vários tipos de gráficos sem precisar de auxilio de outra biblioteca.

Eu poderia ficar horas e horas falando sobre o Pandas, pois sua facilidade e rapidez são impressionantes, vale a pena pesquisar mais e se aprofundar nessa biblioteca.

>>Leitura Recomendada:
Os 5 melhores frameworks de Python

MatplotLib

E por fim, agora é a vez do MatplotLib, que é uma biblioteca de visualização de dados do Python.

Não há muito o que falar sobre MatplotLib, é a biblioteca mais famosa para esse fim, ela gera gráficos de duas dimensões, na de baixo fica o eixo X, à esquerda o eixo Y e entre esses planos ficam expostos nossos dados.

Posso trabalhar estilos de gráficos, cores, exibição, e diversas outras aplicações. Matplotlib está por trás dos gráficos gerados pela biblioteca Pandas.

Em conclusão

Essa foi uma visão bem simplificada, porém necessária para dar os primeiros passos na análise de dados com Python.

A partir do momento em que você conseguir dominar essas três bibliotecas, conseguirá avançar mais na sua forma de análise, utilizando banco de dados estruturados ou não estruturados juntamente com as bibliotecas citadas, utilizando Python como intermediário para cálculos, tratamentos e exibições de dados.

Crie um perfil na GeekHunter e receba propostas alinhadas ao seu perfil. São mais de 1000 vagas abertas, inclusive Vagas Python.

Fundamentos de Python para análise de dados

A análise com Python