um homem e uma mulher olhando juntos para a tela de um computador

Big Data: Quais são os melhores softwares?

Logo de cara já dou um spoiler: o melhor software depende da necessidade. Qual ferramenta é melhor: Um martelo ou uma chave de fenda? Depende se o objetivo é pregar um prego ou apertar um parafuso.

O que veremos aqui neste artigo não é uma lista definitiva, imutável, mas sim um guia de referência dos softwares mais demandados no mercado Big Data atualmente.

Esse guia pode ser utilizado como um ponto de partida para escolhas, seja para estudos ou desenvolvimento de um projeto.

As 4 Camadas da Arquitetura Big Data

parede com o numero 4 escrito

Uma arquitetura Big Data tradicionalmente subdivide-se em 4 camadas lógicas, que são:

  1. Coleta
  2. Processamento
  3. Armazenamento
  4. Análise

Listarei aqui os softwares por sua respectiva camada lógica:

Coleta

tela com codigos de programacao

Stich

Ferramenta leve de ETL que coleta dados de fontes variadas pré-integradas, transforma e faz a limpeza conforme necessário. É de fácil configuração, possui integração com muitas fontes de dados.

Apache Kafka

Software de código aberto que funciona como barramento para streaming de mensagens. Pode criar um um feed de suas fontes de dados, organizá-los e enviá-los a um ouvinte.

O Kafka é uma solução madura e poderosa usada em produção e em grande escala. No entanto, é um tanto quanto complexa de implementar.

Então, se você tem várias fontes de dados e quer combinar tudo num data lake, por exemplo, e o tempo real não é tão importante, o Stich pode ser uma boa opção.

Agora, se você se o real time for um deal breaker, é melhor considerar o Kafka.

Apache Flume

Esse é ideal para streaming de logs.

É legal entender o funcionamento do Apache Nifi também, pois o mercado tem pedido bastante, mas ele é apenas mais um intermediário na camada de ingestão de dados.

>>Leitura Recomendada:
Leia nosso artigo sobre o
Big Data no Marketing.

Processamento

tela de computador com analise de dados

Apache Spark

Boa opção para processamento em batch de arquivos. O Hadoop tem provado ser a melhor solução para o processamento de grande volume de dados.

O MapReduce é ótimo para cálculos, processamento único, mas menos eficiente para os casos onde existem cálculos e algoritmos com várias execuções. O Spark nesses casos é uma escolha melhor.

Apache Storm

Sistema open source que faz em tempo real o que o que o Hadoop faz em processamento batch. Simples e pode ser usado com várias linguagens.

Spark Streaming

Tem praticamente o mesmo conceito do Storm, porém trabalha com o conceito de micro-batchs.

Para uma arquitetura lambda, por exemplo, na batch layer utiliza-se algo como o Spark e na speed layer o Storm.

>>Leitura Recomendada:
Projetos de Big Data: desafios e lições

Armazenamento

Redis

É um sistema relativamente simples de armazenamento “chave-valor” em memória e tem como principais utilizações servir como cache e broker de mensagens. É bastante utilizado por developers, nem tanto em aplicações Big Data.

Amazon S3

Cria buckets que armazenam seus arquivos com alta garantia e durabilidade.

O s3 é simples e seguro, provê uma solução rápida e barata para armazenamento sem limites de grandes volumes de dados.

Existe outra opção na Amazon ainda mais barata, com velocidade menor de acesso para dados históricos, por exemplo, o Glacier.

Amazon RedShift

Um Data Warehouse que armazena petabyte em nuvem, oferece consultas rápidas e pode ser usado com banco de dados relacional.

Bancos de dados relacionais

Escolha um: SQL Server, MySql, Postgres, tanto faz. O importante é dominar a linguagem SQL.

Hadoop HDFS

Sistema de arquivos distribuído. Tornou-se popular por ser robusto e suportar escala ilimitada. No entanto, isso requer uma qualificação especializada e integração complexa de uma série de componentes de código aberto.

O mais importante aqui é entender o conceito dele, por ser um dos precursores do Hype do Big Data, pois é raro valer a pena utilizá-lo.

>>Leitura Recomendada:
Fundamentos de
Python na análise de dados

Análise

computador com um grafico na tela

Os softwares de análise são bastante de diversos, desde o Tableau, QlikView, ao PowerBi. Vou listar os que mais me agradaram nos últimos tempos.

Chartio

Apesar de não ser muito utilizada no mercado nacional, é uma ferramenta em nuvem muito poderosa e flexível. Aceita conexão de várias fontes, consultas SQL e construção de dashboards.

>>Leitura Recomendada:
Leia nosso artigo sobre 5 ferramentas de Big Data para você conhecer

Looker

Software em nuvem que permite analisar e consultar grandes conjuntos de dados, assim que configuradas as views que contam “a história” dos dados. Essa ferramenta, no entanto, tem um custo mais elevado.

Sisense

O Sisense é um software também em nuvem, tem tudo que os outros tem e é muito intuitivo. Em minha opinião é o melhor!

Finalizando

letreiro escrito data has a better idea

Procure montar uma stack na qual os componentes “conversem” entre si. Dessa forma, a manutenção e configuração do projeto será menos dolorosa. 

E o mais importante: Há uma variedade muito extensa de softwares dos quais podemos lançar mão para realizar projetos Big Data.

O importante é entender qual software atende melhor a sua necessidade no momento e refletir se continuará atendendo por algum tempo, pois o investimento deve ser justificável por um período.

Então pense no problema, qual software o atende agora e se no futuro próximo o continuará atendendo, seja em em termos de custos, performance, etc.

A solução que satisfizer essas condições é a melhor.

>>Leitura Recomendada:
SQL, NoSQL, NewSQL
: Qual banco de dados usar?

Compartilhar
You May Also Like