Ser ou não ser um cientista de dados? Investir na área ou não? Se você está na dúvida se vale a pena seguir a carreira e se a profissão é efetivamente para você, este artigo cairá como uma luva. Ah e, se for o motivo for curiosidade, fique à vontade também.
O mercado de ciência de dados está extremamente aquecido e você sabe disso, por isso está aqui. No setor privado, os salários de um Cientista de Dados estão entre os maiores do mundo (Sim, isso que você leu) e há motivos de sobra para o crescimento da área. No Brasil. No mundo inteiro.
Afinal, qual empresa não quer transformar dados em lucro? De maneira bem simplista é isso que um Cientista de Dados faz. Como a profissão começou a aparecer de uns 10 anos para cá, com a ascensão do Big Data, ainda existem muitas dúvidas sobre a área. Sim, até mesmo para quem já começou e deseja segui-la
Se você quer ser Cientista de Dados mas não sabe por onde começar, este artigo te dará um norte e todo o insumo que precisa para começar.
É hora de dar o ponto pé inicial!
>>Artigo Recomendado:
Veja aqui como e quando você deve implementar Big Data na sua empresa.
Cientista de dados: quem é?
De maneira resumida, o Cientista de Dados é o responsável por tratar massas não-estruturadas de dados e transformá-las em inteligência de negócio, tudo por meio de metodologia científica. Então, sim, é preciso ser muito analítico e manjar de estatística.
Afinal, sua principal função será resolver problemas complexos já mapeados e “fuçar” tanto, que outros virão à tona.
Na área de Ciência de Dados é comum encontrar matemáticos, economistas, analistas de sistemas, estatísticos, engenheiros e até profissionais de Marketing.
É por isso que o Cientista de Dados é a pessoa que estará sempre em busca de um produto perfeito, mesmo que isso seja utópico.
“Mas peraí, tô confuso(a). Eu também preciso coletar e armazenar os dados?”
Na realidade, não. Este é o papel do Engenheiro de Dados, que constrói toda a infraestrutura e presta manutenção aos sistemas de armazenamento e processamento
de dados.
É como se o Engenheiro fosse um produtor de redes de pesca e o Cientista de Dados o pescador. O boost da área de ciência de dados se deve bastante à ascensão de soluções que utilizam inteligência artificial, já que o trabalhado do cientista de dados está diretamente ligado à programação de algoritmos.
>> Leitura recomendada:
Quais são os salários de TI mais bem pagos em 2019? Dá uma lida aqui!
Cientista de Dados versus Business Intelligence
Não, não é a mesma coisa. É bastante parecido, sim, mas as diferenças são bem claras.
De maneira resumida, o trabalho do BI é analisar dados e obter insights sobre o negócio, produtos e/ou serviços.
Já o Cientista de Dados utiliza, em termos bem óbvios, de Ciência para obter estes dados. Ele pode analisar também, e deve, mas essa não é sua única responsabilidade. O Cientista, claramente, utiliza o método científico.
Com isso, formula, valida, desconstrói e constrói de novo suas hipóteses. Tudo isso utilizando basicamente modelagem estatística e simulação.
O Cientista de Dados se diferencia por não fazer análise de períodos como o BI, mas sim, usa a transformação de dados para fazer análises preditivas e construir suas novas hipóteses.
>>Leitura Recomendada:
Algoritmos de recomendação: o que são e como implementá-los?
O cientista de dados deve ter quais habilidades?
Mandar bem na resolução de problemas (E gostar, é claro!) | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Curiosidade insaciável, para esmiuçar dados e explorar padrões jamais vistos antes | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Bom raciocínio lógico | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Visão de negócios, marketing e empreendedorismo | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Conceitos e tecnologias que o cientista de dados precisa dominar
Machine Learning e Deep Learning | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Data Preparation | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Reconhecimento de padrão | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Análise de texto | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Estatística | ⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️ |
Conceitos de Matemática aplicada | ⭐️⭐️⭐️⭐️⭐️ |
O Cientista de Dados faz o que de fato?
Como “pescador de dados”, as principais responsabilidades do Cientista de Dados, são:
- Análises Quantitativas:
Previsões e simulações usando o método científico, modelagem matemática e análise estatística;
- Transformação de Dados:
Tornar dados brutos acessíveis e visualizáveis para os envolvidos em determinado negócio. Usa a transformação de dados para resolver problemas e identificar tendências aplicáveis;
- Conhecimento de Negócios:
Ter visão sistêmica do negócio e interseccionar equipes de tecnologia e gerenciais. O Cientista de Dados não precisa estar tão envolvido com negócios quanto o BI, mas precisa entender profundamente o produto e as dores do negócio.
>>Leitura Recomendada:
Ciência de dados: como aplicar ao marketing
Dados Estruturados versus Não Estruturados
Exemplo de Dados Estruturados: Dados vindos de bancos transacionais, como de softwares como CRMs e ERPs.
Exemplo de Dados Não-estruturados: Textos, imagens, áudios, vídeos, e-mails, interações em sites, entre vários outros dados de origens distintas.
As diferenças entre bancos de dados
Bancos de Dados NoSQL (Not Only SQL) – Os RDBMS (Relational Database Management Systems) são bancos de dados “tradicionais” e “não-relacionais”. Estes bancos de dados são preparados para trabalhar com Big Data, isto é, com grande volume de dados.
Os bancos de Dados NoSQL são de alta disponibilidade, permitem escalabilidade e também tem alto desempenho e confiabilidade. O MongoDB é um exemplo disso.
Neste tipo de banco de dados é possível armazenar dados para serem buscados por meio de queries, com o uso de SQL (Structured Query Language).
Bancos de Dados Relacionais – Os bancos de Dados Relacionais não são ideais para trabalhar com Big Data. São incapazes de processar um alto volume, uma grande variedade, em alta velocidade.
Por isso, é de extrema importância que o Cientista de Dados conheça e tenha familiaridade com o armazenamento de dados, até pela agilidade que isso dá ao seu trabalho.
Qual a melhor linguagem para o Cientista de Dados?
Python
Atualmente, podemos dizer que a Python é a linguagem mais utilizada para ciência de dados. Com Python é possível trabalhar na coleta e análise de dados e até Web Scraping.
A duas grandes vantagens da Python é que ela é relativamente mais fácil de se aprender, quando se está começando a trabalhar com dados. Outro ponto é que a linguagem é mais usada quando precisa haver integração via aplicativos web
Isso porque a linguagem traz fortes conceitos de Java e pode ser facilmente utilizada por quem já conhece C++.
Manjando de Python, você pode trabalhar com os pacotes:
Pandas (manipulação de dados), Scikit-learn (Machine Learning, SciPy (computação científica) e Matplotlib (apresentação gráfica).
R
Podemos dizer que a R também é amplamente utilizada, mas geralmente por Cientistas de Dados com mais tempo na estrada ou por acadêmicos de estatística nas universidades.
As vantagens da R sobre a Python são as maiores quantidades pacotes, que acabam por aumentar a capacidade da linguagem. A comunidade de suporte também é extremamente engajada e confiável.
Além disso, a R é extremamente útil quando o assunto são as análises estatísticas mais profundas, por conta da sua amplitude de pacotes publicados. E isso não é à toa: R foi desenvolvida por uma equipe de especialistas em estatística, em 1995.
Manjando de R, você pode trabalhar com os pacotes:
ggvis e ggplot2 (gráficos), caret (machine learning), stringr (para manipular strings) e zoo (time-series).
Além de Python e R, é comum encontrar cientistas de dados que trabalham com Scala, Julia e até Java.
>> Leitura recomendada:
Não se convenceu? Dá uma lida no [Guia]Qual a melhor linguagem para ciência de dados?
Onde estudar Ciência de Dados?
Não existe uma formação específica só para Ciência de Dados, por ser uma área muito nova. Porém, existem algumas disciplinas mais “soltas” dentro de algumas graduações, e também alguns cursos mais específicos.
Ciência de Dados, na Udacity
A plataforma de cursos oferece cursos que vão desde Analista de Dados, até fundamentos de Machine learning. Os valores variam de R$ 500,00 a R$ 1500,00.
Modelagem Matemática, na Fundação Getúlio Vargas
A fundação Getúlio Vargas oferece um curso de graduação com valor mais elevado, pois trata-se de um curso renomado e que pode dar uma base muito forte ao Cientista. A graduação dura 2 anos e o valor gira em torno de R$ 30 mil.
Big Data Science – Machine Learning e Data Mining, da FIAP
O curso, que é promovido pelo FIAP de SP, é bem rápido e prático, totalizando 32 horas intensas de curso. O preço fica em torno de R$ 28mil.
Análise de Big Data, na FIA (Fundação Instituto de Administração)
O FIA fica em São Paulo e a graduação dura 1 ano e 7 meses. O valor da graduação é
28 mil reais.
Big Data na prática com Apache Hadoop: Um Pilar da Terceira Plataforma, na PUC Rio
Por ser um curso mais focado em um dos frameworks mais utilizados para Ciência de Dados, o Apache Hadoop, vale a pena conferir o curso da PUC do Rio de Janeiro. A duração é de 16 horas e o valor não está divulgado.
Além das citadas, existem outras instituições que oferecem cursos que podem agregar na área. Vale a pena conferir, ainda os cursos da Universidade Mackenzie, USP, além das empresas Coursera e edX.
>> Leitura recomendada:
Conheça as certificações de TI mais importantes do país!
Principais Plataformas para tratamento de dados
Plataformas |
Utilidades |
Anaconda | Utilizando a Anaconda, que é Open Source, você tem acesso a muitos pacotes. Aqui, você encontra muitas bibliotecas Python e também R. |
RapidMiner | A RapidMiner facilita muito a mineração de dados. Aqui é possível trabalhar também com leitura, carregamento, limpeza, transformação, modelagem e aplicação de algoritmos de ML. |
Apache Hadoop | O Hadoop também é Open Source. De forma resumida, trata-se de um framework para armazenamento e processamento distribuído de Big Data utilizando clusters com hardware commodity. Isto é, de baixo custo, acarretando boa economia na infraestrutura do projeto. |
Spark | Assim como o Hadoop, o Spark é Open Source. É uma ferramenta robusta para processamento de queries e algoritmos. O Spark está ganhando muita força e popularidade na comunidade de ciência de dados, em especialmente por atuar bem na recuperação de falhas. |
DataMelt (Versão Gratuita) |
O DataMelt possui versão gratuita e é uma plataforma computacional para análise estatística de visualização científica. Nela, você pode aplicar Python e também trabalhar com Java. Suas bibliotecas possuem meio de scripts dinâmicos, |
Orange Versão Gratuita) |
A Orange é open source. Serve para análise e visualização de dados, que podem ser extraídos por scripts Python. Possui componentes de Machine Learning. |
Ciência de Dados e as principais Bibliotecas Python
Bibliotecas Python |
Utilidades |
NumPy | A Numpy é a biblioteca Python para computação científica. Facilita muito execuções como ordenação, transformação, estatística e seleção. |
Scrapy | Também da Python, essa biblioteca é ideal para coleta e raspagem de dados originados da web. |
Pandas | Pandas é a biblioteca mais utilizada de todas para análise de dados. Operar com matrizes e vetores é possível e o desempenho é ótimo. |
Scikit-Learn | Essa biblioteca é para quem trabalha com Machine Learning. |
Aplicações complementares para Ciência de Dados
Aplicações complementares |
Utilidades |
Editores de Texto (Edição de código) Atom, Sublime e Notepad +++ |
Estes são os editores de texto mais utilizados em Desenvolvimento e, agora, em Ciência de Dados. Após algumas atualizações, o Sublime acaba saindo na frente em relação ao seu desempenho. |
Comunidade/Repositório: Github |
Exponha seus projetos de Data Science e receba feedbacks para aprimoramento. É uma ótima forma de aprender orientado(a) por profissionais experientes. |
Máquinas virtuais: Parallels e VirtualBox | Com as máquinas virtuais você pode utilizar vários sistemas operacionais no mesmo computador. Um exemplo é apresentar o dados no Windows, mas fazer a transformação de dados no Linux. |
Suite Office: Libre Office | O Libre Office é a suite para escritório da Microsoft. Neste pacote de aplicações, você encontra desde processadores de texto, até gerenciadores de banco de dados, com o “Base”. Também é possível criar fórmulas matemáticas com o “Math”. É indispensável. |
Preparando o computador para ciência de dados
- Para começar a trabalhar com Ciência de Dados, você precisa ter uma máquina de no mínimo 8GB de memória RAM e um processador core i5. Esses são os requisitos mínimos para rodar algumas das ferramentas citadas.
- Se o computador tiver um desempenho inferior ao citado, também é possível trabalhar com ambientes virtuais de trabalho, utilizando aplicações como Amazon AWS e Cloud9.
- Os sistemas operacionais mais comuns para se trabalhar com Ciência de Dados são Mac, Linux e Windows. Apesar da possibilidade, o Linux costuma performar relativamente melhor, já que tanto Hadoop como Spark rodam melhor neste sistema operacional.
- Para apresentação de dados o Windows pode funcionar melhor, já que os pacotes Office são comumente utilizados para isso.
Dica: Como Windows é o sistema operacional mais comum da grande maioria das máquinas, você pode criar uma máquina virtual com Linux para utilizar Hadoop ou Spark; - Ah, é possível criar seus scripts de Data Science 100% online, via browser, usando o Jupyter Notebook;
Cientista de Dados e a carreira
Agora você já sabe o quão promissora é a carreira de Cientista de Dados. É uma área extremamente nova, então se você começar agora suas chances de se destacar são muito grandes.
Para iniciantes, existe uma gama fantástica de material gratuito na internet. Em especial, recomendamos comunidades como o Github , onde profissionais de excelência trocam experiências e ajudam a fortalecer o mercado de tecnologia no Brasil.
O momento é agora!