Skip to main content
biblioteca com muitas estantes

Projetos de Big Data: desafios e lições

Big Data é uma frente ascendente dentro das organizações.

A área de Data Science ainda não desenvolveu suas metodologias próprias para condução de projetos (i.e ágil em desenvolvimento de software).

Copiando metodologias de outras áreas e tateando como melhor lidar com as dificuldades, tentamos entregar resultados expressivos com baixo custo, mas com frequência nos desgastamos, despendendo recursos em troca de um baixo retorno.

Visto isso, trago neste artigo minha experiência de mais de 2 anos trabalhando exclusivamente em projetos de Data Science, apresentando algumas lições que fazem a diferença para a equipe e para o negócio.

Essas lições se referem a 4 tópicos principais: Alinhamento com objetivos de negócio, Definição de uma métrica clara, Buy-in dos stakeholders e Suporte da organização.

Se você trabalha há algum tempo com Ciência de Dados, ou até mesmo está começando agora, eu recomendo que leia esse artigo. E aí, vamos lá? 🙂

Alinhamento com objetivos de negócio

Projetos de big data não devem ser definidos por desejos vagos

Muitos projetos têm o escopo definido a partir da união entre um desejo e um vislumbre de possibilidade. O problema é que isso ocorre, muitas vezes, sem que se tome conta das restrições operacionais, técnicas e conceituais.

Falhar na concepção da entrega pode ser a diferença entre ganhos claros ou duvidosos.

>> Leitura recomendada:
Ciência de Dados: tudo o que você precisa para começar!

Avalie o impacto dos pré projetos e ataque os mais importantes

Uma etapa importante é avaliar a viabilidade dos pré projetos e entender a possibilidade de ganho na implantação.

Para isso é útil definir, realisticamente, o patamar atual de resultados e comparar com o patamar para o qual podemos elevá-lo, utilizando técnicas de inteligência artificial.

Em uma linguagem bem direta: quanto de ROI esse pré projeto trará pro negócio?

Já fui confrontado com o argumento de que é um passo desnecessário, dado que ‘certamente haverá ganhos’, porém os dados podem contar uma história diferente.

Independente da possibilidade de ganhos é sempre importante quantificar. Assim podemos comparar vários possíveis projetos e apostar as fichas nos que se apresentarem mais rentáveis.

Definição de uma métrica clara

“Muitas vezes as métricas de qualidade não estão alinhadas entre as equipes de operação e o projeto de big data”

Em uma equipe técnica, temos um modelo mental de como as operações funcionam, mas tal modelo costuma divergir com a visão de alguém que está todos os dias, o dia todo, imerso nesse mundo!

Dentro de um call center por exemplo, onde eu trabalho, metas e métricas são combinadas com o cliente da noite para o dia. Essa informação nem sempre circula para a equipe de Data Science entre os projetos.

É justificável não ter essas informações atualizadas, pois nosso trabalho não é monitorar as operações da empresa, então em cada novo projeto é importante alinhar quais métricas serão utilizadas e como.

As métricas de negócio nem sempre se traduzem bem para um classificador

Outro ponto importante é casar as métricas de negócio com uma que faça sentido para as técnicas de big data, o que não costuma acontecer naturalmente. Pode ser que em vez da acurácia, precisemos utilizar o f-score ou a área abaixo da curva roc (auc).

Nesse momento o mais importante é chegar em um número que faça sentido para ambos os lados da equação.

Buy-in dos stakeholders

É preciso educar os stakeholders sobre data science. Evitar expectativas irreais. Evitar que se espere relatórios.

Muitos stakeholders não estão acostumados a lidar com uma equipe de Data Science e podem estar fantasiando sobre o que esperar.

Educar a empresa sobre inteligência artificial é uma das etapas descritas por Andrew Ng no livro AI Transformation Playbook, no qual ele aborda o assunto de como assimilar a inteligência artificial ao cerne do negócio.

Na minha experiência muitos stakeholders desinformados esperam entregas simples, como relatórios, que podem ser tratadas pela equipe de BI, ou entregas complexas, que ou estão fora do alcance do estado da arte em IA, ou esbarram em detalhes técnicos como disponibilidade e latência da informação.

Gerar confiança e evitar o vai-vém no momento de validar um projeto de Big Data

Um ponto muito importante com os stakeholders é a confiança. É preciso que os objetivos e métricas estejam muito claramente alinhados, que eles saibam o que podem e devem esperar, e que fique definido de antemão como os resultados serão avaliados.

Já trabalhei em projetos com uma fase longa e desgastante de avaliação em produção, pois independente da maneira como medíamos o resultado, sempre havia alguma terceira variável que poderia estar atrapalhando.

Suporte da organização

Atribuição de responsabilidades

Muitas organizações ainda não têm uma definição clara do papel da equipe de Data Science, em especial quanto à colaboração com as outras áreas da empresa.

Uma equipe de Big Data pode abrigar todas as responsabilidades de ponta a ponta no projeto, porém pode ser construída com o auxílio de equipes já consolidadas.

Algumas funções que podem ser compartilhadas são a criação de uma base de dados integrada, geralmente uma tarefa já abrangida pela equipe de BI, e a responsabilidade de manter os novos estudos em produção, que pode ser feito pela equipe de TI ou por uma equipe de Data Engineering.

Utilização das ferramentas corretas

Muitos projetos são desenvolvidos em unidades de negócios. Nessas unidades os profissionais muitas vezes não têm acesso às tecnologias de Data Science por políticas empresariais (i.e., privilégios de administrador, acesso à rede para fazer download das ferramentas).

É importante permitir ao profissional utilizar as ferramentas que ele julga corretas para o trabalho. Muitas das ferramentas de Data Science são gratuitas!

Existem ferramentas pagas de boa qualidade, mas vale avaliar a necessidade e a capacidade da equipe em utilizá-las.

Conclusão sobre os Projetos de Big Data

Sem metodologias estabelecidas nos guiamos pela experiência.

Esses são os principais pontos que observei no meu período como cientista de dados, muitos dos quais se referem a clarificar as responsabilidades e expectativas, educando os envolvidos no processo.

Internamente a empresa deve se organizar para integrar a equipe ao seu ecossistema, possibilitando ao mesmo tempo colaboração e autonomia.

Para contratar de maneira eficiente é importante notar as atribuições: coleta de dados, criação de modelos e manutenção dos sistemas em produção são tarefas melhor conduzidas por profissionais com perfis bem diferentes!


Projetos de Big Data: desafios e lições
5 (100%) 4 votes