Data Culture - QConSP...Por que ter dados auditáveis é essencial para ... Análise de Dados e...
Transcript of Data Culture - QConSP...Por que ter dados auditáveis é essencial para ... Análise de Dados e...
Data Culture:Data Science e Machine Learning resolvendo problemas reais
QCon SP 2019
Quem somos
Gabriel Lages
Gerente de Data Science & Analytics na Hotmart
Bacharel em Estatística, Ciências Econômicas e Especialista em Banco de Dados.
Atua há mais de 10 anos com análise de dados, tendo como foco a tomada de decisão em empresas e disseminação da cultura de dados no Brasil.
E-mail: [email protected]: @gabrielclages
Pollyanna Gonçalves
Cientista de Dados na Hotmart
Bacharel e Mestre em Ciência da Computação.
Atua há 4 anos com Data Science e Business Intelligence, e foi pesquisadora científica na área de Sentiment Analysis na Web.
E-mail: [email protected]: @pollyannaogoncalves
A Hotmart é a maior empresa especializada na venda e distribuição de produtos digitais da América Latina, líder de mercado desde sua fundação, em 2011.
Em constante processo de internacionalização, a empresa possui escritórios em Belo Horizonte, Madri, Amsterdã, Bogotá e Cidade do México.
Hotmart
Hotmart
+5 MilhõesDE COMPRADORES
+200PAÍSESDIFERENTES
+150 MilPRODUTOS
+2 MilhõesDE USUÁRIOS
LE
LETOP 3 MITOS
EM DATA SCIENCE E MACHINE LEARNING
Mito 1 - Salários astronômicos
Mito 2 - Data Lake é o paraíso na terra
DATA LAKE ORDATA SWAMP?
Mito 3 - Você vai trabalhar só com modelos de Machine Learning e Deep Learning
…
Cultura de Dados:
Por onde começar?
Como resolveresse problema?
Dados Auditáveis
Dados Acionáveis
Dados Acessíveis
Dados Auditáveis
Dados Acionáveis
Dados Acessíveis
Por que ter dados auditáveis é essencial para qualquer projeto de dados?
●●●
Por que ter dados auditáveis é essencial para qualquer projeto de dados?
●●●
Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:
1
Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:
1 2
Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:
Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:
1 2
3
1
2
Para a equipe da Plataforma:
Produto Ativo = Disponível no Mercado
3
1
2
Para o time de Vendas:
Produto Ativo = Fez pelo menos uma venda
3
1
2
3
Para o time de Backoffice:
Produto Ativo = Passou pelo processo de aprovação e foi
ativado
Como resolveresse problema?
1 - Definir as regras de negócio
3 passos para se obter Dados Auditáveis
2 - Local para consultar estas
regras
3 - As pessoas devem utilizar estas regras
1 - Quem define as regras?
a) CEO da empresab) Time de BI / Datac) As próprias equipesd) Outro
1 - Quem define as regras?
a) CEO da empresab) Time de BI/DATAc) As próprias equipesd) OutroA resposta depende da fase
em que a empresa se encontra
STARTUP GROWING MATURE
STARTUP
CEO
GROWING
DATA TEAM
A área de dados não é o cérebro da empresa…
A missão da área de dados é:
Organizar e Otimizar a Inteligência Coletiva
da empresa.
MATURE
All teams
MATURE
All teams
DEMOCRATIZAÇÃO DOS DADOS
O objetivo da Democratização de Dados é que qualquer um possa ter acesso aos dados a qualquer momento para tomada de decisão sem barreiras de acesso ou entendimento."
Bernard Marr, Forbes
“
1 - Origem da Informação
2 - Governançados Dados
3 - Métricas e Indicadores
4 - Visualização dos dados
5 - Compartilhamento de conhecimento
O caminho da Democratização de Dados
Na Hotmart, em 2019
● 67% das pessoas da empresa já acessam as ferramentas de inteligência
● 508 consultas criadas apenas no primeiro trimestre do ano
2 - Onde armazenar as regras de negócio?
…
Na Hotmart: Repositório de Conhecimento
● Governança
● Integrações com databases
● Consultas a databases
● Visualização
Na Hotmart: Repositório de Conhecimento
Alternativa Open Source
github.com/lyft/amundsendatabuilder
ou escreva no Google: AMUNDSEN LYFT
1 - Origem da Informação
2 - Governançados Dados
3 - Métricas e Indicadores
4 - Visualização dos dados
5 - Compartilhamento de conhecimento
+
OwnerFeedbacks
3 - Garantir que as pessoas acessem e vejam valor nesse processo
Para uma cultura de dados forte
● Educar as pessoas
● Facilitar os processos
● Conquistar o apoio da empresa
MATURE
All teams
DEMOCRATIZAÇÃO DOS DADOS
Dados Auditáveis
Dados Acionáveis
Dados Acessíveis
Soluções para dados acessíveis
● Ferramentas tradicionais para organização e análise de dados
Soluções para dados acessíveis
● Ferramentas de BI
Na Hotmart: Repositório de Conhecimento
● Governança
● Integrações com databases
● Consultas a databases
● Visualização
Datasources
Arquitetura - Repositório de Conhecimento
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
Datasources
Arquitetura - Repositório de Conhecimento
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
Datasources
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
Arquitetura - Repositório de Conhecimento
Datasources
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
Arquitetura - Repositório de Conhecimento
Datasources
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
To be
continued...
Arquitetura - Repositório de Conhecimento
Solução 1 - Arquitetura de Eventos
hotmart.dev/eng-dados
Solução 2 - BI Tradicional
● Soluções já consolidadas - Data Warehouses, Data Marts
↑ Pessoas ↑ Tempo
Solução 2 - BI Tradicional
● Soluções já consolidadas - Data Warehouses, Data Marts
↑ Pessoas ↑ Tempo
Recursos escassos
Solução 3 - Data as a Service
● Plataformas de integração de múltiplas tecnologias de fontes de dados
...
DremioPlataforma de unificação de bancos de dados
DatabasesDatalakes
Files
Arquitetura - Dremio
Ferramentas de BI
Data Science
Análise de Dados e API’s
ReflectionsData as a Service
API’s
DatabasesDatalakes
Files
Arquitetura - Dremio
Ferramentas de BI
Data Science
Análise de Dados e API’s
ReflectionsData as a Service
API’s
Datasources
Web layer
Datasource management
Storage layer
Client layer
Query management Rest controllers
Arquitetura - Repositório de Conhecimento
Na Hotmart: Repositório de Conhecimento
● Governança
● Integrações com databases
● Consultas a databases
● Visualização
Na Hotmart: Repositório de Conhecimento
Alternativa Open Source
metabase.com
1 - Origem da Informação
2 - Governançados Dados
3 - Métricas e Indicadores
4 - Visualização dos dados
5 - Compartilhamento de conhecimento
Metabase Questions
Metabase Collections
Metabase Dashboards
1 - Origem da Informação
2 - Governançados Dados
3 - Métricas e Indicadores
4 - Visualização dos dados
5 - Compartilhamento de conhecimento
+
Metabase ainda não conecta ao Dremio
…
Dados acessíveis e auditáveis são
suficientes?
Gráfico pico chargebacks
Entregar todos os dados nas mãos dos analistas pode não resolver
RuralWillys
1946 - 1977
1 2 5 6
4
3
Jeep Renegade
2014
Quase 70 anos mais tarde...
1
2 4
5
3
6
Gráfico pico chargebacks
Menos é mais
Como a área de dados pode tornar
as pessoas mais produtivas?
Como a área de dados pode tornar
as pessoas mais produtivas?
Data Science +
Machine Learning
Dados Auditáveis
Dados Acionáveis
Dados Acessíveis
O analista conseguirá estudar uma grande quantidade de transações? Em tempo hábil?
Cenário: Crescimento do índice de fraude
Case 1: Machine Learning + Prevenção de fraude
Identificação do problema
Case 1: Machine Learning + Prevenção de fraude
Identificação do problema
Quais características do
fraudador?
Case 1: Machine Learning + Prevenção de fraude
Identificação do problema
Quais características do
fraudador?Business Understanding
Case 1: Machine Learning + Prevenção de fraude
Identificação do problema
Quais características do
fraudador?Business Understanding
Etapa necessária para evitar que solução se torne
blackbox
Case 1: Machine Learning + Prevenção de fraude
Identificação do problema
Quais características do
fraudador?
Mapeamento de dadosBusiness
Understanding
Case 1: Machine Learning + Prevenção de fraude
Mapeamento de dados
Extração de datasets
Identificação do problema
Quais características do
fraudador?Business Understanding
Case 1: Machine Learning + Prevenção de fraude
Mapeamento de dados
Extração de datasetsData
Understanding
Identificação do problema
Quais características do
fraudador?Business Understanding
Case 1: Machine Learning + Prevenção de fraude
Mapeamento de dados
Extração de datasets
Merging de datasets
DataUnderstanding
Identificação do problema
Quais características do
fraudador?Business Understanding
Case 1: Machine Learning + Prevenção de fraude
Merging de datasets
Limpeza dos dados
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasets
DataUnderstanding
Case 1: Machine Learning + Prevenção de fraude
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Case 1: Machine Learning + Prevenção de fraude
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Case 1: Machine Learning + Prevenção de fraude
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes
Análise e exploração dos
dados DataPreparation
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Case 1: Machine Learning + Prevenção de fraude
Análise e exploração dos
dados
DataExploration
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Case 1: Machine Learning + Prevenção de fraude
Análise e exploração dos
dados
Seleção de features mais importantes
DataExploration
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Case 1: Machine Learning + Prevenção de fraude
Seleção de features mais importantes
Treino do modelo
Validação do modelo
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Case 1: Machine Learning + Prevenção de fraude
Seleção de features mais importantes
Treino do modelo
Validação do modeloIn-Depth
Analysis
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Case 1: Machine Learning + Prevenção de fraude
Seleção de features mais importantes
Treino do modelo
Validação do modelo
Deployment do modeloIn-Depth
Analysis
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Case 1: Machine Learning + Prevenção de fraude
Deployment do modelo
Criação sistema de relatório de alerta
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Seleção de features mais importantes
Treino do modelo
Validação do modeloIn-Depth
Analysis
Case 1: Machine Learning + Prevenção de fraude
Criação sistema de relatório de alerta
Construção de dashboard para
usuário final
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Seleção de features mais importantes
Treino do modelo
Validação do modeloIn-Depth
Analysis
Deployment do modelo
Case 1: Machine Learning + Prevenção de fraude
Criação sistema de relatório de alerta
Construção de dashboard para
usuário final Data Viz
Identificação do problema
Quais características do
fraudador?Business Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Análise e exploração dos
dados
DataExploration
Seleção de features mais importantes
Treino do modelo
Validação do modeloIn-Depth
Analysis
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Deployment do modelo
Isso não deveria ser trabalho do modelo?
Risco de bloquear um falso positivo é alto e custoso para nosso negócio
Risco de bloquear um falso positivo é alto e custoso para nosso negócio
Neste cenário, decidimos utilizar supervisão humana após predição do
modelo
Resultados
↓81% de transações com fraude
Cenário: Crescimento de tickets do suporte
Como atender a demanda crescente? Contratar mais agentes?
Case 2: Machine Learning + Atendimento tickets do suporte
Seleção de features mais importantes
Treino do modelo
Validação do modelo
Identificação do problema
Brainstorm para levantamento de
característicasBusiness Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Uma métrica boa pode ser ruim...
Modelo prediz 1 de N tiposcomuns de problemas:
Assunto 1Assunto 2Assunto 3Assunto 4Assunto ...
Se não prever a um nível de confiança aceitável:
Outro
Nossa matriz de confusão
Acc: 87% Acc: 97% Acc: 99%
Nossa real matriz de confusão
Nossa real matriz de confusão
Baixa abrangência
Nossa real matriz de confusão24 acertos a
cada erro
Nossa real matriz de confusão24 acertos a
cada erro5 acertos a cada erro
Nossa real matriz de confusão24 acertos a
cada erro5 acertos a cada erro
2 acertos a cada erro
Não existe bala de prata na validação de modelos de Machine Learning
Métricas precisam estar alinhadas com o negócio
Como melhoramos o modelo?
Case 2: Machine Learning + Atendimento tickets do suporte
Identificação do problema
Brainstorm para levantamento de
característicasBusiness Understanding
Mapeamento de dados
Extração de datasetsData
Understanding
Merging de datasets
Limpeza dos dados
Preenchimento de dados faltantes Data
Preparation
Análise e exploração dos
dados
DataExploration
Vale a pena investir nesta etapa...
Limpeza de dados
○ Remoção de stopwords
○ Remoção de endereços de e-mails e assinaturas
○ Remoção de URLs no corpo da mensagem
○ Remoção de saudações e despedidas
○ Remoção de datas e números
○ Remoção de códigos de barra
Antes
Acurácia geral29%
Depois
Acurácia geral76%
x
+47p.p.
Case 2: Machine Learning + Atendimento tickets do suporte
Aumento de 6% na taxa de satisfação média
Queda de 55% tempo médio atendimento
E agora…O trabalho acabou?
Dados Auditáveis
Dados Acionáveis
Dados Acessíveis
hotmart.dev/qcon
Dúvidas? Obrigado!