Iniciativas em Big Data no VAGAS.com
-
Upload
fabricio-barth -
Category
Internet
-
view
144 -
download
0
description
Transcript of Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
Fabrício J. Barth
Data e Depto
Sumário
• VAGAS.com
• Big Data
• Iniciativas de Big Data na VAGAS.com
• Lições Aprendidas
VAGAS.com
VAGAS.com
VAGAS.com
VAGAS.com
O que é Big Data?
Processo, métodos, algoritmos e
ferramentas para processamento de
dados
Processo, métodos, algoritmos e
ferramentas para processamento de
dados
Dados brutos Sínteses para tomadas de
decisão
Em TI sempre tivemos cenários parecidos com este:
O que é Big Data?
Processo, métodos, algoritmos e
ferramentas para processamento de
dados
Processo, métodos, algoritmos e
ferramentas para processamento de
dados
Dados brutos
Variedade
Volume
Velocidade
Sínteses para tomadas de
decisão
O que é Big Data?
Processo, métodos,
algoritmos e ferramentas para
processamento de dados
Processo, métodos,
algoritmos e ferramentas para
processamento de dados
O que é Big Data?
Processo, métodos, algoritmos e
ferramentas para processamento de
dados
Processo, métodos, algoritmos e
ferramentas para processamento de
dadosImplicam em novas formas de síntese
Implicam em novas formas de síntese
Análises Descritivas(visualizações estáticas ou
interativas)
Análises Descritivas(visualizações estáticas ou
interativas)
Modelos PreditivosModelos
Preditivos
Evolução da gestão baseada em dadosEvolução da gestão baseada em dados
Análises Descritivas
Tem como objetivo sintetizar ou sumarizar informações existentes em um conjunto de dados, geralmente, apresentando algum padrão oculto.
Técnicas normalmente empregadas:
•Algoritmos de agrupamento (clustering).•Regras de Associação.
Exemplo de clustering
Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
Exemplo de clustering
Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
Exemplo de clustering
Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
Exemplo de clustering
Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
ModelagemModelagemVamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
Exemplo de clustering
Exemplo de clustering
Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
ModelagemModelagem
Avaliação do modeloAvaliação do modelo
EntregaEntrega
Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
RelatórioApresentaçãoDiscussão
Processo de descoberta de conhecimento
Definição do escopoDefinição do escopo
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
ModelagemModelagem
Avaliação do modeloAvaliação do modelo
EntregaEntrega
Se o m
odelo não está bom
entã
o podem
os voltar para as outras e
tapas
Outro exemplo de análise descritiva
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Outro exemplo de análise descritiva
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Outro exemplo de análise descritiva
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
CargoSalárioSetor da empresa
CargoSalárioSetor da empresa
CargoSalárioSetor da empresa
Outro exemplo de análise descritiva
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
Outro exemplo de análise descritiva
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Análise descritiva dos atributos
Análise descritiva dos atributos
ModelagemModelagem
carreiras.vagas.com.br
carreiras.vagas.com.br
Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
Entrega como softwareEntrega como software
Modelos Preditivos
A partir de dados históricos,
criar modelos que realizam algum tipo de previsão (futuro) sobre valores:
categóricos (classificação), ou; valores numéricos (regressão).
Modelos Preditivos
Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Modelos Preditivos
Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?
ModelagemModelagem Regressão linear onde a variável dependente é a quantidade de visitas por dia e as variáveis independentes são informações como: dia da semana, se é feriado ou não, entre outras informações
Aquisição e pré-processamento dos dados
Aquisição e pré-processamento dos dados
Modelos Preditivos
Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?
Aval
iaçã
o do
mod
elo
Aval
iaçã
o do
mod
elo
Modelos Preditivos
Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?
Sim!
Aplicações:
•Prever demanda de acesso ao site•Identificar anomalias•Diagnosticar falhas
Modelos Preditivos
Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
Modelos Preditivos
Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
Aqui
siçã
o e
pré-
proc
essa
men
to d
os d
ados
Aqui
siçã
o e
pré-
proc
essa
men
to d
os d
ados
Candidato Vaga Ação
1111 aaaa Candidatura
1111 bbbb Pageview
2222 aaaa Pageview
2222 cccc Pageview
2222 dddd Candidatura
Modelos Preditivos
Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
Mod
elag
emM
odel
agem
Modelo Bayesiano (abordagem probabilística)
Random Forest (classificador baseado em árvores de decisão)
Algoritmo colaborativo baseado em grafos
Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.
Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.
Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.
Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.
Desempenho excelente e com alto grau de impacto no siteDesempenho excelente e com alto grau de impacto no site
Modelos Preditivos
Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
Aval
iaçã
o em
am
bien
te d
e pr
oduç
ãoAv
alia
ção
em a
mbi
ente
de
prod
ução
Algoritmo de recomendação colaborativo “quebrou” o modelo preditivo de visitas
Lições Aprendidas
•Visualizações interativas parecem ser mais úteis que visualizações estáticos.
•Todo projeto/equipe de Big Data (Data Analysis) deve estar preparado para falhar.
•A dinâmica de projetos de Big Data é diferente da dinâmica de projetos de software. Projetos de Big Data estão muito mais próximos de projetos de pesquisa (científica) do que de projetos
de software.
•Como preparar organizações para este tipo de dinâmica?
www.VAGAS.com.br(11) 4084-1111