Scikit-Learn para MLLib: Machine Learning em Larga Escala

Post on 20-Mar-2017

45 views 3 download

Transcript of Scikit-Learn para MLLib: Machine Learning em Larga Escala

De Scikit-Learn para MLLibCLASSIFICAÇÃO EM LARGA ESCALA

Agenda

● O quê: Spark● O quê: MLlib● Exemplo KMeans em "Toy Dataset" ● DataFrames● Classificação de Spam em Produção● Por quê?

Quem Somos

● Computação genérica distribuída● Até 10 a 100x mais rápido que Hadoop MapReduce

O Quê: Spark

O Quê: Spark

O Quê: Spark

● Machine Learning escalável● Construído em cima do Spark

O Quê: MLLib

● Clustering [KMeans, LDA]● Classificação [SVM, Naïve Bayes, Random Forests]● Regressão● Extração de características● Recomendação, timização de parâmetros, avaliação de

modelos...

Algoritmos

KMeans Toy Example

DataFrames

● Schema definido● Formato tabular● Operações, queries otimizadas● Pipelines

Pipelines

● Transformer○ Gera um DF a partir de outro DF

● Estimator○ Abstrai o conceito de um algoritmo que é treinado sob um

conjunto

Classificação de Spam em Produção

Classificação de Spam em Produção

Classificação de Spam em Produção

Por que MLlib?

Por que MLlib?

Por que MLlib?

Por que MLlib?

Desenvolvimento ~== Produção

Por que MLlib?

/in/guilhermepeixoto

guilherme.peixoto@inlocomedia.com

@gppeixoto