van losse excel naar data driven commerce - Vincent van warmerdam - Go Data Driven

Post on 13-Feb-2017

84 views 1 download

Transcript of van losse excel naar data driven commerce - Vincent van warmerdam - Go Data Driven

Being Data DrivenFrom Excel to Much More

Vincent D. Warmerdam @fishnets88 - koaning.io - GoDataDrivenVincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 1

Who is this guy?voorheen digital nomad3 jaar @ GDD koaning.io PyData Amsterdam Rstudio partner Machine Learning Meetup gratis open source training

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 2

Who is this guy?voorheen digital nomad3 jaar @ GDD koaning.io PyData Amsterdam Rstudio partner Machine Learning Meetup gratis open source training

I write code,I solve data problems, ask me anything.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 3

Who is this guy?voorheen digital nomad3 jaar @ GDD koaning.io PyData Amsterdam Rstudio partner Machine Learning Meetup gratis open source training

I write code,I solve data problems, ask me anything.

werkt niet voor netflixVincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 4

Dit is Anna.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 5

Anna werkt voor Netflix ...... en die wil ze beter maken

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 6

Ze wil de voorpagina relevanter maken voor gebruikers. Ze gaat met data aan de slag.Ze wil een AB toets doen.

Voorbeeld:

Elke bezoeker moet een persoonlijke voorpagina hebben.Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 7

Voorbereiding

Anna kan meteen over algoritmes nadenken, maar ze begint gewoon lekker simpel.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 8

Voorbereiding

Anna kan meteen over algoritmes nadenken, maar ze begint gewoon lekker simpel.

Ze wil genres die je vaak bekijkt vaker voor laten komen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 9

Voorbereiding

Anna kan meteen over algoritmes nadenken, maar ze begint gewoon lekker simpel.

Ze wil genres die je vaak bekijkt vaker voor laten komen.

Ze wil voorkomen dat ze misschien te veel tijd hier aan besteed dus wil ze met data spelen om te toetsen of haar hypothese zinnig is. Timebox!

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 10

Hypothese

We gaan genres aanbevelen die een persoon vaak kijkt, want dat wil deze persoon.

Even checken;

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 11

Hypothese

We gaan genres aanbevelen die een persoon vaak kijkt, want dat wil deze persoon.

Even checken;1. Kijken gebruikers vaak naar dezelfde genre?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 12

Hypothese

We gaan genres aanbevelen die een persoon vaak kijkt, want dat wil deze persoon.

Even checken;1. Kijken gebruikers vaak naar dezelfde genre?

2. Is de kijk-kans afhankelijk van inhoud van voorpagina?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 13

Hypothese

We gaan genres aanbevelen die een persoon vaak kijkt, want dat wil deze persoon.

Even checken;1. Kijken gebruikers vaak naar dezelfde genre?

2. Is de kijk-kans afhankelijk van inhoud van voorpagina?

3. Vanaf wanneer kunnen we de genre-voorkeur bepalen?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 14

PubliekHoe simpel is de analyse?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 15

PubliekHoe simpel is het algoritme?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 16

PubliekHoe lang mag zoiets duren?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 17

Het klinkt simpelWaarom is dat vaak niet zo?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 18

Situatie KlantDeel van de data zit bij een 3e partij (email vendor).Deel van de data zit in Google Analytics. Deel van de data in data warehouse. Deel van de data zit in een CRM systeem. Deel van de data staat als log weggeschreven ... ... en zal over 2 weken niet meer beschikbaar zijn.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 19

Situatie KlantDeel van de analyse zit in een excel file in een email. Deel van de analyse zit in een powerpoint in een slack chat. Deel van de analyse zit in een word document op dropbox. Deel van de analyse is kwijt omdat een collega hier niet meer werkt.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 20

Wat gebeurt er buiten Netflix?Anne vraagt aan collegas naar bruikbaar voorafgaand werk en naar data. Ze krijgt een mengeling van powerpoint, excelsheets, google docs en sql-scriptjes.

De collega die het allemaal gedaan had is op vakantie dus gaat Anne zelf aan de slag om alles werkend te krijgen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 21

Wat gebeurt er buiten Netflix?Anne vraagt aan collegas naar bruikbaar voorafgaand werk en naar data. Ze krijgt een mengeling van powerpoint, excelsheets, google docs en sql-scriptjes.

De collega die het allemaal gedaan had is op vakantie dus gaat Anne zelf aan de slag om alles werkend te krijgen.

Wat kan er allemaal fout gaan?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 22

Wat kan er allemaal fout gaan?• Kan zijn dat een kolom verkeerd geintrepreteerd is.

• Excel in een email, kan op 10 manier fout gaan.

• Heeft iemand anders deze analyse al gedaan?

• Hoe kan Anne zeker weten dat zijn collegas het goed gedaan hebben?

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 23

Analyse is niet het probleem.Algoritme is niet het probleem.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 24

Kennis schalenis het probleem

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 25

Anna werkt gelukkig bij NetflixDaar hebben ze dit op orde

Vooral op gebied van houding

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 26

StappenplanIk heb wat tips die kunnen helpen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 27

tip 1: data moet centraal zijnDe data moet veilig zijn, maar in elk geval centraal. Je wilt dat iedereen dezelfde bron van waarheid heeft. Elke analyst moet de dezelfde datasets kennen.

• Google Dump/Divolte

• Hadoop

• Cloud

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 28

tip 2: scheiding data/analyseJe wilt dezelfde analyse kunnen uitvoeren op ander data door alleen maar naar een nieuw bestand te wijzen. Je wilt een verschil hebben tussen analyse en de data die ten grondslag is.

• Geen Excel meer voor serieus werk

• Rstudio Notebooks

• Jupyter Notebooks

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 29

tip 3: deel kennisActief: • elk team elke week demo

• maandelijke hackatons

• data quiz/uitdaging

Je wilt van elkaars experimenten leren en je wilt weten wanneer je elkaar kan helpen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 30

tip 3: deel kennisPassief: • Github

• Blog

• AirBnB knowledge repo

Slechts dan is kennis; reproduceerbaar, controleerbaar, consumeerbaar, ontdekbaar, verrasbaar

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 31

tip 4: investeer in kennisHet is een beetje raar als je eigen werkgever je eigen ontwikkeling in de weg zit. Zeker in een tijd wanneer het zo gemakkelijk is om dingen te leren.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 32

tip 4: investeer in kennisHet is een beetje raar als je eigen werkgever je eigen ontwikkeling in de weg zit. Zeker in een tijd wanneer het zo gemakkelijk is om dingen te leren.

Taktiek Vincent; never let your school get in the way of your education.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 33

tip 4: investeer in kennisHet is een beetje raar als je eigen werkgever je eigen ontwikkeling in de weg zit. Zeker in een tijd wanneer het zo gemakkelijk is om dingen te leren.

Taktiek Vincent; never let your school get in the way of your education.

Harde waarheid: mensen die goed zijn gaan vanzelf weg als ze ergens anders beter kunnen groeien.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 34

tip 5: open sourceDe betere tooling is gewoon gratis tegenwoordig.

Zelfs Microsoft roept het tegenwoordig en Google doet het al jaren.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 35

tip 5: open sourceAls je nog niet doorhebt dat de betere tooling tegenwoordig gratis is dan vrees ik dat je snel gaat achterlopen.

De cultuur achter open source zorgt er ook voor dat je van het werk van andere bedrijven kan genieten.

Het goede nieuws is; het is nog nooit zo gemakkelijk geweest om hier in te investeren.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 36

Next Steps AnnaBij Anna (Netflix) zijn al deze culturele dingen op orde en hebben ze ook goed geinvesteerd in technische kennis.

Je moet je voorstellen dat de kracht dan niet komt van goed zijn in algoritmes maken ... eerder in de snelheid waarmee je de algoritmes kan toetsen.

Als de helft van je 100 experimenten geen verbetering zijn, dan heb je nog steeds 50 verbeteringen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 37

Anna is geen analystZe is een data scientist. Daar zit nogal een verschil in.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 38

Anna is geen analystZe is een data scientist. Daar zit nogal een verschil in.

Maar dat verschil ga je als bedrijf pas merken op het moment dat je als bedrijf je kennisschaling op orde hebt.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 39

Anna is geen analystZe is een data scientist. Daar zit nogal een verschil in.

Maar dat verschil ga je als bedrijf pas merken op het moment dat je als bedrijf je kennisschaling op orde hebt.

Dan kan Anna namelijk gemakkelijk algoritmes bouwen die de wereld niet verklaren maar juist voorspellen. Anna gaat nu niets liever doen dan allerlei versies van algoritmes tegen elkaar toetsen.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 40

Anna is geen analystZe is een data scientist. Daar zit nogal een verschil in.

Maar dat verschil ga je als bedrijf pas merken op het moment dat je als bedrijf je kennisschaling op orde hebt.

Dan kan Anna namelijk gemakkelijk algoritmes bouwen die de wereld niet verklaren maar juist voorspellen. Anna gaat nu niets liever doen dan allerlei versies van algoritmes tegen elkaar toetsen.

Dit is dan een schaalbare manier om beslissingen te maken.Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 41

Ervaring uit Eigen WerkHet kan snel gaan, een hoop organisaties doen dit.

• Na drie maanden tijd recommender live bij NPO.

• Na 1 maand heb je een voorraad model voor modemerk.

• Na 2 dagen heb je een dashboard voor late passagiers.

Meerendeel van de tijd ben je bezig met het schaalbaar maken van data; niet het analyseren ervan.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 42

Ervaring uit Eigen Werk

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 43

ConclusieData analyseren is eigenlijk heel simpel, maar het schalen van kennis is moeilijker. Als je data inzet zonder dat je het kan schalen, dan kun je je maar beter gaan afvragen wat je aan het doen bent.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 44

Open SourceIk geloof er heilig in dat we de wereld beter kunnen maken als de beter met data omgaan. Daarom geef ik al 5 jaar gratis cursussen in data met Rstudio/PyData.

Wil je de volgende keer meedoen? Kom even langs dan schrijf ik je in op de mailing.

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 45

Images are all from the nounproject. In particular I thank;

• Thibault Geffroy

Vincent D. Warmerdam - @fishnets88 - koaning.io - GoDataDriven 46