Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Side: 1

Hvordan få forretningsverdi av Big DataBouvet Innsikt 2013-11-21Lars Marius Garshol, [email protected], http://twitter.com/larsga

Side: 2

Anvendelser

3

Hvor er forretningsverdien?

• Skal Big Data få forretningsverdi for deg må du– finne de verdifulle spørsmålene,– besvare dem med data-analyse, og– handle!

• All verdens data og analyse er verdiløs hvis den ikke fører til handling

4

Offentlig tilsyn

• Gitt masse data om tilsynsobjektene– virksomhetstype, geografisk plassering,

tid for forrige tilsyn, eiertype, dato opprettet, ...

• er det mulig å forutsi hvilke objekter det mest sannsynlig er problemer med?– så kan man prioritere tilsyn mot disse

• Utgangspunkt– man sitter på masse data om objektene– man vet allerede hvor det ble funnet

problemer i fortiden– kan bruke dette for å trene en modell

5

Svindel

• Er det mulig å identifisere hvilke søknader som er svindelforsøk?

• Igjen, gitt– alle data i søknaden,– som man har om søker fra før,

• kan man trene opp en modell som forutsier dette?

• Vil kreve at man har informasjon om hvem som begikk svindel tidligere– for å kunne lære opp en modell

6

Hvilke kunder er på vei ut?

• Å gjenvinne kunder er svært dyrt– veldig mye å hente på å overbevise

kunden om å bli– krever at man vet hvem som er i

faresonen• Kan man identifisere kunder i

faresonen?– se på generelle attributter ved kunden– se på hvordan kunden bruker produktet– dataeksos er sentralt her

7

Produktanbefaling (1)

• Kunder som kjøpte dette har også kjøpt ...– kan brukes på nettsider, f.eks, for å vise

relaterte produkter– lett å lage, krever bare ordreinformasjon– teknikken heter “frequent itemsets”

8

Produktanbefaling (2)• Vi tror du vil like ...– for å gjøre dette trenger man informasjon

om hva enkeltkunder liker– kilden kan være ratinger, kjøp,

dataeksos ...– kan enten utnytte bare kundeinfo, eller ta

hensyn til produktegenskaper– gitt nok data er dette lett å bygge med

rimelig resultat– kan gjøres med k-nearest neighbours,

eller matrisefaktorisering

9

Kundesegmentering

• Kan man automatisk identifisere grupper av kunder?– dvs, gitt data om kundene og deres oppførsel, kan

man automatisk lage grupper av like kunder?– kan f.eks kombineres med personas fra

Kundereisen• Dette er clustering

– krever informasjon om kunden pluss oppførsel– lang rekke med ulike teknikker– krever ingen opplæring eller forhåndsdefinerte

grupper• Algoritmen vil automatisk plassere kunden

– dette kan etterpå brukes som input til videre analyse

10

Automatisk datakobling

• Det finnes teknikker for å automatisk koble datasett uten felles identifikator– kalles “record linkage”, historie tilbake til

1946– vi har avanserte verktøy for dette1)

• Kan brukes til en hel rekke ting– konsolidering av kontaktdatabaser/CRM– kobling av interne data mot eksterne

data• enten data man kjøper, eller åpne data

– innhenting av kundeinformasjon fra sosiale medier

1) http://code.google.com/p/duke/

11

A/B-testing

• Big Data-analyse handler om å bruke mer pålitelige verktøy enn magefølelse

• Dette kan også brukes på f.eks– valg mellom alternative

brukergrensesnitt– valg av tiltak overfor kunder– ...

• Kan løses med vanlig statistisk hypotese-testing– mer moderne løsning: banditt-algoritmer

A: B:

12

Hvem skal vi ringe?

• Direktesalg er dyrt– enten det er via telefon eller post– derfor viktig å velge ut de riktige

kandidatene• To måter å gjøre dette på

1. magefølelse for å sette statiske kriterier2. machine learning for å lære opp en

statistisk modell som veier mange kriterier

• Ved å systematisk samle data om hvem som responderer kan man bli mer målrettet– gir grunnlag for å lære opp modellen

Side: 13

Verktøy

14

Verktøy er ikke det viktigste

spørsmål+ data+ matematikk= svar

15

Forutsetninger

• Datavarehus er en fordel– lettere å analysere data som er samlet og

massert– dog ikke påkrevd

• Semantisk integrasjon kan hjelpe– enklere og mer fleksibel integrasjon av

data– godt alternativ til datavarehus

• Også mulig å løse ad-hoc– dvs integrere data etter hvert som det

trengs for hver enkelt analyse– enkel og billig måte å komme i gang på– mer kostbart på sikt, fordi integrasjoner

må gjentas mange ganger

16

• Åpen kildekode-verktøy for dataanalyse– gjør det mulig å spre analysen ut over mange

maskiner– noe nær lineær skalering med antall maskiner– basert på Googles MapReduce-teknikk– mer eller mindre synonymt med Big Data

• Stort økosystem– masse verktøy basert på Hadoop– Mahout, Pig, ...

• Tungt å bruke– vanskelig å programmere med– krever mange maskiner

• Stort sett unødvendig!http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

“because “Hadoop” and “Big Data” are buzzwords, half the world wants to wear this straightjacket even if they don’t need to.”

17

Hvordan mislykkes med Hadoop• Mange installerer Hadoop...• ...finner aldri ut hva de skal med

det– gir opp

• ...prøver seg på data-analyse– har ikke kontroll på matematikken– får ikke resultater– gir opp

• ...har spørsmål og matematikk, men– har ikke nok data eller klarer ikke

integrere dem– gir opp

18

Scripting

• Å massere og analysere data med statiske språk er tungvint– Java, C#, osv

• Ekstremt mye lettere å gjøre med scriptspråk– særlig Python, men også andre

• Finnes ferdige analyseverktøy for Python– NumPy, SciPy, pandas

• R er også mye brukt

19

Noen praktiske eksempler

• Clustering av flymodeller– 250 linjer for innlasting og vasking av

data– 150 linjer for clustering

• Personlige anbefalinger av filmer– 13 linjer til innlesing av data– 230 linjer til å gjøre anbefalinger

• Forutsi ølratinger med lineær regresjon– 83 linjer til lesing og vask av data– 107 linjer til forutsigelse

• Spamfiltrering med Bayes’s Teorem– 162 linjer

Side: 20

Hvordan bygge

21

Hvordan bygge en løsning?

1. Finn et spørsmål2. Finn data som kan besvare det3. Lag en prototyp– samle og vask dataene med scripting– lag et script som kjører en algoritme

4. Test prototypen– viktig å validere at man kan stole på

svarene!5. Bygg en produksjonsløsning– forutsatt at prototypen passerte test

22

Kommer spørsmålet først?

• Et stort tema i data science er EDA:– Exploratory Data Analysis– det å grave i dataene for å finne innsikter

og idéer– disse kan etterpå testes med analyse

• Når man først har dataene samlet kan dette være svært kraftig– krever at man har dataene– lettere med semantisk integrasjon

• Viktig også for å ha bakgrunn tiltolke resultat

fra analyse

23

Hvordan teste Big Data-analyse?• Bruk 90% av dataene som input til

algoritmen– når den er ferdig opplært, forutsi resultat

for de siste 10%• Mål avvik mellom forutsigelse og

korrekt resultat– gjør dette 10 ganger med forskjellige 10-

deler av dataene som testdata• Snittavvik gir meget god validering

Konklusjon

24

25

Alle kan bruke Big Data

• Krever bare at man har– data + spørsmål med forretningsverdi

• Kort vei fra spørsmål til svar– gitt riktig tilnærming– svaret kan være at man ikke har nok

data• Etter første svar er de neste lettere– mer av dataene er samlet og klare– man har mer oversikt over data og

teknikker

Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Documents

Transcript of Hvordan få forretningsverdi av Big Data - Lars Marius Garshol