Hvordan Hvordan sikrer vi Hvordan kan god instruktion og ...
Hvordan få forretningsverdi av Big Data - Lars Marius Garshol
-
Upload
bouvet-asa -
Category
Documents
-
view
410 -
download
4
description
Transcript of Hvordan få forretningsverdi av Big Data - Lars Marius Garshol
Side: 1
Hvordan få forretningsverdi av Big DataBouvet Innsikt 2013-11-21Lars Marius Garshol, [email protected], http://twitter.com/larsga
Side: 2
Anvendelser
3
Hvor er forretningsverdien?
• Skal Big Data få forretningsverdi for deg må du– finne de verdifulle spørsmålene,– besvare dem med data-analyse, og– handle!
• All verdens data og analyse er verdiløs hvis den ikke fører til handling
4
Offentlig tilsyn
• Gitt masse data om tilsynsobjektene– virksomhetstype, geografisk plassering,
tid for forrige tilsyn, eiertype, dato opprettet, ...
• er det mulig å forutsi hvilke objekter det mest sannsynlig er problemer med?– så kan man prioritere tilsyn mot disse
• Utgangspunkt– man sitter på masse data om objektene– man vet allerede hvor det ble funnet
problemer i fortiden– kan bruke dette for å trene en modell
5
Svindel
• Er det mulig å identifisere hvilke søknader som er svindelforsøk?
• Igjen, gitt– alle data i søknaden,– som man har om søker fra før,
• kan man trene opp en modell som forutsier dette?
• Vil kreve at man har informasjon om hvem som begikk svindel tidligere– for å kunne lære opp en modell
6
Hvilke kunder er på vei ut?
• Å gjenvinne kunder er svært dyrt– veldig mye å hente på å overbevise
kunden om å bli– krever at man vet hvem som er i
faresonen• Kan man identifisere kunder i
faresonen?– se på generelle attributter ved kunden– se på hvordan kunden bruker produktet– dataeksos er sentralt her
7
Produktanbefaling (1)
• Kunder som kjøpte dette har også kjøpt ...– kan brukes på nettsider, f.eks, for å vise
relaterte produkter– lett å lage, krever bare ordreinformasjon– teknikken heter “frequent itemsets”
8
Produktanbefaling (2)• Vi tror du vil like ...– for å gjøre dette trenger man informasjon
om hva enkeltkunder liker– kilden kan være ratinger, kjøp,
dataeksos ...– kan enten utnytte bare kundeinfo, eller ta
hensyn til produktegenskaper– gitt nok data er dette lett å bygge med
rimelig resultat– kan gjøres med k-nearest neighbours,
eller matrisefaktorisering
9
Kundesegmentering
• Kan man automatisk identifisere grupper av kunder?– dvs, gitt data om kundene og deres oppførsel, kan
man automatisk lage grupper av like kunder?– kan f.eks kombineres med personas fra
Kundereisen• Dette er clustering
– krever informasjon om kunden pluss oppførsel– lang rekke med ulike teknikker– krever ingen opplæring eller forhåndsdefinerte
grupper• Algoritmen vil automatisk plassere kunden
– dette kan etterpå brukes som input til videre analyse
10
Automatisk datakobling
• Det finnes teknikker for å automatisk koble datasett uten felles identifikator– kalles “record linkage”, historie tilbake til
1946– vi har avanserte verktøy for dette1)
• Kan brukes til en hel rekke ting– konsolidering av kontaktdatabaser/CRM– kobling av interne data mot eksterne
data• enten data man kjøper, eller åpne data
– innhenting av kundeinformasjon fra sosiale medier
1) http://code.google.com/p/duke/
11
A/B-testing
• Big Data-analyse handler om å bruke mer pålitelige verktøy enn magefølelse
• Dette kan også brukes på f.eks– valg mellom alternative
brukergrensesnitt– valg av tiltak overfor kunder– ...
• Kan løses med vanlig statistisk hypotese-testing– mer moderne løsning: banditt-algoritmer
A: B:
12
Hvem skal vi ringe?
• Direktesalg er dyrt– enten det er via telefon eller post– derfor viktig å velge ut de riktige
kandidatene• To måter å gjøre dette på
1. magefølelse for å sette statiske kriterier2. machine learning for å lære opp en
statistisk modell som veier mange kriterier
• Ved å systematisk samle data om hvem som responderer kan man bli mer målrettet– gir grunnlag for å lære opp modellen
Side: 13
Verktøy
14
Verktøy er ikke det viktigste
spørsmål+ data+ matematikk= svar
15
Forutsetninger
• Datavarehus er en fordel– lettere å analysere data som er samlet og
massert– dog ikke påkrevd
• Semantisk integrasjon kan hjelpe– enklere og mer fleksibel integrasjon av
data– godt alternativ til datavarehus
• Også mulig å løse ad-hoc– dvs integrere data etter hvert som det
trengs for hver enkelt analyse– enkel og billig måte å komme i gang på– mer kostbart på sikt, fordi integrasjoner
må gjentas mange ganger
16
• Åpen kildekode-verktøy for dataanalyse– gjør det mulig å spre analysen ut over mange
maskiner– noe nær lineær skalering med antall maskiner– basert på Googles MapReduce-teknikk– mer eller mindre synonymt med Big Data
• Stort økosystem– masse verktøy basert på Hadoop– Mahout, Pig, ...
• Tungt å bruke– vanskelig å programmere med– krever mange maskiner
• Stort sett unødvendig!http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
“because “Hadoop” and “Big Data” are buzzwords, half the world wants to wear this straightjacket even if they don’t need to.”
17
Hvordan mislykkes med Hadoop• Mange installerer Hadoop...• ...finner aldri ut hva de skal med
det– gir opp
• ...prøver seg på data-analyse– har ikke kontroll på matematikken– får ikke resultater– gir opp
• ...har spørsmål og matematikk, men– har ikke nok data eller klarer ikke
integrere dem– gir opp
18
Scripting
• Å massere og analysere data med statiske språk er tungvint– Java, C#, osv
• Ekstremt mye lettere å gjøre med scriptspråk– særlig Python, men også andre
• Finnes ferdige analyseverktøy for Python– NumPy, SciPy, pandas
• R er også mye brukt
19
Noen praktiske eksempler
• Clustering av flymodeller– 250 linjer for innlasting og vasking av
data– 150 linjer for clustering
• Personlige anbefalinger av filmer– 13 linjer til innlesing av data– 230 linjer til å gjøre anbefalinger
• Forutsi ølratinger med lineær regresjon– 83 linjer til lesing og vask av data– 107 linjer til forutsigelse
• Spamfiltrering med Bayes’s Teorem– 162 linjer
Side: 20
Hvordan bygge
21
Hvordan bygge en løsning?
1. Finn et spørsmål2. Finn data som kan besvare det3. Lag en prototyp– samle og vask dataene med scripting– lag et script som kjører en algoritme
4. Test prototypen– viktig å validere at man kan stole på
svarene!5. Bygg en produksjonsløsning– forutsatt at prototypen passerte test
22
Kommer spørsmålet først?
• Et stort tema i data science er EDA:– Exploratory Data Analysis– det å grave i dataene for å finne innsikter
og idéer– disse kan etterpå testes med analyse
• Når man først har dataene samlet kan dette være svært kraftig– krever at man har dataene– lettere med semantisk integrasjon
• Viktig også for å ha bakgrunn tiltolke resultat
fra analyse
23
Hvordan teste Big Data-analyse?• Bruk 90% av dataene som input til
algoritmen– når den er ferdig opplært, forutsi resultat
for de siste 10%• Mål avvik mellom forutsigelse og
korrekt resultat– gjør dette 10 ganger med forskjellige 10-
deler av dataene som testdata• Snittavvik gir meget god validering
Konklusjon
24
25
Alle kan bruke Big Data
• Krever bare at man har– data + spørsmål med forretningsverdi
• Kort vei fra spørsmål til svar– gitt riktig tilnærming– svaret kan være at man ikke har nok
data• Etter første svar er de neste lettere– mer av dataene er samlet og klare– man har mer oversikt over data og
teknikker