& Big Data Intelligence Marketing - FourPoints Big Data.pdf · Big Data voor MKB (1) Big Data voor...

FourPoints Business Intelligence

MarketingIntelligence& Big Data

Een verzameling blogs geschrevendoor Gerrit Versteeg

made with

http://beacon.by/welcome/?utm_source=freemium&utm_medium=badge&utm_campaign=Beacon Badge&ref=marketing-intelligence-big-data

http://www.fourpoints.nl/blog/bid/294667/Vraagt-real-time-klantgedrag-om-real-time-BI

http://beacon.by/welcome/?utm_source=freemium&utm_medium=badge&utm_campaign=Beacon Badge&ref=marketing-intelligence-big-data

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Introductie

Wat is Big Data?

Big Data: moeten we er iets mee?

Zinvolle Big Data

Big Data zonder Warehouse

Big Data heeft Data Science nodig

Big Data voor MKB (1)

Big Data voor MKB (2)

Geef Big Data de ruimte

Call to Action

Table of Contents

Dat Big Data geen Buzzword meer is blijkt wel uit het onderzoek door

NewVantage Partners (NVP) onder senior Fortune 1000 business and technology

decision-makers. Uit dit onderzoek blijkt dat

62,5% van de bedrijven melden dat ze nu ten minste één Big Data omgeving in

productie hebben. Dit is bijna het dubbele van de 31,4% in 2013.

het percentage bedrijven dat verwacht meer dan $50 MM in Big Data te zullen

investeren is vervijfvoudigd van 5,4% (2014) naar 26,8%.

Geplande investeringen zullen naar verwachting flink stijgen. 69,6% van alle

bedrijven nu zien Big Data als zeer belangrijk of cruciaal voor het bedrijfssucces.

De gehele cultuur van marketing en business hebben wij zien verschuiven bij het

meer digitaal worden van onze samenleving. Traditionele zienswijzen worden

vervangen door gegevens-ondersteunde strategieën en campagnes gericht op

meting en resultaat. Wat kan de groei van Big Data en de opkomst van Market

Intelligence als een hulpmiddel betekenen voor uw bedrijf? Op deze vraag zal in dit

E-book antwoord worden gegeven.

Dit ebook is een verzameling van blogs geschreven door Gerrit Versteeg met het

thema: “Marketing Intelligence & Big Data”.

De auteur

Gerrit Versteeg is principal architect en managing partner bij FourPoints Business

Intelligence. Hij schrijft regelmatig artikelen en geeft gastcolleges rond het

onderwerp op universiteiten en hoge scholen. Met meer dan twintig jaar ervaring

in het effectief positioneren en inrichten van business intelligence, wordt Gerrit

door veel organisaties betrokken bij het oplossen van BI-vraagstukken. Je kunt hem

bereiken via [email protected] of op LinkedIn.

IntroductieMarketing Intelligence en Big Data

Er is veel te doen over Big Data. Als manager krijg je bijna een

schuldgevoel als je de veelal groots uitgewerkte, welhaast

onweerlegbare voordelen niet direct gaat gebruiken binnen jouw

organisatie. Big Data is een populair begrip, ondanks of misschien

juist dankzij de heersende onduidelijkheid rond de definitie van

de term. Om te kijken of Big Data iets voor jou als manager kan betekenen, is het

toch van pregnant belang om een goed beeld te hebben van wat de term Big Data

nu allemaal behelst. In dit artikel gaan we daarom enkele veel gebruikte definities

wat verder ontleden, om zo te komen tot een context waarbinnen we beter

kunnen besluiten of we wel of niet moeten gaan investeren in dit nieuwe

fenomeen.

Wat is Big Data?

ICT research company, Gartner

Wie de term Big Data als eerste gebruikte is ongetwijfeld ook onderwerp van

discussie, maar de oudste bron die ik kon vinden is een bijdrage door Doug Laney

(Gartner) uit 2001. Hij introduceerde de drie eerste V’s (Volume, Velocity en

Variety) als handvat bij de kwantificering van Big Data. Inmiddels (2011) heeft

Gartner deze begrippen onderdeel gemaakt van een meer integrale kijk op wat zij

noemen 'extreme information management (EIM)'.

Hierbij worden een 12-tal facetten of invalshoeken genoemd

die komen kijken bij het besturen van jouw informatie

infrastructuur (voor de volledigheid hiernaast opgesomd in het

tekstvak). Helaas is het acroniem EIM al eerder gebruikt voor

Enterprise Information Management, maar desondanks

associeert de term wel beter met de werkelijkheid dan Big

Data.

Wat is Big Data?Gerrit Versteeg

De definitie die Gartner bij Big Data hanteert luidt als volgt (in het Engels om

verdere spraakverwarring te vermijden): “Big data is high-volume, -velocity and -

variety information assets that demand cost-effective, innovative forms of

information processing for enhanced insight and decision making”. Hierbij merkt

Gartner op, dat het zeker niet alleen gaat om die drie V’s, maar vooral ook om de

twee daaropvolgende onderdelen van hun definitie.

ICT supplier, IBM

IBM geeft in haar lezenswaardige boekje 'Harness the power of Big Data' ook aan

dat niemand in ICT gelukkig is met de term Big Data en de definitie ervan. IBM’s

Research manager Matt Aslett gebruikt dan ook liever een definitie die zijns inziens

bijna universeel geaccepteerd is, namelijk: “Big Data…. refers to the realization of

greater business intelligence by storing, processing and analyzing data that was

previously ignored due to limitations of traditional data management technologies”.

Waarbij de 'limitations' worden gedefinieerd door combinaties van de V’s, veelal in

ieder geval 'Volume', 'Velocity' en 'Variety', terwijl de auteurs van het boekje daar

zelf graag nog 'Veracity' aan toevoegen.

ICT supplier, Oracle

Oracle gebruikt naar ons weten geen directe definitie, maar typeert Big Data door

middel van een viertal karakteristieke V’s, namelijk 'Volume', 'Velocity', 'Variety' en

'Value', die gezamenlijk moeten optreden. Volume alleen is dus niet genoeg om

over Big Data te kunnen spreken. 'Value' wordt genoemd, omdat de wijze waarop

de waarde wordt ontdekt (een steeds verfijnder modelleerproces), een unieke

eigenschap van Big Data zou zijn.

Management consultancy, McKinsey

McKinsey Global Institute gebruikt de definitie “Big Data refers to datasets whose

size is beyond the ability of typical database software tools to capture, store,

manage, and analyze”. Zij hanteren als onderscheidend criterium dus vooral het

volume van de data in relatie tot de beschikbare verwerkingstools (per sector),

maar laten expres vrij wat dat volume precies is. Dit doen zij omdat de tools en

technieken steeds beter worden waardoor die grens ook steeds kan opschuiven

naarmate de tijd voortgaat.

Naast de voorbeelden hierboven bestaan er nog vele varianten van definities, maar

die zullen we je besparen omdat we dan toch in wat nodeloze herhaling gaan

vervallen. Het moge duidelijk zijn dat er grote verschillen bestaan, maar toch ook

regelmatigheden zichtbaar zijn. Om het overzicht compleet te maken voordat we

naar een conclusie gaan, verwijzen we graag even naar een handig overzicht van

veel gehanteerde V’s en hun bron, dat we hier in verband met de leesbaarheid niet

hebben opgenomen. Geen artikel over Big Data zonder de V’s, nietwaar?

De definities beoordeeld

Het gebruik van V-woorden in de definities.

Big Data als term leidt bijna automatisch tot de associatie dat het vooral gaat om

'veel' data. Die term is dus intrinsiek verraderlijk want we zijn het er allemaal wel

over eens dat het niet alleen om volume gaat. Naast de oorspronkelijke drie V’s:

Volume, Velocity en Variety, duiken er ook nog eens constant nieuwe V’s op, met

als meest genoemde toch wel 'Veracity'. Even nog los van het aantal V’s; het is

volstrekt onduidelijk wanneer die V’s leiden tot de classificatie van Big Data. Alleen

'Volume' is in ieder geval niet afdoende volgens de meeste interpretoren (misschien

met uitzondering van McKinsey). Er moet ook 'Variety' en 'Velocity' aanwezig zijn

en alles overziend wellicht ook 'Veracity'. Maar in welke mate die V’s aanwezig

moeten zijn of hoe we die V’s uiteindelijk meten en waarderen om tot een

classificatie van Big Data te komen, is ook nog apert onduidelijk.

De verwerkingsproblemen als onderdeel van de definitie.

De definities beschouwend is er wel een brede consensus over het feit dat nieuwe,

geavanceerde dataverwerkings-, dataopslag- en analyse-technieken nodig zijn bij

zoiets als Big Data. Het vervelende van dit soort definitie-onderdelen is dat zij niet

exclusief zijn voor Big Data, waarbij ook nog eens kan worden verwacht dat die

technieken over vijf jaar weer gemeengoed zijn. De definitie volgend, zou er dan

over vijf jaar dus wellicht helemaal geen sprake meer zijn van Big Data.

Het doel als onderdeel van de definitie

Tevens verwacht men van Big Data dat het nieuwe inzichten en een verbeterde

besluitvorming zal opleveren. In feite overeenkomend met het V-woord 'Value'.

Ook hier is sprake van niet-exclusiviteit voor Big Data. Alle nieuw aangeboorde en

ontsloten data-bronnen (kunnen) leiden tot meer inzicht en mogelijk bredere

besluitvorming.

Met andere woorden, de definities kunnen niet of nauwelijks ter classificatie

dienen. Terug naar het nut van Big Data en de basisvraag: wanneer wordt het

interessant voor een manager om erin te investeren?

http://www.fourpoints.nl/overzicht-van-v-words-big-data/

http://www.fourpoints.nl/overzicht-van-v-words-big-data/

Conclusie

Waar komt het met Big Data nu eigenlijk op neer? Al jarenlang gebruiken we onze

traditionele, vaak transactionele databronnen om management-informatie te

genereren in onze BI-omgeving. Tegenwoordig krijgen we steeds meer de

mogelijkheid om data uit nieuwe bronnen te verkrijgen, zoals:

sentimenten vanuit de vaak genoemde sociale media (Blogs, Twitter, Facebook);

proces-events vanuit sensoren in interne processen (via logs of de Enterprise

Service Bus) of externe processen ('The Internet of Things').

Deze data is granulair van aard en daarom vaak volumineus (Volume), a-periodiek

van aard (Velocity) en daarnaast gevarieerd qua inhoud en structuur (Variety). Deze

karakteristieken maken het best lastig om die data te verwerken. Hierdoor laten

veel organisaties het afweten om deze data, voor zover ze de data al ter

beschikking hebben, te integreren in hun management rapportages. Moderne

opslag- en analysetechnieken brengen die data echter makkelijker binnen bereik.

Deze data kan een welkome aanvulling zijn om onze Management Informatie mee

te verrijken, maar niet per definitie! Onderzoek naar de waarde van de

investeringen om die additionele informatie voor de betrokken organisatie te

ontsluiten en gebruiken, is belangrijk. Je zou het kunnen vergelijken met het

zoeken naar een waardevolle naald in een hooiberg: gemeten sentimenten kunnen

jouw multi-channel marketing-discipline helpen bij het vaststellen van het effect

van een marketingcampagne via televisie of e-mail. Voor de procesmanagement-

discipline zou directe informatie uit de loop van het bedrijfsproces kunnen worden

verwerkt om zo te kijken waar de bottlenecks zitten in een E2E-bedrijfsproces en

wat er aan verbeterd kan worden. Deze voorbeelden worden vaker genoemd in

verband met Big Data, maar net als voor elke investering geldt: ben je er aan toe

om Big Data te ontsluiten ook qua interne organisatie(volwassenheid)? Is jouw BI-

afdeling, zelfs zonder Big Data, niet al een ‘drama’ dat eerst moet worden

aangepakt? Zijn er goedkopere databron-alternatieven die misschien niet het

volmaakte detail weergeven, maar wel de situatie in wat bredere zin duidelijk

kunnen maken waardoor het management ook prima aan de slag kan?

Misschien is het meest betekenisvolle wel dat in de meeste definities van Big Data

wordt aangegeven dat het gaat om data die verwerkt moet worden met

geavanceerde, moderne technieken. Uit ervaring weten managers echter dat een

bleeding-edge technologie meestal duur is en vaak kinderziektes kent. Qua status

van het werkveld begreep ik tijdens de laatste DAMA conferentie (Turkey chapter,

Istanbul, maart 2013) dat de succesverhalen van dit moment alleen Big Data

oplossingen betreffen met maar één zogeheten 'data-point'. Dat wil zeggen: er zijn

dus nog geen succesverhalen bekend over het integreren van Big Data met

meerdere datatypen.

Kortom, tenzij jouw organisatie ofwel direct afhankelijk is van het gebruik van

moderne technologie (bijvoorbeeld een organisatie gebaseerd op de waarde-drijver

'Product-Innovation') of als 'early adapter' gewend is om altijd voorop te staan met

het gebruik van de nieuwste technologie, is het wellicht geboden om heel precies

te duiden waar je de waarde zoekt en dan zo eenvoudig mogelijk een start te

maken met het ontsluiten van dat soort bronnen of…. misschien gewoon nog even

de kat uit de boom te kijken?

In het vorig artikel (“Wat is Big Data?”) stond ik uitgebreid stil bij de term Big Data,

zijn oorsprong en huidige interpretatie. Rond de vraag “of we er iets mee moeten”

is inmiddels flink wat rijpingstijd verstreken, waardoor een update nodig is.

Is het zinvol om als manager al wat met Big Data te gaan doen of kun je beter nog

even wachten? Dit artikel bevat handvatten om die vraag te kunnen

beantwoorden.

Het gaat niet om de precieze term

Big Data is als term afkomstig uit 2001 en is inmiddels geëvolueerd naar een begrip

dat binnen het IT-vakgebied op twee wijzen te classificeren valt:

Het aantal V’s. Data zijn Big Data als ze in hoge mate voldoen aan de

combinatie van de zogenaamde V-eigenschappen (bijvoorbeeld Volume,

Velocity en Variety).

Lastig te verwerken. Data zijn Big data als de data-verwerkende systemen er

niet – of slechts heel moeizaam – mee kunnen werken.

Big Data: moeten we er ietsmee?Gerrit Versteeg

http://www.fourpoints.nl/blog/bid/314085/Wat-is-Big-Data-En-moeten-we-er-wat-mee

Voor details kun je terecht bij mijn eerdere blog over big data . Eigenlijk is een

verdere definitie van de term niet interessant voor de manager die zich afvraagt of

zijn bedrijf iets met Big Data zou moeten doen. Het gaat namelijk niet om de

precieze definitie van de term. Van meer belang is de onderliggende trend dat

steeds grotere hoeveelheden data beschikbaar komen uit nieuwe, hoofdzakelijk

externe databronnen, met eigenschappen waar we in de ‘huidige’ Business

Intelligence nog weinig mee werken. Dus laten we daar even naar kijken.

Nieuwe data

De essentiële factoren van die ‘nieuwe data’ zijn:

1. Veel data

Er is een soort explosieve groei merkbaar in de markt aan beschikbare data. Dat

kan data betreffen uit sociale media, sensorische data (uit IoT, waaronder ook

smart devices), data uit de zogenaamde Open Data initiatieven (wettelijk vereist

voor overheidsinstanties), enzovoorts. Voor een completer overzicht kun je mijn

blog “Big Data voor MKB (2)” lezen. Deze onbedwingbare trend genereert een golf

van data die zó groot is, dat bedrijven niet meer eenvoudig kunnen vaststellen of er

data bij is die voor hen interessant is.

2. Nieuw karakter

Hier moeten we een onderscheid maken tussen twee soorten data. Enerzijds is er

beïnvloedbare data die vanuit veelal interne bronnen, redelijk goed

voorgedefinieerd, gebruikt wordt voor managementrapportages en dashboards in

tools als Business Objects en Cognos en door selfservice BI-tools zoals QlikSense

en Tableau. Anderzijds is er niet-beïnvloedbare data die vanuit vooral externe niet-

beïnvloedbare bronnen onttrokken kan worden. Dat laatste gaat om ‘ruwe’ data die

varieert in formaat, inhoud en ververs-frequentie. Die data is vaak niet zo goed

geborgd en dus ook minder betrouwbaar.

De knijp van Big Data zit hem in deze twee essentiële bewegingen. Bedrijven

moeten zich in die bewegingen gaan positioneren.

Bedrijven en Big Data

Bij het positioneren zijn opnieuw twee invalshoeken te onderkennen, namelijk

positioneren vanuit de bedrijfs-strategie of positioneren vanuit een te nemen

inventa-risatieslag:


http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-big-data-voor-mkb-2

1. Vanuit de bedrijfsstrategie (inside-out)

Vanuit je eigen strategie kan blijken dat je informatie nodig hebt die vooral

gebaseerd is op externe, minder-beïnvloedbare data. Denk bijvoorbeeld aan een

marketingstrategie waarbij sociale data een belangrijke rol gaat spelen, of een

situatie waarin je als bedrijf milieu- en duurzaamheidsinformatie moet opleveren.

Het gaat hierbij dus om het onderkennen van (nieuwe) typen van informatie die je

nodig gaat hebben vanuit je strategie gedacht. Die nieuwe informatie heeft ook die

nieuwe soort ‘ruwe’ slecht-beïnvloedbare data nodig.

2. Vanuit een inventarisatie (outside-in)

De oceaan aan nieuwe data die aan het ontstaan is –en aan die groei is echt nog

lang geen einde in zicht – kan je echter ook nieuwe kansen (of bedreigingen)

bieden waar je je strategie wellicht op zou willen aanpassen. Door een

inventarisatie te doen rond de nieuwe data die aan het ontstaan zijn, krijg je inzicht

in nieuwe mogelijkheden die ook voor jou – vertaald in een strategie – opgeld

kunnen doen.

Start met leren

Als je vanuit (één van) die twee invalshoeken constateert dat het voor jouw bedrijf

belangrijk is om die grote hoeveelheid nieuwe ‘ruwe’ slecht-beïnvloedbare data (Big

Data) te gaan gebruiken, dan kun je maar beter nu gaan beginnen. Je hebt namelijk

nog een heel leertraject te gaan als organisatie. Leren hoe je die data precies moet

gebruiken is daarbij niet het belangrijkste. Het is veel belangrijker om te leren

welke data relevant en bruikbaar zijn en welke betekenis deze data nu precies voor

jouw bedrijf kunnen hebben.

Nieuwe tools

Het gebruiken van Big Data valt meestal niet zo lekker binnen jouw bestaande

instrumentarium. Je hebt nieuwe tools en technieken nodig om met die nieuwe Big

Data om te gaan, hetgeen echter niet wil zeggen dat je de oude tools moet

weggooien. De nieuwe ‘ruwe’ niet-beïnvloedbare datastroom vergt andere vormen

van data-opslag en uitgebreide onderzoeksmiddelen. Hiermee kun je de inhoud en

kwaliteit van die nieuwe data onderzoeken en vooral het nut van die nieuwe data

voor jouw bedrijf bepalen. Een groot voordeel is dat er op het gebied van Big Data

veel, zeer bruikbare tools beschikbaar zijn als Open Source software. Dus gratis

verkrijgbaar. Wel moet je hiermee leren werken, waar gelukkig ook genoeg low-

cost mogelijkheden voor zijn. Een beetje enthousiasme en gedrevenheid doet

wonderen.

http://firstmarkcap.com/

Conclusie

De tijd is rijp. Als je tot de conclusie komt dat die Big Data ook voor jou nieuwe

mogelijkheden biedt, dan is het verstandig om te gaan starten. Begin er in ieder

geval mee te spelen. Hoe dit verhaal precies moet vallen binnen je huidige

organisatie, bedrijfsprocessen en IT-landschap is sterk afhankelijk van jouw

specifieke situatie. Laat je daarin goed adviseren, dat voorkomt desinvesteringen

en plaveit de weg voorwaarts voor jouw bedrijf.

http://firstmarkcap.com/

http://www.fourpoints.nl/wat-we-doen

Big Data is erg trendy. Veel grote bedrijven zijn bang om de boot te missen en

starten omvangrijke initiatieven om alvast allerlei data te verzamelen in

zogenaamde ‘data lakes’. Zelfs als het nog onduidelijk is in hoeverre die data de

strategische doelstellingen van de organisatie gaat ondersteunen. Moderne

marketing, met kenmerken als ‘customer-centric’, ‘inbound’, ‘content’ en ‘multi-

channel’, lijkt vaak direct gekoppeld te worden aan Big Data. Maar is dat wel zo? In

deze blog gaan we hier wat verder op in.

Big Data als begrip

In de afgelopen jaren is het gebruik van de term Big Data steeds verder verschoven

van de oorspronkelijke bedoeling. In 2001 is de term gelanceerd door Gartner, met

als bedoeling om data te typeren die problemen veroorzaakte in ‘Information

Management’ of praktisch gezegd; data die lastig is op te slaan en te verwerken tot

zinvolle informatie. Big Data is volgens de eerste Gartneriaanse typering, data die

tegelijkertijd en in hoge mate gekenmerkt wordt door:

Grote hoeveelheid (Volume).

Veelzijdigheid (Variety).

Hoge snelheid (Velocity).

Tegenwoordig is Big Data als term ongeveer synoniem met ‘(te)veel data’, waarmee

het accent de laatste jaren dus vooral op volume is komen te liggen. Zie voor een

meer gedetailleerde bespreking van Big Data erdere artikelen in dit E-book.

Praktisch gezien kunnen we, denk ik, het beste refereren naar Big Data als het gaat

om data die gebruikmakend van de huidige technologie lastig te verwerken is tot

zinvolle informatie, maar ook dit is geen sluitende definitie. Ik ben zelf geen

voorstander van het gebruik van de term Big Data, niet alleen omdat het een

verwarrende, onduidelijk gedefinieerde term is, maar ook omdat het nogal

suggestief is, te pas en te onpas wordt gebruikt en geen business georiënteerd doel

lijkt te kennen. Veel leveranciers van Big Data gerelateerde technologie zullen dit

Zinvolle Big DataGerrit Versteeg

http://www.fourpoints.nl/blog/bid/273486/Customer-centric-marketing-techniek-of-organisatie

uiteraard ten stelligste ontkennen.

Big Data voor Marketing Intelligence

Welke data die tegenwoordig vaak onder Big Data wordt gevat, is eigenlijk zinvolle

data voor marketing? Moderne marketing probeert een buyer journey te

faciliteren. Daarvoor analyseer je het gedrag van klanten of bezoekers in

combinatie met hun eigenschappen, om zo te komen tot het vaststellen van

zogenaamde Next Best Actions (NBA’s) voor die klant of prospect. Vooral het

monitoren van klantgedrag in jouw kanalen levert data op die door zijn volume

vaak gevat wordt onder Big Data. Denk bijvoorbeeld aan klikgedrag van klanten op

het web of uitingen over jouw bedrijf of product op sociale media.

Een ander gebied, dat tegen marketing aanhangt, is productontwikkeling. Daarbij

kan informatie over het praktische gebruik van jouw product door de consument,

je helpen om het product te verbeteren of om aantrekkelijke productcombinaties

te bedenken. Ook de sociale media kunnen een bron van informatie zijn voor

mogelijke productverbetering.

Drie vormen van marketing data

Concluderend zou je drie vormen van data kunnen onderscheiden die relevant zijn

voor marketing:

1. Data over gedrag in de eigen kanalen

Dit omvat data over de wijze waarop bezoekers jouw interactieve kanalen (zoals je

website) gebruiken. Denk bijvoorbeeld aan bezochte pagina’s, ingevoerde

zoekwoorden en geklikte banners. Laten we deze data eens nader beschouwen in

de context van de vraag of deze data problemen gaat opleveren in de verwerking

tot zinvolle marketing informatie.

Volume: dit is direct afhankelijk van de bezoekersaantallen van je interactieve

kanalen, hetgeen je vrij eenvoudig kan meten. Op de grote multinationals na,

hebben de meeste bedrijven geen indrukwekkende aantallen bezoekers (veelal

kleiner dan 1000 per dag), waardoor de registratie van klantgedrag geen

onoverkomelijke problemen zou moeten opleveren.

Velocity: dit is afhankelijk van de snelheid waarmee je deze gedragsdata wilt

omzetten in acties. Bijvoorbeeld of je direct wilt reageren op klantgedrag of dat

je de data gebruikt om periodiek vast te stellen in welk segment een klant

ingedeeld moet worden. Real-time verwerking van gedragsdata uit de kanalen

/blog/bid/294667/Vraagt-real-time-klantgedrag-om-real-time-BI

betekent transactionele IT-systemen. Ook al is dit een uitdaging voor de meeste

Marketing-afdelingen, die hier immers veelal niet aan gewend zijn, het is geen

Big Data probleem. De tweede optie – periodieke verwerking – is feitelijk

business as usual voor Marketing en zou zonder problemen moeten kunnen

geïmplementeerd.

Variety: met een beetje fantasie en moeite kun je het gedrag van jouw

bezoekers via jouw ‘menselijke’ kanalen, zoals bij gesprekken in je callcenter of

winkel, ook formaliseren en vertalen naar ‘klik’gedrag. Als je dat doet wordt de

data over bezoekersgedrag feitelijk redelijk eenvormig en dus eenvoudig te

structureren (low variety).

2. Data over gedrag in publieke kanalen

Deze data omvat alle uitingen binnen communities, denk aan, clicks, likes en

reacties op social mediaberichten. Steeds meer B2C-bedrijven hebben inmiddels

aparte afdelingen voor het monitoren van deze sociale media en het adequaat

reageren op posts. Ook voor marketing kan deze informatie relevant zijn, zowel

specifiek (per prospect) als generiek (naamsbekendheid en emotionele tendensen

en gevoelens). Likes en dislikes op jouw eigen reclame-uitingen op social media zijn

nog redelijk eenvoudig te turven. Het wordt echter lastiger als je data wilt

verzamelen over tekstuele uitingen (posts) van consumenten en de likes of dislikes

daarop. Deze zijn namelijk sterk afhankelijk van de interpretatie van de uitingen.

Het betrouwbaar automatiseren van tekstinterpretatie staat nog in de

kinderschoenen, vooral door linguïstische nuances (denk bijvoorbeeld aan

sarcasme).

3. Data over het gebruik van producten

Door middel van sensoren kun je data verkrijgen over het gebruik van jouw

producten. Daarmee kom je op het gebied van het “Internet of Things’. Sensorische

data is vrijwel altijd hogelijk gestructureerd (low variety) en daarmee eenvoudig te

verwerken, ook al kan de hoeveelheid data voor bepaalde typen producten best

groot zijn (high volume).

Is dit wel Big Data?

Ook al worden deze vormen van data tegenwoordig vaak onder de term Big Data

geschaard, ze voldoen feitelijk niet aan de oorspronkelijke definitie. In principe kan

het volume van de genoemde data-soorten wel sterk toenemen, maar - met

uitzondering van de data uit sociale media - de data is goed gestructureerd en kent

weinig variëteit. Bovendien valt voor kleinere bedrijven de kosten/baten-analyse

voor real-time dataverwerking meestal negatief uit. De snelheid van

informatieverwerking hoeft daarom ook niet erg hoog te zijn. Met andere woorden:

er is weinig of geen sprake van een combinatie van datakenmerken (volume,

velocity en variety) die betekent dat de verwerking van deze ‘Big Data’ problemen

gaat opleveren.

De ongestructureerde inhoud van berichten op sociale media veroorzaakt een

uitzondering op deze conclusie. Volume en Variëteit spelen hier gelijktijdig een rol

en ook de behoefte aan snelheid kan voor marketing een rol gaan spelen, als je

bijvoorbeeld tijdig wilt reageren op oplaaiende emoties.

Welke data ga je als eerste oppakken?

Op het gebied van ‘Big Data’ voor marketing, ligt het voor de hand om te beginnen

met de data uit het klikgedrag van de bezoekers aan jouw eigen interactieve

kanalen. Deze data kan uit de kanalen worden doorgegeven aan jouw BI-omgeving

en dan direct bijdragen aan het vaststellen van Next Best Actions voor individuele

klanten of prospects. Bij het vormgeven van de berichten over klikgedrag uit de

kanalen, kun je het beste zo kanaal-onafhankelijk mogelijk zijn (channel agnostic).

Zo kun je dezelfde berichtformaten gebruiken voor zowel website, callcenter als

winkel. Eigenlijk formaliseer je op die manier meer het bezoekgedrag dan het

klikgedrag.

Voor B2C-bedrijven kun je als tweede stap aandacht gaan schenken aan sociale

media. Eenvoudig zijn de metingen van likes en dislikes van jouw eigen posts. Ook

de metingen rond naamsbekendheid aan de hand van het gebruik van jouw naam

in berichten is vrij eenvoudig, als jouw bedrijfs- of productnaam tenminste uniek

genoeg is. Voor de meeste bedrijven is het nog te duur om zich te storten op

automatische tekstinterpretatie van tweets en posts. Dus dat zou ik vooralsnog

even links laten liggen, tenzij het van groot belang is. De huidige stand van zaken

rond Big data technologie stelt je echter wel in staat om grote hoeveelheden

tekstberichten supersnel te kunnen doorzoeken op zoekwoorden en dat kan

interessante informatie opleveren. Er zijn inmiddels al bedrijven die diensten in het

gebruik van data uit sociale media aanbieden, dus doe daar onderzoek naar voordat

je er zelf activiteiten in gaat ontplooien.

Data uit sensoren rond het gebruik van jouw producten speelt alleen een rol als je

een aansluitende soort producten aanbiedt. Denk aan witgoed, thermostaten,

auto’s, enzovoort. En daarbij speelt natuurlijk een belangrijke rol of je deze

sensoren op Internet kunt aansluiten. Op enkele productsoorten na, is dit type data

qua timing nog wat prematuur.

Conclusie

Zoals eerder betoogd: Laat je niet gek maken door Big Data . Kijk goed naar het

doel, voordat je alvast allerlei data gaat verzamelen in een ‘data lake’ in de hoop er

iets moois uit te halen. En realiseer je dat de eerste laaghangende vruchten

waarschijnlijk niet eens Big Data zijn.

http://www.fourpoints.nl/blog/business-intelligence-voor-managers-need-to-know-8-big-data

Big Data professionals lijken sterk gekant tegen data warehouses. Komt dat door

een nieuw oplaaiende geloofsstrijd, door de herdefinitie van BI-terminologie,

incompatibiliteit van de onderliggende tools en technieken of iets anders?

Big Data

Zoals in voorgaande blogs beschreven is Big Data een centrale factor in Business

Intelligence voor de verwerking van grote hoeveelheden data uit externe, niet-

beïnvloedbare bronnen. Daarbij worden nieuwe technieken en tools gebruikt. Ook

de werkwijze binnen BI wordt daarvoor aangepast, om preciezer te zijn: de data-

integratie functie verplaatst. Daar ligt ook een flinke uitdaging voor bedrijven bij

het bouwen van Big Data oplossingen.

In een eerdere blog heb ik al eens iets geschreven over de mogelijke combinatie

van data lakes (opslag-vehikel voor Big Data) en data warehouses (opslag-vehikel

voor klassieke, interne data). Misschien was dat iets te vroeg voor de 'strijdende'

partijen en moet eerst een discussie over basismethoden of 'basis geloven'

opgestart worden.

Het Big Data geloof

Big Data wordt in beginsel ongestructureerd of beter gezegd ongerelateerd

opgeslagen in moderne file system based data lakes. Het niet leggen van relaties

tussen de data is essentieel. Relaties worden pas gelegd als je hebt bepaald

waarvoor je de data wilt gebruiken. Bovendien leg je die relaties alleen voor dat

specifieke gebruik. Per gebruik kunnen de relaties dus ook verschillen. In

vaktermen: we doen extractie (E) en laden (L) maar nog geen transformatie of

integratie (T). Transformatie start pas als het specifieke gebruik van de data is

bepaald. Dat is de ELT-aanpak. Omdat data alleen maar per gebruik wordt

geïntegreerd, is er geen behoefte aan een integrerend data warehouse. Want

daarin zou je de data al voorafgaand aan het gebruik met elkaar in verband

brengen.

Big Data zonder Warehouse Gerrit Versteeg

http://www.fourpoints.nl/blog/topic/big-data

/blog/marketing-intelligence-voor-managers-big-data-voor-mkb

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-lake-of-data-warehouse

Het data warehouse geloof

Een data warehouse is de verzamelplaats voor data waarin relaties direct gelegd

worden. Dit gebeurt vanuit de bedrijfscontext. De meeste entiteiten hebben nu

eenmaal onderlinge relaties gebaseerd op de manier waarin ze binnen het bedrijf

zijn ontstaan. Die relaties worden dus niet zozeer gelegd vanuit een specifiek

gebruik voor managementinformatie (MI-producten). De integratie wordt veelal

vormgegeven door een datamodel waarin deze relaties staan gedefinieerd.

Opnieuw in vaktermen: de data worden geëxtraheerd (E), getransformeerd en

geïntegreerd (T) waarbij alle relaties gelegd worden en daarna in het data

warehouse geladen (L). Anders gezegd: de ETL-aanpak.

Big believers

Zoals bij elk geloof zijn er ook 'big believers' en wel binnen beide opvattingen. Als

vanouds kennen we BI-professionals die als uiteindelijk doel hebben de relaties te

leggen tussen alle data. Dat betekent dus een centraal data warehouse met één

enterprise datamodel. Daarbij worden termen gebruikt als: 'één ontologie voor het

hele bedrijf' om alle semantische verwarring te voorkomen en 'a single version of

the truth'. Klinkt al een beetje als de woorden van een big believer, toch?

De Big Data beweging kent ook big believers. Je kunt je waarschijnlijk wel

voorstellen hoe ook zij, in strikte regels redeneren. "In een Data Lake mogen geen

relaties gelegd worden, anders is het geen data lake meer". "Alleen als het 'gebruik'

is gedefinieerd, gaan we data uit het data lake halen en relaties leggen om een

specifieke datalevering vorm te geven". De Big data aanpak sluit trouwens best

aardig aan bij een agile aanpak, want zowel de collectie en opslag van data als de

combinatie ervan voor gebruik, kunnen in kleine leveringen vorm krijgen.

Kort samengevat (en dus ook wat ongenuanceerd): de ETL-ers ('klassiek') willen

naar de extreem waarbij je alle relaties in het begin van de datastroom legt, voordat

het in het data warehouse wordt opgeslagen. Terwijl de ELT-ers ('Big Data') de

relaties juist zo laat mogelijk leggen en het liefst voor elk individueel gebruik.

Sounds good...?

Het klinkt goed zou je zeggen, lekker agile software ontwikkelen in kleine hapklare

brokjes. Dit in plaats van de grote, centrale effort om een bedrijfsbreed datamodel

te ontwikkelen waarin alle relaties voorgedefinieerd worden. Veel grote bedrijven

hebben immers inmiddels jaren besteed aan die modellering, met vaak magere

resultaten. Maar zoals zo vaak ligt de praktische waarheid niet in het genadeloos

http://www.fourpoints.nl/blog/bid/277238/Datamodellering-en-semantiek-eerst-het-EDW-of-eerst-de-ESB

http://www.fourpoints.nl/blog/business-intelligence-voor-managers-need-to-know-4-single-point-of-truth

toepassen van één van de extremen. In de strijd die lijkt op te laaien tussen

aanhangers van Big Data en aanhangers van data warehouses zal ik de twee

geloven eens wat nader beschouwen en dan kijken we wat we in de praktijk van

elke geloof kunnen gebruiken

Klassiek (ETL)

Het streven naar het vroegtijdig leggen van relaties tussen data, vindt haar

'extreem' in het streven naar één datamodel voor het hele bedrijf. Een dergelijk

bedrijfsbreed datamodel wordt ook vaak geassocieerd met de term 'Enterprise

Data warehouse'. Het streven naar één integraal datamodel kent in de praktijk

twee belangrijke nadelen:

Het leggen van de relaties (i.e. het integreren van data) wordt lastiger naarmate

de scope van de integratie (het aantal bronnen, het aantal talen) groter wordt,

niet alleen in het vaststellen van de integratie-regels, maar ook in de praktische

uitvoering van het integratieproces. Hierdoor neemt de verversing van je BI-

omgeving steeds meer tijd in beslag, met het risico om achter te gaan lopen, en

krijg je een steeds hoger wordende time-to-market voor nieuwe

informatieproducten.

Een bedrijfsbreed datamodel kan niet zonder één uitleg (semantiek) van de

bedrijfstaal (ontologie). De werkelijke praktijk van een bedrijf kent echter

helemaal geen eenduidige terminologie. Dat houdt dus in dat een 'kunsttaal' á la

Esperanto moet worden opgesteld. Een dergelijk proces verloopt uitermate

moeilijk en moeizaam en daarbij is een uiteindelijk ontworpen taal ook nog eens

slecht onderhoudbaar (zie ook H4 van het eBook "the 10 need to knows rond

BI").

Mitigatie van de risico's rond één bedrijfstaal

Om de problemen rond een bedrijfsbreed datamodel te voorkomen, kun je ook

eens kijken naar het gebruik van de vaktaal van management-disciplines.

Managementdisciplines hanteren vaak onderling verschillende termen, gedreven

door hun vakgebied. Denk bijvoorbeeld aan finance versus marketing of

operations. Regelmatig gebruik ik in BI-architecturen daarom liever meerdere

datamodellen die elk afzonderlijk specifiek bedoeld zijn voor een bepaalde

discipline, zodat de termen beter en meer natuurlijk en herkenbaar kunnen

convergeren.

http://www.fourpoints.nl/ebook-de-10-need-to-knows-rond-bi

Het voordeel van de ETL-aanpak

Het leggen van de relaties tussen data gebeurt vaak in het kader van de context

van het bedrijf. Meerdere informatieproducten, zoals management-rapporten en –

dashboards, delen die context en hebben dus dezelfde relaties nodig. Het voordeel

van vroeg, meer centraal en gebruiksonafhankelijk relaties leggen tussen data, is

dat de logica voor het leggen van die relaties gemeenschappelijk en daarmee

eenduidig wordt. De integratielogica overstijgt de managementinformatie.

Hierdoor ontstaan minder interpretatieverschillen over cijfers en minder

versnipperde - en dus al snel inconsistente en lastig onderhoudbare - logica in het

genereren van de managementinformatie (MI).

Big Data (ELT)

Het zo laat mogelijk leggen van relaties, dus zo ver mogelijk naar het gebruik toe,

heeft als belangrijk voordeel dat die relaties gelegd worden 'in de beperkte

ontologische context (de taalruimte)' van een specifiek gevraagd MI-product. En,

zoals gezegd, als de scope van de integratie (het leggen van relaties) kleiner wordt,

is de integratie eenvoudiger.

Een vervelend feit is echter dat er altijd relaties tussen data zijn te vinden die

gelden voor meerdere MI-producten en zelfs voor alle MI. Het naar 'voren' drukken

van de data-integratie, betekent dat de integratie-logica terecht komt in de

generatie-functie van MI-producten. Met als belangrijk nadeel dat ook de

gemeenschappelijke integratie-logica wordt versnipperd en gedupliceerd over de

generatie-functie van die MI-producten. Als gevolg daarvan ontstaat dan al snel

een lagere onderlinge consistentie van de integratie-logica en dus verschillende

interpretaties van de resulterende cijfers. Ook het aanbrengen van wijzigingen in

die gemeenschappelijke integratie-regels wordt daarmee op termijn lastiger en

moeizamer.

En toen?

Big Data heeft ruimte nodig

Om de 'gulden middenweg der deugden' van Aristoteles maar eens aan te halen:

we moeten ergens in het midden belanden in een situationele weging van voor- en

nadelen. De oorzaak van de hele Big Data beweging ligt in de sterk groeiende

overvloed van waardevolle, maar vaak ruwe data uit externe bronnen. Deze

externe bronnen zijn niet beïnvloedbaar, waardoor het inrichten van meer ruimte

voor databewerking en -verwerking (voordat je überhaupt relaties kan leggen)

belangrijk is. Die ruimte krijgt tegenwoordig vaak vorm middels data lakes en de

bijbehorende technologie (bijvoorbeeld Hadoop stacks, zoals Cloudera en

Hortonworks). Relaties die uit de inhoud van de data blijken, leggen we het liefst

vast in aparte files of tables met zogeheten 'triples'. Dat zijn subject-predicate-

object combinaties, zoals "CO2 heeft een nadelig effect op Ozon". En dus niet in

een datamodel met 'ontworpen' relaties.

Geef de gemeenschappelijke logica een plek

Het inrichten van die ruimte hoeft echter niet te betekenen dat we de integratie

van data tot MI maar moeten uitstellen tot we echt MI-producten gaan maken.

Ergens moeten we de potentiële valkuil om alle (dus ook gemeenschappelijke)

integratielogica te verspreiden over MI-producten tegengaan. Zo verzanden we

niet in inconsistente, moeilijk onderhoudbare en slecht presterende rapportages en

dashboards. Na het data lake, maar nog voor we bij de uiteindelijke MI-producten

terechtkomen, kunnen we een functionele laag positioneren waarin we de

gemeenschappelijke integratielogica een plek geven. Dat is een plek voor

gemeenschappelijke relationele modellen of multidimensionale modellen met

gemeenschappelijke ('conformed') dimensies. Dat vormt ook meteen een goede

plek om interne data te combineren met externe data. Dat is de nieuwe plek voor

mogelijke data warehouses, maar dan niet in de zin van het (door Big Data

aanhangers verfoeide woord) Enterprise Data warehouse.

Conclusie

De tegenwoordige overvloed van ruwe data uit externe bronnen waartussen niet

direct relaties gelegd kunnen worden, levert ons het momentum om van het ETL-

beginsel af te gaan stappen. We kunnen de data simpelweg niet direct integreren.

Het vormt een extra argument tegen het klassieke, vaak nodeloze mantra "je moet

alle data eerst in één datamodel stoppen om een centrale versie van de waarheid

te hebben". De externe, ruwe data moeten we eerst gewoon onverkort opslaan en

onderzoeken voordat we er (statistische) relaties in kunnen leggen.

Big believers van Big Data stellen dat je moet proberen om alleen op het laatste

moment relaties te leggen (ELT). Dat is best logisch vanuit hun blik op die externe,

ruwe data, maar is vaak ook een reactie voortkomend uit de opgebouwde frustratie

rond de praktische onhaalbaarheid van het hiervoor genoemde klassieke BI-

extreem, waar alle data eerst maar in één groot datamodel terecht moet komen.

In de praktijk

De ruimte voor Big Data is nodig, maar er moet óók ruimte gereserveerd worden

voor de integratie-logica die gemeenschappelijk is over MI-producten heen.

Daarmee vermijd je dat deze logica versnipperd wordt over MI-producten. Binnen

die ruimte zien we de 'nieuwe' plek verschijnen voor datamodellen en data

warehouses. We moeten daarbij wel nadrukkelijk proberen om af te zien van het

praktisch vaak onhaalbare bedrijfsbrede datamodel en het daarmee geassocieerde

enterprise data warehouse. Liever gebruiken we bij gemeenschappelijke en

doelgerichte data-integratie meerdere, losse datamodellen. Let wel, dat is iets

anders dan de term 'data marts' zoals deze door Big Data aanhangers wordt

gedefinieerd. Zij zien een data mart als een MI-product met één specifiek doel, dus

ook juist als tegenhanger van de meer gemeenschappelijke data warehouses.

Ondanks een mogelijke polarisatie tussen de twee aanpakken, "hoeft er geen duivel

te liggen tussen twee geloven op één kussen! Als je de geloofsovertuigingen maar

minder stringent opvat en meer praktisch interpreteert en combineert.

In twee eerdere blogs (“Wat is Big Data?”) zijn we ingegaan op de vraag wat Big

Data is en of je er als manager al iets mee zou moeten. Als je besluit om ook in

jouw bedrijf iets te gaan doen met Big Data, dan kom je gelijk bij de vraag: “Moet ik

dan ook iets met Data Science?”. Daarom ga ik in deze blog iets dieper in op de

relatie tussen Big Data en Data Science.

De essentie van Big Data

Zoals in mijn vorige blog aangegeven, gaat het bij Big Data voor een manager aan

de ‘business’-kant niet zozeer om de technische definitie van Big Data, maar meer

om de gebruiksmogelijkheden ervan. Vanuit die invalshoek bekeken, vertolkt Big

Data de kans (of bedreiging) om een massale hoeveelheid data uit een sterk

groeiend aantal, niet-beïnvloedbare externe bronnen zinvol te gaan gebruiken. Als

je tot de ontdekking komt dat Big Data een nieuwe kans betekent - of bedreiging

als al je concurrenten er wel brood in zien - dan is het verstandig om op korte

termijn te gaan starten met het ‘spelen’ met Big Data zodat je je leerproces op tijd

opstart.

Nieuwe data

Zoals eerder gezegd kent Big Data een tweetal essentiële factoren: enerzijds het

grote volume en de variëteit van die nieuwe data, anderzijds het afwijkende

karakter van die data. Dat laatste gaat vooral om het feit dat Big Data hoofdzakelijk

bestaat uit data uit externe, niet-beïnvloedbare databronnen. Dat in tegenstelling

tot de hoofdzakelijk interne data waarmee Business Intelligence pleegt te werken.

Om te leren werken met deze nieuwe data en deze op een goede manier te kunnen

analyseren is Data Science nodig.

Big Data heeft Data SciencenodigGerrit Versteeg

http://www.fourpoints.nl/blog/topic/big-data


Data Science op Big Data

Zoals gezegd bestaat Big Data voor het grootste deel uit veel nieuwe data die

afkomstig is uit veel nieuwe externe bronnen. De meeste data is niet relevant voor

jouw bedrijf. Maar hoe kom je erachter welk deel van die data wel voor jouw

bedrijf interessant is? Deze vraag is in eerste instantie eenvoudig te beantwoorden

door de Big Data weg te strepen die totaal niets met jouw business case te maken

heeft. Daarna verzeil je al snel in de situatie dat je de potentieel wel interessante

data moet gaan onderzoeken op de waarde voor jouw bedrijf. Juist bij die

vraagstelling is het hebben van een Data Science discipline van groot belang.

De waarde van Big Data

De technieken en methodes binnen het vakgebied Data Science helpen je om van

mogelijk relevante data de waarde voor jouw bedrijf vast te stellen. Zo kun je

kijken naar de voorspellende waarde van bepaalde externe data op klantgedrag

(denk aan sociale media) of de verklarende waarde van externe data op de stand

van zaken rond het milieu binnen jouw land of gemeente (denk aan CO2-metingen

uit Duitsland gecombineerd met meteo-gegevens over windrichting en –sterkte).

“Big Data heeft Data science nodig, maar DataScience beperkt zich niet tot Big data”

De Data Science discipline

Data Science speelt niet alleen een rol bij het initieel vaststellen welke externe data

voor jou relevant zijn. Juist het karakter van die nieuwe data maakt het

noodzakelijk dat je Data Science blijft uitvoeren. Er ontstaat immers in een

groeiend tempo steeds meer nieuwe data. Daarnaast zal de data die je al hebt

geselecteerd veranderen qua inhoud en betekenis – de data komen immers uit

niet-beïnvloedbare databronnen. Het is jouw verantwoordelijkheid om die

veranderlijke stroom externe data te ‘borgen’, want de externe leverancier voelt

zich daarvoor wellicht minder of totaal niet verplicht.

Conclusie

Zoals eerder gezegd: “Als je tot de conclusie komt dat Big Data ook voor jou

nieuwe mogelijkheden biedt, dan is het verstandig om te gaan starten met leren”.

Dat betekent ook dat je een Data Science discipline nodig zal hebben. Het is een

onvermijdelijk deel van je leerproces als organisatie. Ga er niet vanuit dat je direct

een ervaren data scientist kunt aannemen, die zijn immers dun gezaaid. Het Data

Science werkveld is niet erg jong, maar de bredere uitrol van deze kennis over de

wereld van bedrijven is dat wel. Hou er dus rekening mee dat je zelf moet gaan

leren. Een goede startplek daarvoor zijn je bestaande BI-professionals. Ze kennen

jouw bedrijf, zijn al opgeleid en gewend aan het werken met data, en zijn snel bij te

scholen op de ins en outs van Data Science.

Iedereen heeft de mond vol van Big Data. Welke ‘big data’ interessant zou kunnen

zijn voor moderne marketing in het MKB heb ik in een eerder blog al eens

beschreven. Net als wat ‘Big Data’ eigenlijk is . In deze blog ga ik wat dieper in op

de status van de Big Data inspanningen van de multinationals, wat daar de voor- en

nadelen van zijn en wat je daar als MKB-bedrijf van kunt leren.

De stand van zaken rond Big Data

De leveranciers van Big Data technologie en de meeste commerciële analisten zijn

het met elkaar eens: Big Data goed gebruiken, kan bedrijven een flink

concurrerend voordeel kan geven. In hoeverre hun onderzoek en conclusies

enigszins gekleurd zijn door niet geheel wetenschappelijke motieven is lastig te

zeggen, maar het gevolg is wel dat veel van de grotere bedrijven inmiddels druk

bezig zijn met het ontplooien van Big Data initiatieven. Zij bereiden zich veelal voor

op de goede dingen die beloofd zijn en zijn wellicht ook een beetje bang om de ‘Big

Data’ boot te missen.

Wat doen ze precies? De meeste bedrijven zijn - kortweg gezegd - alvast potentieel

interessante data aan het verzamelen. Dat doen zij in wat tegenwoordig een ‘Data

Lake’ wordt genoemd. In de meeste gevallen is niet geheel duidelijk wat die data

hen voor competitieve voordelen gaat bieden. Zij verzamelen deze data alvast

omdat enerzijds expertise op te bouwen rond de Big Data technologie en

anderzijds omdat de data misschien weleens relevant zou kunnen zijn in de

toekomst. Hand in hand met het gebruiken van Big Data, loopt de trend om deze

data te analyseren met behulp van Data Science. Derhalve is het aantal vacatures

voor data scientists exponentieel toegenomen. Een grappige bijkomstigheid is, dat

je als data scientist in opleiding op de universiteit als eerste leert dat het bij Data

Science niet gaat om de data, maar om de ‘science’. En dat je altijd eerst een

vraagstuk moet formuleren en dan pas de daarvoor relevante data moet gaan

proberen te verzamelen.

Big Data voor MKB (1)Gerrit Versteeg

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-zinvolle-big-data


Wat is precies een ‘Data Lake’?

Een Data Lake is een opslagplaats voor ongestructureerde data. Voor een goed

begrip is het van belang om de term ‘ongestructureerd’ iets nader te verklaren. Dus

hier volgt even een kleine beetje theorie.

Van oudsher wordt met ongestructureerd bedoeld, dat de data die wordt ingelezen

‘ongeformaliseerd’ is, dat wil zeggen data die geen formele structuur kent in de

vorm van goed beschreven entiteiten en attributen (als voorbeeld: vrije

tekstvelden, social media berichten en dergelijke). Binnen Big Data en het Data

Lake wordt met ‘ongestructureerd’ echter eerder bedoeld: data die is opgeknipt in

individuele elementen en los wordt opgeslagen in het Data Lake zonder deze data-

elementen onderling met elkaar in verband te brengen. Dat betekent dus dat er

geen voorafgaande datastructuur (i.e. datamodel) wordt opgesteld waar de data in

moet passen, maar dat de data losstaand in aparte ‘database-kolommen’ wordt

opgeslagen. Het is daarbij de bedoeling dat de structuur - het datamodel - pas

http://www.fourpoints.nl/blog/bid/277238/Datamodellering-en-semantiek-eerst-het-EDW-of-eerst-de-ESB

wordt aangebracht wanneer je de data gaat gebruiken om er zinvolle informatie

van te maken. De term die techneuten daarvoor gebruiken is ‘schema on read’ of

ELT. Dat staat voor Extractie van data, het Laden van de data in het lake en pas bij

het gaan gebruiken van de data, het Transformeren en integreren van de data.

Wat is nu het verschil met de ‘normale’ maniervan werken binnen Marketing?

Vanouds ben je waarschijnlijk gewend om al je klanten prospect-gegevens in een

marketing data warehouse (dwh) op te slaan. De data in het data warehouse is in

hoge mate gestructureerd in een goed beschreven datamodel. Zo voorzie je

marketingcampagnes van goede en complete klantinformatie waarmee je een

integraal klantbeeld kunt samenstellen. Je bent dus feitelijk gewend om ‘data te

integreren’ voordat je de data opslaat. Zo breng je alle interessante data bij elkaar,

zodat je de klant of prospect in zijn geheel kunt beschouwen en met een beetje

goede voorspelwaarde een segmentatie kunt aanbrengen of de ‘next best action’

kunt bepalen. Het is dus van belang om brondata te integreren voordat je deze als

klantinformatie kunt gebruiken in je marketing praktijk.

Data-integratie is het kernprobleem

Het integreren van alle brondata uit je bedrijf tot zinvolle managementinformatie -

zoals bijvoorbeeld een integraal klantbeeld voor marketing - is het essentiële

probleem. Integratie is verreweg ook de meest complexe functie binnen Marketing

Intelligence (voor meer informatie hierover zie ons eBook De 10 Need-to-know’s

rond BI voor managers).

Het zal je inmiddels zijn opgevallen dat het juist deze integratiefunctie is, die bij Big

Data niet wordt uitgevoerd op de data in het Data Lake. Het integreren van de

data wordt immers uitgesteld tot je de data uit het Data Lake gaat halen om er

zinvolle marketinginformatie van te maken. Het is dan ook niet verwonderlijk dat

zoveel bedrijven met Big Data bezig kunnen zijn. Het geeft ze immers de

mogelijkheid om het kernprobleem (data-integratie) voor zich uit te schuiven,

terwijl ze toch allerlei data kunnen verzamelen.

Misschien is dat typerend voor de Big Data trend. “We weten nog niet goed wat de

voordelen van Big Data voor ons bedrijf zullen zijn, maar we gaan er maar alvast

mee beginnen want anders zijn we misschien te laat” lijkt sterk op “We weten nog

niet welke onderzoeksvragen we precies willen stellen, maar laten we maar alvast

beginnen met het verzamelen van data ”.

http://www.fourpoints.nl/blog/bid/373290/ETL-performance-aandachtsgebieden-en-tips-voor-een-snellere-ETL-batch

http://www.fourpoints.nl/ebook-de-10-need-to-knows-rond-bi?__hssc=237817119.5.1468317357201&__hstc=237817119.4782fc7ca21c41f460925f489fc4d8ab.1456910380204.1468229049058.1468317357201.90&__hsfp=1272133530&hsCtaTracking=540a5784-d8c8-44a6-88cd-eb4f2142a7d6%7C3e94b574-22fb-4dbf-a281-42623d23bb81

Wordt er dan helemaal niets met die big datagedaan?

Ook al wordt de big data in het Data Lake nog slechts weinig ingezet voor het

maken van managementinformatie, het is wel een dankbare databron voor data

sciencists. Ondanks de geldigheid van de eerder gemaakte opmerking (“verzamel

geen data zonder een voorafgaand opgestelde bedrijfsgeörienteerde

onderzoeksvraag”), vormt het Data Lake wel een interessante zee aan data waarin

de data scientist graag rondzwemt.

Big Data databases zoals Hadoop, kunnen samen met de big data toolset op

indrukwekkend snelle wijze losse gegevenselementen zoeken, sorteren en filteren.

Daarom willen de voorsorterende multinationals ook graag data scientists

aantrekken. Zij kunnen met al die mooie tools gaan vissen in deze rijke, maar zeer

granulaire data-zee. Op zoek naar interessante data of eventueel onverwachte,

statistisch relevante verbanden tussen data-elementen. Misschien eigenlijk wel

vissen naar de business case voor Big Data.

Moeten we dan maar gewoon afwachten wat ergaat gebeuren?

Dit is de hamvraag. De meeste bedrijven (zo tussen de 25 en 5000 medewerkers)

zou ik adviseren om nog even te wachten. Het heeft immers zo weinig zin om te

investeren in zaken waarvan het nog te onduidelijk is wat het rendement zal zijn.

Tenzij je een duidelijke business case hebt om (een specifieke soort) Big Data te

gaan verzamelen als brandstof voor nadere analyse. Die business case leidt dan ook

gelijk tot de onderzoeksvragen voor de data scientist.

Er zijn een drietal opmerkingen over data lakes vol met big data, die van invloed

kunnen zijn op een mogelijke beslissing om te starten met de technologie:

Uiteindelijk moet de data in het data lake een keer gebruikt gaan worden voor

zinvolle marketinginformatie. Het is dan ook te voorzien dat het data lake zal

worden gebruikt als voedingsbron voor een data-integratie stap naar een

marketing data warehouse (of data marts). Het relatieve voordeel van deze

aanpak is dat de scope van de data-integratie naar alle waarschijnlijkheid

beperkt zal worden tot de specifieke informatie die je op dat moment nodig

hebt. Dat is een voordeel omdat het eerder genoemde kernprobleem van data-

integratie complexer wordt naarmate je meer soorten data met elkaar wilt

combineren. Als je het aantal data-soorten weet te beperken tot specifieke

informatievragen, dan is je integratieprobleem navenant kleiner en dus

behapbaarder. Of dat voor jouw situatie ook betekent dat een data lake met big

data een goed plan is, kan een goede BI-architect je wel vertellen. Laat je daarin

dus adviseren, voordat je gaat investeren.

De aanpak om via een data lake te gaan werken en je data pas te integreren op

basis van specifieke informatievragen, past goed bij de nieuwe agile manier van

werken. Ben je dus een bedrijf dat agile development hoog in het vaandel heeft

staan, dan sluit een data lake (beter gezegd: de ELT-aanpak) daar goed bij aan.

Het kan zinvol zijn om data alvast in een data lake te stoppen als je data hebt

die je nog niet goed weet te structureren (lees: integreren), maar waarvan je wel

al duidelijk hebt dat die data een belangrijke rol gaat spelen in je

marketingstrategie. Laat dan wel een data scientist - met een goede

werkopdracht - actief aan de gang gaan met die data middels data-discovery en

analyse.

Conclusie

Voor de meeste ‘kleinere’ bedrijven is Big data een technologie waar je op dit

moment eerder geld mee kwijtraakt, dan ermee verdient. De ROI voor Big Data is

nog te onduidelijk. Als je echter een duidelijk nut kunt formuleren voor data dat

direct bijdraagt aan je bedrijfsresultaat (of je klantinzicht voor marketing), maar

waarvan het nog onduidelijk is hoe je die data kunt integreren, dan heb je misschien

een business case om te gaan experimenteren met een data lake (bijvoorbeeld met

Hadoop in de cloud). Focus je dan wel op die specifieke ‘onderzoeksvraag’, want zo

geef je je data scientist een legitieme werkopdracht.

Je kunt een data lake ook gebruiken om juist die data te ontdekken, die voor jou

van het grootste nut is (data-discovery). Om bijvoorbeeld de data te vinden die

klantgedrag het best voorspelt. Dit is op zich een prima opdracht voor een data

scientist> let wel op dat dit het risico van desinvestering vergroot omdat het kan

voorkomen dat hij geen attributen met een betere voorspellende waarde kan

vinden. Voor de meeste ‘niet-multinationals’ is dit nu vaak nog een te groot risico.

Big Data is nog steeds een big issue. Ik heb er dan ook redelijk wat aandacht aan

besteed in eerdere blogs (bijvoorbeeld: welke data kan interessant zijn en Big Data

voor het MKB). Toch is er in de essentie van de zinvolheid van Big Data een zekere

verschuiving te onderkennen. Het lijkt me goed om daar in deze blog wat dieper op

in te gaan.

De essentie van Big Data

Vanuit ons Business Intelligence vakgebied classificeren we Big Data meestal aan

de hand van de zogenaamde V’s (wat is ‘Big Data’ eigenlijk ). Een combinatie van

data met bijvoorbeeld een hoog volume, een grote mate van variëteit en een hoge

snelheid van aanlevering en verwerking leveren als snel het label ‘Big Data’ op. In

welke mate de V’s moeten voorkomen is daarbij onduidelijk. Daarnaast is er nog

een ander criterium van toepassing bij de classificatie, namelijk: “Data is Big Data

als de moderne technologie moeite heeft met de verwerking ervan”.

Beide criteria – een combinatie van V’s en een moeizame of onmogelijke

verwerking – definiëren Big Data op een vakmatige manier, maar bieden weinig

houvast voor een bedrijfsdiscipline zoals marketing. De criteria doen niet alleen

theoretisch aan maar zijn gewoonweg vaag. Het is ook niet verwonderlijk dat dit in

de praktijk leidt tot wijdverspreid ‘misbruik’ van de term Big Data.

“Waar gaat dan alle fuzz over?”, zou je kunnen vragen. Het impliciete

schouderophalen dat aan die vraag ten grondslag ligt is dan ook gerechtvaardigd.

Maar in essentie gaat het ook niet om hoeveel V’s jouw data heeft of hoe lastig de

verwerking ervan is. Het gaat om de impact van de almaar toenemende

beschikbaarheid van een exponentieel groeiende stortvloed aan data.

Kijk eens naar een al wat ouder (1977!), maar nog steeds illustrerend filmpje van

IBM over het effect van de machten van tien. Dat is relevant als je kijkt naar de

onderlinge verhouding van mega, giga, tera, peta, exa, zetta en tegenwoordig yotta

(1024) bytes.

Big Data voor MKB (2)Gerrit Versteeg

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-zinvolle-big-data

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-big-data-voor-mkb


https://www.youtube.com/watch?v=0fKBhvDjuy0

De constant groeiende stortvloed aan data

Data wordt inmiddels in zulke grote hoeveelheden (publiek) beschikbaar gemaakt,

dat een bedrijf al snel niet meer weet welke data allemaal beschikbaar zijn. Laat

staan of zij met die data iets zinvols zou kunnen of moeten doen.

In tegenstelling tot vroeger hoeft een bedrijf zich tegenwoordig niet meer te

beperken tot interne data en voor veel geld gekochte externe data. Die tijd is

voorbij.

Laten we een aantal moderne databronnen ter illustratie bekijken:

Social Media zoals Twitter, Facebook, LinkedIn en YouTube, bevatten enorme

hoeveelheden data afkomstig uit zowel ‘eigen’ sociale kanalen als vanuit

publieke kanalen.

Open Data is met grote aantallen afkomstig uit zowel publieke als commerciële

bronnen, zoals de overhead (die tegenwoordig verplicht is om hun niet-privacy

gevoelige data publiek te maken), onderzoeksinstellingen, universiteiten en

data-suppliers.

Sensor Data (IoT) is afkomstig van zowel eigen als publieke en commerciële

bronnen die werken met sensors in devices (waaronder smartphones),

producten en infrastructuur.

Dark Data, een wat nieuwere term voor data die afkomstig is uit interne

systemen die men over het algemeen niet pleegt te ontsluiten, zoals change en

activity logs, proces-statussen en berichten tussen applicaties.

Cloud Data is een modernere, steeds meer door bedrijven gehanteerde bron

van data uit applicaties die je als bedrijf kunt hebben in de cloud, zoals

Salesforce, HubSpot, Marketo, Magento, Exact, AFAS, Dynamics 365

enzovoorts.

Massale hoeveelheden data zijn tegenwoordig beschikbaar voor bedrijven en die

hoeveelheid groeit met elke voorbijgaande dag. De hamvraag daarbij is: “is er iets

van jouw gading bij?”.

Terug naar de essentie

Er zijn veel soorten data. Er is een constant groeiende oceaan aan data. Als bedrijf

kunnen die data relevant voor je zijn. Het kan je nieuwe kansen geven, zeker voor

Marketing met haar voorspellende modellen of door een betere, meer persoonlijke

dienstverlening. Of vormen de data een bedreiging, bijvoorbeeld als je concurrent

een beter verklarend model kan ontwerpen op basis van die data? Gaat de

concurrentie-oorlog zich nu afspelen rond deze oceaan van data?

Het is in ieder geval van belang om je als bedrijf bewust te worden van dit nieuwe

speelveld. En daarna om je positie op dat speelveld te kiezen. Wacht je af of ga je

actief onderzoek doen naar de mogelijkheden?

Vanuit strategisch oogpunt, is het wellicht verstandig om eens terug te gaan naar

jouw basis ‘value-driver’. Ben je vooral van de ‘operational excellence’ dan kun je

misschien naar data zoeken die je helpen om je productiekosten te verlagen (denk

aan dark proces data) of ervoor zorgen dat jouw standaardproduct goed blijft

aansluiten op de veranderende wensen van de markt (denk aan data uit sociale

media). Als jouw bedrijf ‘customer intimacy’ als leidraad heeft, dan kun je

additionele data uit sociale media en het IoT gaan verzamelen over het gedrag van

je doelgroepen, prospects en klanten om ze zo nog beter te leren kennen en van

dienst te kunnen zijn. Of als je ‘product innovator’ bent kun je onderzoeken of er

data beschikbaar zijn, die jou vertellen of vernieuwing opportuun is en hoe dat

nieuwe product eruit moet gaan zien.

Kijk ook eens naar dit filmpje van Dell EMC over de mogelijkheden van data voor

marketing.

Hebben we nu haast?

Tja, dat is een goede vraag en het antwoord is natuurlijk weer situationeel. Onze

multinationals zijn al een jaar of twee aan de gang. Waarschijnlijk kunnen ze zich

niet veroorloven om er niet op tijd bij te zijn. Of ze dit bewust vanuit

bedrijfsstrategie doen of gewoon uit de IT-gedreven ‘push’ van de technologie, is

nog een vraag. Er is nu eenmaal veel gelegenheidsargumentatie rond Big Data. Hoe

zinvol hun data ook zijn of juist nog niet, zij hebben straks in ieder geval het

voordeel dat zij kennis en ervaring op het gebied van de bronnen en technieken

rond Big Data hebben. Het MKB en National Enterprises zijn nog minder druk bezig

met het onderwerp. Toch is het juist voor hen langzamerhand tijd om eens naar de

voornoemde ‘value driver’ vraag te kijken. Kun je op basis van het antwoord daarop

aangeven dat er een concurrentievoordeel is te behalen? Ga dan actief data-

onderzoek doen. Data hoeft niet duur te zijn, het onderzoeken van de potentie

ervan voor jouw bedrijf ook niet. Kijk ook eens wat je concurrenten doen?

Misschien zijn de voor jouw situatie belangrijke data nog niet in de oceaan. Ook al

is dat vervelend, het betekent ook dat die data er vaak ook niet zijn voor jouw

concurrent. Het betekent misschien ook dat je met het onderzoek wel een indruk

hebt op welke termijn dat die data wel beschikbaar zal zijn, zodat je op tijd kunt

https://youtu.be/acWtvWRGCfw

acteren.

Wat het resultaat van het onderzoek ook is, het houdt ook in dat je kennis en

ervaring opdoet over Big data en Data Science. En dat is nooit weggegooid geld,

dat staat inmiddels wel vast.

Conclusie

Bij Big Data gaat het binnen de bedrijfsstrategie (of marketingstrategie) niet om de

vraag of data ‘big’ zijn, niet of jouw data de juiste combinatie van V’s kent of om de

moeite waarmee jouw data verwerkt moet worden. Het gaat niet om de vraag of

data als Big data geclassificeerd kunnen worden. Essentieel in de discussie rond Big

Data is het besef dat er een nieuw speelveld aan het ontstaan is, gebaseerd op een

exponentieel groeiende, massale oceaan aan data uit allerlei bronnen.

Langzamerhand wordt het belangrijk om je als bedrijf te oriënteren op de

mogelijkheden of bedreigingen die de data oceaan je bieden. Multinationals zijn al

een jaar of twee druk bezig om te experimenteren met Big Data. Maar ook voor de

laag bedrijven net onder de multinationals – de national enterprises en het grotere

MKB – wordt het langzamerhand tijd om vanuit de strategie eens te gaan kijken

hoe dit nieuwe speelveld eruit ziet en of er data beschikbaar zijn die jouw

bedrijfsstrategie ondersteunen.

Het onderzoek zal misschien uitwijzen dat er voor jou nog geen directe kansen te

benutten zijn - of bedreigingen te pareren. Maar zelfs dan heb je in ieder geval wel

jouw eerste schreden op het Big data en Data Science gezet. Met de opgedane

kennis en ervaring ben je alvast beter voorbereid op de tijd dat dit speelveld voor

jou ook opportuun wordt.

Ben je nieuwsgierig naar de komende blogs over Marketing Intelligence? Abonneer

je via onderstaande knop dan op het thema ‘Management & BI’. Zodra er een

nieuwe blog in de reeks verschijnt, krijg je automatisch een seintje (per e-mail) met

een link.

Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing

Intelligence wilt aandragen. Dan kan het zomaar voorkomen dat jouw situatie of

vraag in een dedicated blog binnen de reeks wordt besproken.

http://www.fourpoints.nl/blog/topic/data-science

Big Data heeft ruimte nodig, meer ruimte dan je gewend bent in je 'normale' BI-

omgeving. Met ruimte bedoel ik eerder ademruimte dan opslagruimte. Het gaat bij

Big data niet om hoe groot jouw Hadoop-cluster wel niet is ten opzichte van je

concurrenten, maar om de manier waarop je met die Big data omgaat. Let me

explain.

Big Data

Big Data zijn anders dan we gewend zijn. Vanouds verwerken we in onze BI-

omgevingen redelijk rustige, stabiele data uit hoofdzakelijk interne bronsystemen.

Data waarvan we de context en de betekenis kennen. Data die netjes periodiek

binnenkomen in een formaat dat we afgesproken hebben met de

bronsysteemhouder (eventueel in een SLA) en die we automatisch kunnen

verwerken in één of meerdere netjes vooraf ontworpen datamodellen in het data

warehouse.

Zo niet Big Data. Deze data komen hoofdzakelijk uit externe bronnen, die we niet

kunnen beïnvloeden. De dataleverancier stelt die data immers beschikbaar aan

meerdere, onbekende partijen. De data zijn veelvormig ('variety'), veranderlijk,

buiten onze macht ('veracity'), vaak volumineus (volume) en kan soms in een rap

tempo ('velocity') binnenkomen als je daarvoor kiest. Big Data bestaan veelal uit

'eigenzinnige' data, die niet zomaar automatisch te verwerken zijn.

Ruimte voor een centrale verzamelplek

Daarom moeten we al beginnen met het apart opslaan van die data. Meestal in een

daarvoor geschikt Data Lake als centraal verzamelpunt en dan liefst 'as such', op

een 'losse' manier, zonder verbanden want die kennen we immers nog niet. Dus we

moeten we een aparte opslagruimte inrichten. Een opslagruimte die geschikt is

voor 'losse' opslag van databestanden in allerlei formaten. Daar is een traditioneel

DBMS met opslag gebaseerd op datamodellen (relationeel, data vault,

multidimensionaal etc.) niet bijster geschikt voor. Eigenlijk heb je een soort file-

Geef Big Data de ruimteGerrit Versteeg

http://www.fourpoints.nl/blog/de-8-bi-groeisignalen-voor-managers-situatie-4-het-afdeling-data-warehouse

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-lake-of-data-warehouse

system nodig zoals je gewend bent op je eigen PC of server, daar kun je immers

ook allerlei bestanden in allerlei formaten in opslaan. Hadoop is zo'n filesystem,

maar dan met fancy extra mogelijkheden, zoals fout-tolerantie, backup en opslag

over meerdere servers (nodes) inclusief automatische load-balancing van queries.

Daarin kun je niet alleen nette data zoals CSV, XLS, JSON of XML-bestanden in

kwijt, maar ook hele documenten zoals DOCX, PDF, JPG en HTML-bestanden.

In het data lake richt je dus je eerste rustpunt in als een centrale opslagruimte waar

de weerspannige Big Data als 'ruwe' data wordt opgeslagen. Klaar voor onderzoek,

bijvoorbeeld naar betekenis en eventuele onderlinge verbanden.

Ruimte voor onderzoek

Big Data is onlosmakelijk verbonden met Data Science. Als bedrijf moet je

onderzoeken hoe je de data uit jouw lake precies moet interpreteren, welke

betekenis de data hebben voor jouw business en of er verbanden bestaan tussen

relevante databestanden. Er is dus ook ruimte nodig voor data-onderzoek. Je hebt

een data science discipline nodig met onderzoeksprocedures en een geschikte

onderzoeksomgeving (bijvoorbeeld R-Studio) met een geschikt onderzoekstool. R

is verreweg de meest gebruikte tool en wordt drie keer zoveel gebruikt als zijn

directe concurrent op de tweede plaats. Ruimte voor onderzoek betekent ook het

aantrekken of opleiden van Data Scientists, het opstellen van

onderzoeksprocedures om herhaalbaar onderzoek te borgen en

onderzoeksresultaten veilig te stellen in bijvoorbeeld code books. Maar ook het

reserveren van tijd en capaciteit om dat onderzoek te kunnen doen.

Data-onderzoek levert nieuwe data op, die je ook weer opslaat in je Data Lake:

1. Metadata over Big Data (semantiek)

Tijdens het ophalen en opschonen van ruwe data in het kader van een gestelde

onderzoeksvraag, worden data onderzocht en indien mogelijk hersteld of

geherstructureerd tot geschoonde 'tidy' data. Deze data is geschikt voor het

onderzoek. Echter, daarbij worden nog steeds geen relaties gelegd. Tijdens dit

'Getting en Cleaning data'-proces wordt het geleerde over de data en hun schoning

vastgelegd in een code book. Vanuit dit code book kunnen we een 'catalog' (i.e.

woordenboek) over onze interpretatie van de onderzochte data samenstellen. Dat

is dus ook de eerste plek voor het vastleggen van de gevonden semantiek van je

Big Data.

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-science-exploratory-analysis

http://www.fourpoints.nl/blog/business-intelligence-voor-managers-big-data-heeft-data-science-nodig

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-de-marketing-data-scientist

2. Relaties tussen gegevens

Als we tijdens het onderzoek relaties onderkennen, dan leggen we die vast in

zogenaamde triple-stores binnen het Data Lake. Let wel, we passen de relaties niet

toe door die relaties te leggen in een datamodel, we registreren alleen het feit dat

we een relatie hebben gevonden. Bij relaties kun je een onderscheid maken tussen

semantische relaties en data-inhoudelijke relaties.

Semantische relaties zijn verbanden gebaseerd op betekenis, zoals factuurregels

horen bij een factuur en een overeenkomst gerelateerd is aan een klant en aan een

product. Dat is als het ware 'bij afspraak', omdat we de 'taal' nu eenmaal zo

interpreteren.

Data-inhoudelijke relaties zijn verbanden die niet (vooraf) gedefinieerd zijn, maar

die blijken uit statistisch onderzoek van de inhoud, de waarden van de data. Dit kan

bijvoorbeeld blijken uit een hoge correlatie/covariantie tussen losse data

(variabelen). Denk bijvoorbeeld aan: fijnstof in de lucht (PM5, PM10) heeft een

effect op astmaklachten of het aantal likes heeft een causaal verband met de NPS

(Net Promotor Score).

3. Nieuwe gegevens (statistieken of voorspellingen)

Tijdens het onderzoek worden niet alleen statistieken gevonden (gemiddelden,

spreidingen, verdelingen, kwantielen etc.) maar kunnen ook voorspellingen worden

gedaan op basis van regressiemodellen of machine learning. Ook deze nieuwe data

wordt opgeslagen als 'losse' data in het Data Lake.

Ruimte voor aanpassing

Big data is veranderlijk, weerbarstig. Externe dataleveranciers kunnen de formaten

aanpassen, de tekstopbouw van hun ongestructuurde documenten, zelfs de inhoud

van de data anders gaan interpreteren. Het is voor de data science discipline dan

ook niet voldoende om alleen maar de eerste ontsluiting van nieuwe data te doen.

Zij moeten ook de status van de databronnen in de gaten houden en bij

verandering nieuw onderzoek doen en eventueel verwerkingsscripts, catalogs of

triples aanpassen. Er is dus ook ruimte nodig voor continue flexibiliteit.

Conclusie

Als je als bedrijf voldoende aanleiding vindt om Big Data te gaan verzamelen, richt

hiertoe dan expliciet ruimte in (binnen je BI-discipline). Niet alleen opslagruimte,

maar vooral ook ruimte voor onderzoek in de vorm van een data science discipline

met een duidelijke taakstelling, met duidelijke procedures, met gereserveerde

capaciteit en opgeleide mensen. Plan tijd in voor het doen van onderzoek. Niet

alleen voor het eerste gebruik van externe, maar ook voor de onvermijdelijke

veranderingen die plaats gaan hebben op data die je al verwerkt. Dus ook ruimte

voor het doen van aanpassingen, gedwongen door de beweeglijkheid van Big Data.

Doe Big Data er niet 'tussendoor'. Alloceer de benodigde resources (ook

processen, mensen en tijd) expliciet, anders gaat Big Data al snel met jou aan de

loop in plaats van andersom.

http://www.fourpoints.nl/blog/wat-is-big-data-en-moeten-we-er-inmiddels-iets-mee

Call to ActionZijn er vragen die opkomen na het lezen van dit e-Book.

Stuur dan een bericht of bel ons.

Ben je nieuwsgierig naar de komende blogs over BI, BigData en Data Science vanuit de manager bekeken?

Abonneer je via onderstaande knop dan op het thema‘Management & BI’. Zodra er een nieuwe blog in de reeks

verschijnt, krijg je automatisch een seintje (per e-mail)met een link.

Abonnement op "Management & BI"

made with

http://www.fourpoints.nl/thema-management-bi?hsCtaTracking=2ec27609-44f6-428a-849a-ce2745051820%7Cdd3972c3-17e8-4753-840a-fee3f7a7cfc3&__hstc=237817119.cbda816476200a7217d27c3fb516d98a.1484062064124.1484820483435.1485152211135.9&__hssc=237817119.3.14851522

& Big Data Intelligence Marketing - FourPoints Big Data.pdf · Big Data voor MKB (1) Big Data voor...

Documents

Transcript of & Big Data Intelligence Marketing - FourPoints Big Data.pdf · Big Data voor MKB (1) Big Data voor...