Data Mining/Kunskaputvinning
Nybörjargenomgång av viktigaste koncept
Data mining är en mix:
Exempel på användningsområden
BANK Låneerbjudanden Kreditrisk Misstänkta korttransaktioner
CRM Riktad marknadföring Churn (kunder som går till
konkurenten)
MEDICIN Troliga sjukdomsförlopp Identifiering av nya
läkemedel
Data mining är en iterativ verksamhetsbaserad process
DATA → FRÅGOR → BEARBETNING → SVAR → NYA FRÅGOR → NY DATA
ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI
CRISP-DM, cross-industry standard for processes involving data mining
Crisp-dm detaljerat
Business understanding/data understanding
Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan skall frågeställningen styras av lönsamhet.
Analytikern måste ha förståelse för datat han får.
Skräckscenario:
Försäkringsbolag data = statistik över
bilkrockar+väderförhållanden+vägförhållanden
Data mining svarar: bilar krockar mest när det är mörkt och blött på vägen
Data preparation/modelling
Data mining sker alltid mot EN tabell/vy/fil med
underliggande data.
Alltså: ETL-processer! KNOW IT Helikopter bidra med
mycket konsultkunskap
Typiskt dm-flöde (KNIME)
Möjliga mål för DM projekt
Identifikation av grupper (klustrar) i data vars struktur är ej synlig
Hitta faktorer som orsakar vissa konkreta händelser
Beräkning av utfallsvariablernas värden (prediktion)
Alltså finns det två olika “grupper av metoder”:
deskriptiv
Inga nya värden genereras, ingen fördelning på historisk data och ny data. Inga svar förväntas på förhand. Kallas
även UNSUPERVISED LEARNING
Att förutse värden, antingen numeriska eller kategoriska.
“hur mycket säljer vi i maj”“är kunden en kreditrisk”
Kallas för SUPERVISED LEARNING
prediktiv
Hur vi jobbar med prediktiv process
En del av gammal dala (holdout)
validiering
MÅL: FÖRUTSE VÄRDET
C = F(X1,....XN)
Target, värdet vi söker
Funktionen som dm-verktyget ska hitta, predictor function
Indatavariabler, predictors
LLIjär
Tre mest populära tekniker för supervised learning
• RegressionLinjär/icke linjär/logistisk
• Närmsta granne
• Beslutsträd
Linear regressionEnklaste regression har en prediktor och en target:
Y = β_0 + β_1*X
Lutningen och fria termen beräknas inuti datamining-maskinen så att minstakvadratavvikningar av indata X från en beräknad
linje Y(X) är minimerade.
Faran med linjär regression: Anscombes kvartett
Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar mycket annat.
Här åter ser vi vikten att man måste
FÖRSTÅ DITT DATA
K-närmsta grannemetodenExempel: testdata att klassificera/förutse – är det en röd triangel eller en blå rektangel?
Om k =3 är det en triangel: då är det flest trinaglar bland 3 “närmsta grannar” men
Om k =5 är det en rektangel, då det är flest rektanglar bland 5 närmsta instanser av historiskt data.
BRA: Snabbt och lätta att träna.
DÅLIGT: Långsam metod att skora.
Svårt att definiera vad ”nära” är exakt.
BeslutsträdGrafisk representation av ja/nej beslut.
BRA:
Lätta att förstå
Relativt snabbt att träna
Snabb produktionssättningSkalbara
DÅLIGT:
Kan ej hantera komplicerade förhållanden
Fungerar illa om data saknas
POPULÄRASTE METODER FÖR UNSUPERVISED
LEARNING
CLUSTERING
ASSOCIATION RULES
clusteringPoster grupperas tillsammans.Exempel: sortera tvätt. 60 färg
90 vitt bomull handtvätt
Hur tvättar man vit skjorta med röda ränder?
Definition
Clustering can be considered the most important unsupervised learning technique; so, as every other problem of this kind, it deals with finding a structure in a collection of unlabeled data.
Clustering is “the process of organizing objects into groups whose members are similar in some way”.
A cluster is therefore a collection of objects which are “similar” between them and are “dissimilar” to the objects belonging to other clusters.
Distance based method
In this case we easily identify the 4 clusters into which the data can be divided; the similarity criterion is distance: two or more objects belong to the same cluster if they are “close” according to a given distance. This is called distance-based clustering.
Associationsregler
Basket analysis
Det som undersöks är t.ex. följdköp: varan (varor) som köps efter det givna
köpet.
Tomatsås => PastaChips => Cola
Eller (Amazon, skrämmande):
Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).
Vi tar ett litet exempel. Lanthandel, transaktionsdata:
TransID
Mjölk Bröd Smör Öl
1 1 1 0 0
2 0 0 1 0
3 0 0 0 1
4 1 1 1 0
5 0 1 0 0
För att kunna välja intressanta associationer inför vi några
mätvärden:
1.Stöd (support), dvs hur ofta itemset intraffar. { MJÖLK; BRÖD} inträffar 2 gånger av fem, alltså är
supp{MJÖK;BRÖD} = 2/5.
supp{MJÖLK;BRÖD;SMÖR} =1/5
2.Konfidens. conf(X=>Y) definieras som supp(X∪Y)/ supp(X).
Conf({mjölk, bröd} =>{smör}) =0.2/0.4=0.5
Andra mätetal kan introduceras. Vi letar efter regler som har vettigt stöd och relativt stor konfidens (evt minstavärde begränsningar på andra mått).
Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och konfidensvärden för de förväntade reglerna får vara och sedan1.Hitta alla itemsets med stort stöd2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.
GEORGE BOX,Berömd statistiker
http://en.wikipedia.org/wiki/George_E._P._Box
“Alla modeller är felaktiga. Några är dock änvändbara.”
Top Related