Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z...
Transcript of Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z...
![Page 1: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/1.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 1/22
Dobývání znalostí z databází
(Knowledge Discovery in Databases, Data Mining,
..., Knowledge Destilery, ....)
Non-trivial process of identifying valid, novel,
potentially useful and ultimately understandable
patterns from data (Fayyad a kol., 1996)
Data mining involves the use of sophisticated data
analysis tools to discover previously unknown, valid
patterns and relationships in large data sets
(Adriaans, Zantinge, 1999)
Analysis of observational data sets to find
unsuspected relationships and summarize data in
novel ways that are both understandable and useful
to the data owner (Hand, Manilla, Smyth, 2001)
Data mining is the process of analyzing hidden
patterns of data from different perspectives and
categorizing them into useful information
(techopedia.org, 2011)
Zdroje
databáze (dotazovací jazyky, OLAP), statistika
(analýza dat), umělá inteligence (strojové učení)
![Page 2: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/2.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 2/22
Související pojmy
Machine learning (strojové učení) – část
procesu DZD (modelování), zabývá se
technikami a algoritmy umožňující systému
„se učit“
Data science – termín obdobný data
miningu, není zcela přesně ukotven,
nahrazuje některé starší pojmy (business
analytics)
Umělá inteligence – schopnost strojů
vykazovat inteligentní chování; v současné
době buzzword, tento termín je (neprávem)
spojován především s celou řadou aplikací
hlubokých neuronových sítí
Business intelligence – proces analyzování a
reportování historických dat
![Page 3: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/3.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 3/22
Úlohy dobývání znalostí
Hrubší členění (Klosgen, Zytkow, 1997)
klasifikace/predikce: cílem je nalézt
znalosti použitelné pro klasifikaci nových
případů
deskripce: cílem je nalézt dominantní
strukturu nebo vazby
![Page 4: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/4.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 4/22
hledání „nugetů“: cílem je nalézt dílčí
překvapivé znalosti
Jemnější členění (Chapman a kol, 2000)
deskripce dat a sumarizace
segmentace
deskripce konceptů
klasifikace
predikce
analýza závislostí
detekce odchylek
![Page 5: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/5.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 5/22
Aplikační oblasti pro dobývání znalostí
Segmentace a klasifikace klientů banky (např.
rozpoznání problémových nebo naopak vysoce
bonitních klientů),
Predikce vývoje kursů akcií,
Predikce spotřeby elektrické energie,
Analýza příčin poruch v telekomunikačních sítích,
Analýza důvodů změny poskytovatele nějakých
služeb (internet, mobilní telefony),
Segmentace a klasifikace klientů pojišťovny,
Určení příčin poruch automobilů,
Rozbor databáze pacientů v nemocnici,
Analýza nákupního košíku (Market Basket
Analysis).
![Page 6: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/6.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 6/22
Aplikační oblasti pro dobývání znalostí,
výsledky ankety
• CRM/Consumer analytics, 16.8%
• Finance, 15.2%
• Banking, 14.1%
• Health care, 13.2%
• Fraud Detection, 13.0%
https://www.kdnuggets.com/2018/04/poll-analytics-data-science-ml-applied-2017.html
![Page 7: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/7.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 7/22
Analýza nákupního košíku: pohled na data
![Page 8: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/8.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 8/22
Analýza nákupního košíku: deskripce
![Page 9: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/9.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 9/22
Analýza nákupního košíku: klasifikace
![Page 10: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/10.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 10/22
Standardy pro dobývání znalostí
1. Metodiky
(Marban a kol, 2009)
Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na
proces dobývání znalostí. Název metodiky je
akronymem pro jednotlivé prováděné kroky:
Assess – posouzení potřeb projektu,
Access – shromáždění potřebných dat,
Analyze – provedení analýz,
Akt – přeměna znalostí na akční znalosti,
Automate – převedení výsledků analýzy do praxe.
![Page 11: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/11.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 11/22
Metodika SEMMA Navržená pro Enterprise Miner firmy SAS:
Sample (vybrání vhodných objektů),
Explore (vizuální explorace a redukce dat),
Modify (seskupování objektů a hodnot atributů,
datové transformace),
Model (analýza dat: neuronové sítě, rozhodovací
stromy, statistické techniky, asociace a
shlukování),
Assess (porovnání modelů a interpretace).
![Page 12: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/12.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 12/22
Metodika CRISP-DM V současnosti de-facto standard podporovaný
většinou systémů pro dobývání znalostí
Porozuměníproblematice
Porozuměnídatům
Příprava dat
Modelování
Vyhodnocenívýsledků
Využití výsledkůDATA
Data
Mining
![Page 13: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/13.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 13/22
2. Standardy pro zápis modelů
Predictive Modeling Markup Language
Standard na bázi XML vyvinutý v Data Mining Group
(www.dmg.org), který slouží pro popis dat, datových
transformací, i vytvořených modelů. Základní části
PMML dokumentu:
Header
Data Dictionary
Data Transformations
Model
![Page 14: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/14.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 14/22
<?xml version="1.0" ?>
<PMML version="4.0">
<Header copyright="P.B." description="An example decision tree model."/>
<DataDictionary numberOfFields="5" >
<DataField name="income" optype="categorical" />
<Value value="low"/>
<Value value="high"/>
<DataField name=account" optype= categorical " />
<Value value="low"/>
<Value value="medium"/>
<Value value="high"/>
<DataField name="sex" optype="categorical" >
<Value value="male"/>
<Value value="female"/>
</DataField>
<DataField name="unemployed" optype="categorical" >
<Value value="yes"/>
<Value value="no"/>
</DataField>
<DataField name=loan" optype="categorical" >
<Value value="A"/>
<Value value="n"/>
</DataField>
</DataDictionary>
<TreeModel modelName="loan aproval decision tree" >
<MiningSchema>
<MiningField name=“income"/>
<MiningField name="account"/>
<MiningField name="sex"/>
<MiningField name="unemployed"/>
<MiningField name="loan" usageType="predicted"/>
</MiningSchema>
<Node score="A">
<True/>
<Node score="A">
<SimplePredicate field="income" operator="equal" value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="income" operator="equal" value="low"/>
<Node score="A">
<SimplePredicate field="account" operator="equal"
value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="account" operator="equal"
value="low"/>
<Node score="n">
<SimplePredicate field="unemployed" operator="equal"
value="yes“/>
</Node>
<Node score="A">
<SimplePredicate field="unemployed" operator="equal"
value="no“/>
</Node>
</Node>
</Node>
</Node>
</TreeModel>
</PMML>
![Page 15: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/15.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 15/22
3. Programovací standardy (API)
SQL/MM Data Mining
Standardní rozhranní umožňující přístup z relačních
databází k algoritmům pro data mining
OLE DB for Data Mining
API vyvinuté firmou Microsoft
Java Data Mining
CREATE MINING MODEL CreditRisk
(
CustomerId long key,
Income text discrete,
Account text discrete,
Sex text discrete,
Unemployed boolean discrete,
Loan text discrete predict,
)
USING [Microsoft Decision Tree]
![Page 16: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/16.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 16/22
Systémy pro DZD
pokrývají celý proces dobývání znalostí (od
předzpracování po interpretaci),
nabízejí více algoritmů pro analýzu (než
„jednoúčelové” systémy strojového učení),
kladou důraz na vizualizaci (ve způsobu práce
se systémem i při interpretaci výsledků).
Typy systémů:
Data mining suites - stand-alone tools that
implement a number of data mining and data
pre-processing algorithms (commercial or
free/open_source)
Programming tools -
Cloud solutions – Software As A Service
![Page 17: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/17.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 17/22
Weka
Rapid Miner
![Page 18: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/18.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 18/22
SAS Enterprise Miner
IBM SPSS Modeler (Clementine)
![Page 19: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/19.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 19/22
Gartner Magic Quadrant 2018
![Page 20: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/20.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 20/22
KDnuggets Poll
Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html
![Page 21: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/21.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 21/22
Systémy pro dobývání znalostí
z databází, meziroční nárůst používání
Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html
![Page 22: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí](https://reader033.fdocuments.net/reader033/viewer/2022042921/5f6afd25d6b7596f0e1ba7e6/html5/thumbnails/22.jpg)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 22/22
Systémy pro dobývání znalostí
z databází, trendy
Mezi současnými hlavními trendy je možné
identifikovat:
1. Automatizace celého procesu, zpřístupnění
méně technickým uživatelům
OptiML v BigML
RapidMiner TurboPrep, Auto Model
Weka : Auto-Weka
Kompletní automatizace procesu – Datarobot
2. Rozšiřování cloudových platforem největších
IT hráčů Azure Machine Learning Studio,
Google Cloud Platform, Machine Learning on
AWS