Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
description
Transcript of Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
![Page 1: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/1.jpg)
Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství
Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází
![Page 2: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/2.jpg)
2
Dobývání znalostí z databází - Literatura
Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače
kurzů Metod zpracování informací, 2005, viz soubor
LM_SKRPT.pdf
http://lispminer.vse.cz/
Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366
stran (pro zájemce o hlubší studium)
http://kdnuggets.com (pro zájemce o hlubší studium)
![Page 3: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/3.jpg)
3
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
![Page 4: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/4.jpg)
4
Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány Potřeba předpovídat budoucí trendy a chování Obavy ze ztráty konkurenceschopnosti Snaha o získání konkurenčních výhod …
Úvod – příčiny vzniku DZD
![Page 5: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/5.jpg)
5
Databáze
• relační databáze• datové sklady• OLAP• …
Statistika
Strojové učení
DZD
Úvod – hlavní zdroje pro DZD
• rozhodovací stromy• neuronové sítě • ...
• kontingenční tabulky• regresní analýza• diskriminační analýza• shluková analýza• …
![Page 6: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/6.jpg)
6
široce aplikováno
desítky firem nabízejí software a služby
výuka na vysokých školách
rozsáhlý výzkum
rozvoj nových směrů (text mining, relational data mining, complex
data mining, web mining, … )
integrace s jinými disciplinami (např. se znalostním inženýrstvím)
řada mezinárodních konferencí
http://kdnuggets.com
…
Úvod – současný stav
![Page 7: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/7.jpg)
7
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
![Page 8: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/8.jpg)
8
DZD – základní typy úloh
klasifikace / predikce po naučení na trénovací množině chceme zařazení
(ohodnocení) neznámých objektů
deskripce chceme získat popis vlastností množiny objektů jako
celku
hledání „nugetů“ chceme zjistit zajímavosti, výjimky od normálu
![Page 9: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/9.jpg)
9
DZD – příklady úloh
rozpoznání problémových nebo vysoce bonitních klientů banky
analýza klientů pojišťovny
analýza nákupních košíků
predikce spotřeby elektřiny (vody, plynu)
analýza poruchovosti automobilů
analýza dat o pacientech
analýza příčin změny mobilních operátorů
analýza chování zákazníků internetových obchodů (clickstreamy)
text mining
…
![Page 10: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/10.jpg)
10
DZD – vybrané metody
Asociační pravidla (viz též otázka 9) Klasifikace / predikce
Rozhodovací stromy Rozhodovací pravidla Neuronové sítě
Statistické metody Kontingenční tabulky Regresní analýza Diskriminační analýza Shluková analýza (viz též otázka 4) …
GUHA (viz též otázka 9) …
![Page 11: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/11.jpg)
11
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
![Page 12: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/12.jpg)
12
CRoss Industry Standard Process for Data Mining
CRISP-DM http://www.crisp-dm.org/
Porozuměníproblematice
Porozuměnídatům
Transformacedat
Analyticképrocedury
Interpretacevýsledků
Využitívýsledků DATA
![Page 13: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/13.jpg)
13
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Příklad rozhodovacího stromu
Obecný algoritmus pro tvorbu rozhodovacích stromů
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
![Page 14: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/14.jpg)
14
Příklad rozhodovacího stromu (1)
Dáno: známá data
Úloha:
• dán nový, neznámý klient
• půjčit nebo nepůjčit?
![Page 15: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/15.jpg)
15
Příklad rozhodovacího stromu (2)
Způsob řešení
Daná (trénovací) data
Proces učení Vhodná forma znalosti
Nový, neznámý klient úvěr: ano/ne
![Page 16: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/16.jpg)
16
Příklad rozhodovacího stromu (3)
Způsob řešení
Daná (trénovací) data
Vhodná forma znalosti – rozhodovací strom:
příjem
vysoký nízký
ano kontovysoké
ano
nízké
nestřední
nezaměstnanýano
nene
ano
![Page 17: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/17.jpg)
17
Příklad rozhodovacího stromu (4)
Nový klient
• příjem: nízký
• konto: střední
• nezaměstnaný: ne
Půjčit: ?
Aplikace rozhodovacího stromu: Ano!
![Page 18: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/18.jpg)
18
Příklad rozhodovacího stromu (5)
Nový klient
• příjem: nízký
• konto: nízké
Půjčit: ?
Aplikace rozhodovacího stromu: Ne!
![Page 19: Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství](https://reader031.fdocuments.net/reader031/viewer/2022020921/56814129550346895dad09e8/html5/thumbnails/19.jpg)
19
Obecný algoritmus pro tvorbu rozhodovacích stromů
Dáno:trénovací data Výstup: rozhodovací strom
Algoritmus TDIDT
1. Zvol jeden atribut jako kořen dílčího stromu
2. Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel pro každou podmnožinu
3. Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel postup od bodu 1., jinak skonči
TDIDT = Top down induction of decision tree
metoda „rozděl a panuj“
využití teorie informace a pravděpodobnosti