Istra ivanje podataka - Ve be 1 - University of Belgrade · 2020. 2. 25. · Zadatak Zadaci 1Za...
Transcript of Istra ivanje podataka - Ve be 1 - University of Belgrade · 2020. 2. 25. · Zadatak Zadaci 1Za...
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Istraºivanje podatakaVeºbe 1
20. Februar 2020
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Istraºivanje podataka
Istraºivanje podataka je proces automatskog otkrivanjakorisnih informacija u velikom skladi²tu podataka
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Skup podataka i atributi
Skup podataka - kolekcija objekata (slogova, uzoraka,entiteta...)
Atributi - svojstvo ili karakteristike objekata
Vrednosti atributa - brojevi ili simboli koji su pridruºeniatributu
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Podela atributa prema osobinama i operacijama koje moguda se primene
Za podelu se koriste operacije:
1 Razli£itost: = i 6=2 Ure�enje: <, ≤, > i ≥3 Aditivnost: + i −4 Multiplikativnost: ∗ i /
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Podela atributa prema osobinama i operacijama koje moguda se primene
KvalitativniImenski (eng. Nominal) operacije: 1Redni (eng. Ordinal) operacije: 1,2
KvantitativniIntervalni (eng. Interval) operacije: 1,2,3Razmerni (eng. Ratio) operacije: 1,2,3,4
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Podela atributa prema osobinama i operacijama koje moguda se primene
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Podela atributa prema broju vrednosti koji sadrºe
Diskretni atributiImaju kona£an ili prebrojivo beskona£an skup vrednostiBinarni atributi su specijalan slu£aj diskretnih atriubuta
Kontinuirani (neprekidni) atribututiSkup vrednosti ovih atributa £ine realni brojevi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Asimetri£ni (retki) podaci
Jedino se prisustvo ne-nula vrednosti smatra zna£ajnim
Binarni atributi kod kojih su bitne ne-nula vrednosti se zovuasimetri£ni binarni atributi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
1 Za slede�ce atribute odrediti da li su binarni, diskretni ilineprekidni. Tako�e odrediti da li su kvalitativni (imenski iliredni) ili kvantitativni (intervalni ili razmerni).
starost u godinama
Vreme u oznakama AM ili PM
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
1 Za slede�ce atribute odrediti da li su binarni, diskretni ilineprekidni. Tako�e odrediti da li su kvalitativni (imenski iliredni) ili kvantitativni (intervalni ili razmerni).
starost u godinamadiskretan, kvantitativni, razmerni
Vreme u oznakama AM ili PM
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
1 Za slede�ce atribute odrediti da li su binarni, diskretni ilineprekidni. Tako�e odrediti da li su kvalitativni (imenski iliredni) ili kvantitativni (intervalni ili razmerni).
starost u godinamadiskretan, kvantitativni, razmerniVreme u oznakama AM ili PM
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
1 Za slede�ce atribute odrediti da li su binarni, diskretni ilineprekidni. Tako�e odrediti da li su kvalitativni (imenski iliredni) ili kvantitativni (intervalni ili razmerni).
starost u godinamadiskretan, kvantitativni, razmerniVreme u oznakama AM ili PMbinaran, kvalitativni, redni
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenom
uglovi mereni u stepenima
bronzane, srebrne i zlatne medalje osvojene na Olimpijadi
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenima
bronzane, srebrne i zlatne medalje osvojene na Olimpijadi
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenima
bronzane, srebrne i zlatne medalje osvojene na Olimpijadi
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenimaneprekidan, kvantitativan, razmerni
bronzane, srebrne i zlatne medalje osvojene na Olimpijadi
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenimaneprekidan, kvantitativan, razmerni
bronzane, srebrne i zlatne medalje osvojene na Olimpijadi
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenimaneprekidan, kvantitativan, razmerni
bronzane, srebrne i zlatne medalje osvojene na Olimpijadidiskretan, kvalitativan, redni
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenimaneprekidan, kvantitativan, razmerni
bronzane, srebrne i zlatne medalje osvojene na Olimpijadidiskretan, kvalitativan, redni
broj pacijenata u bolnici
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
osvetljenost merena ljudskom procenomdiskretan, kvalitativan, redni
uglovi mereni u stepenimaneprekidan, kvantitativan, razmerni
bronzane, srebrne i zlatne medalje osvojene na Olimpijadidiskretan, kvalitativan, redni
broj pacijenata u bolnicidiskretan, kvantitativan, razmeran
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjiga
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentan
rang u vojsci
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentan
rang u vojsci
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentan
rang u vojsci
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojsci
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojsci
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojscidiskretan, kvalitativan, redni
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojscidiskretan, kvalitativan, redni
rastojanje od centra kampusa
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojscidiskretan, kvalitativan, redni
rastojanje od centra kampusaneprekidan, kvantitativan, razmerni
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojscidiskretan, kvalitativan, redni
rastojanje od centra kampusaneprekidan, kvantitativan, razmerni
broj u garderobi
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
ISBN brojevi knjigadiskretan, kvalitativan, imenski
sposobnost da se prenese svetlost opisana vrednostima:neproziran, delimi£no providan (prozra£an), transparentandiskretan, kvalitativan, redni
rang u vojscidiskretan, kvalitativan, redni
rastojanje od centra kampusaneprekidan, kvantitativan, razmerni
broj u garderobidiskretan, kvalitativan, imenski
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Tipovi skupova podataka
SlogoviMatrica podataka
skup numeri£kih atributa
Podaci u dokumentimaatributi istog tipa, asimetri£ni
Transakcioni podacitransakcija (objekat) - skup stavki
Grafovi
Podaci sa poretkom (eng. Ordered)
Prostorni podaciVremenski (zavisni) podaciRedosledni podaci
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
2 Koja veli£ina ima ve�cu prostornu autokorelaciju: dnevnakoli£ina padavina ili dnevna temperatura?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
2 Koja veli£ina ima ve�cu prostornu autokorelaciju: dnevnakoli£ina padavina ili dnevna temperatura?dnevna temperatura
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
3 Za²to je matrica terma u dokumentima primer skupa podatakakoji ima asimetri£ne diskretne ili asimetri£ne neprekidneosobine (atribute)?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
3 Za²to je matrica terma u dokumentima primer skupa podatakakoji ima asimetri£ne diskretne ili asimetri£ne neprekidneosobine (atribute)?U i. redu i j. koloni matrice £uva se broj poljavljivanja j. termau i. dokumentu. Kako ve�cina dokumenata sadrºi mali deo svihmogu�cih re£i, 0 vrednosti, koje nemaju zna£aja u opisu ipore�enju dokumenata, �ce se pojavljivati u velikom broju. Zatomatrica ima asimetri£ne diskretne osobine. Ako se upotrebinormalizacija nad termima i dokumentima, onda matrica imaasimetri£ne neprekidne atribute.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
�um i elementi van granice
�um predstavlja modi�kaciju originalnih vrednosti
Elementi van granica su objekti sa karakteristikama koje suzna£ajno razli£ite od najve�ceg broja objekata u skupu podataka
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?
Da li objekti koji spadaju u ²um mogu biti elementi vangranica?Da li su objekti koji spadaju u ²um uvek elementi van granica?Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesu
Da li objekti koji spadaju u ²um mogu biti elementi vangranica?Da li su objekti koji spadaju u ²um uvek elementi van granica?Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?
Da li su objekti koji spadaju u ²um uvek elementi van granica?Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?Da
Da li su objekti koji spadaju u ²um uvek elementi van granica?Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?
Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?Ne
Da li su elementi van granica uvek objekti koji spadaju u ²um?Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?NeDa li su elementi van granica uvek objekti koji spadaju u ²um?
Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?NeDa li su elementi van granica uvek objekti koji spadaju u ²um?Ne
Da li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?NeDa li su elementi van granica uvek objekti koji spadaju u ²um?NeDa li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Zadaci
4 Napraviti razliku izme�u ²uma i elemenata van granica.
Da li je ²um interesantan ili poºeljan? Elementi van granica?�um - nije, elementi van granica - jesuDa li objekti koji spadaju u ²um mogu biti elementi vangranica?DaDa li su objekti koji spadaju u ²um uvek elementi van granica?NeDa li su elementi van granica uvek objekti koji spadaju u ²um?NeDa li ²um moºe da pretvori o£ekivanu vrednost u neobi£nu iobrnuto?Da
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Pitanja na koja je potrebno odgovoriti pri planiranjuistraºivanja
Koji problem ºelite da re²ite?
Koji izvori podataka su dostupni i koji su delovi podataka bitniza trenutni problem?
Koju vrstu pretprocesiranja morate da uradite pre nego ²topo£nete da koristite podatke?
Koju tehniku/tehnike istraºivanja podataka �cete koristiti?
Kako �cete proceniti rezultate analize podataka?
Kako �cete dobiti najve�cu korist od informacija koje ste dobiliistraºivanjem podataka?
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining) -metodologija koja se pokazala uspe²nom u industriji.
Faze
1 Razumevanje posla Utvr�ivanje poslovnih ciljeva,odre�ivanje ciljeva istraºivanja podataka.
2 Razumevanje podataka Podaci obezbe�uju sirovine zaistraºivanje podataka. Ova faza se bavi upoznavanjem izvorapodataka i njihovih karakteristika. Uklju£uje prikupljanjepo£etnih podataka, opisivanje podataka, upoznavanjepodataka i proveru kvaliteta podataka.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
CRISP-DM
Faze
3 Priprema podataka Odabir, £i²�cenje, konstruisanje,formatiranje podataka.
4 Modeliranje Kori²�cenje metoda za analizu i dobijanjeinformacija iz podataka. Ova faza uklju£uje odabir tehnika,izgradnju i procenu modela.
5 Evaluacija Procena rezultata, pregled procesa prikupljanjapodataka i odre�ivanje narednih koraka.
6 Razvoj Integracija novih znanja u svakodnevne poslovneprocese kako bi se re²io originalni poslovni problem.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Rad sa podacima u IBM SPSS Modeleru
U£itavanje podataka
Manipulacija podacima
Izvoz rezultata
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Rad sa podacima u IBM SPSS Modeleru
SPSS - Statistical Package for the Social Sciences
Operacije koje se mogu primeniti nad podacima supredstavljene kao £vorovi. Niz povezanih operacija (£vorova) senaziva tok podataka (eng. data stream). Vezama izme�u£vorova odre�uje se pravac toka podataka.
U okviru palete £vorova mogu se izabrati ºeljene operacije(£vorovi).
Jezi£ak CRISP-DM obezbe�uje organizaciju projekta premametodologiji koja se pokazala uspe²nom u industriji.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Baza podataka za potrebe kursa - ip2019
konekcija: student/abcdeftabele u ²emi student:
iris - podaci o perunikama;adult - podaci dobijeni pri popisu; koriste se za predvi�anjezarade;market_basket - podaci o potro²a£kim korpama
tabele u ²emi pekara - podaci o radu pekare
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Atributi skupa podataka iris
sepalwidth - ²irina £a²i£nih listi�ca
sepallength - duºina £a²i£nih listi�ca
petalwidth - ²irina latica
petalength - duºina latica
class - klasa
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
�vor Database
koristi ODBC (Open Database Connectivity)
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
opcije:
Data - u£itavanje podataka iz tabele ili rezultata upitaFilter - odabir atributaTypes - informacije o atributima
Measurement levels - tipValues - interval ili mogu�ce vrednosti atributaMissing - de�nisanje na£ina obrade nedostaju�cih vrednostiCheck - de�nisanje akcije za objekte koji imaju vrednost kojane pripada de�nisanom intervalu ili listi mogu�cih vrednosti uValues
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
Measurement levels - �tip upotrebe �
Default - nepoznat, naj£e²�ce jer jo² nije pro£itanContinuous - neprekidan, numeri£kiCategorical - kategori£ki; nakon £itanja mogu�cih vrednostiprelazi u Flag, Nominal, ili TypelessFlag - binarniNominal - imenskiOrdinal - redniTypeless - za atribute koji imaju jednu vrednost, imenskeatribute sa vi²e vrednosti od dozvoljenog broja (Dozvoljeni brojse moºe promeniti sa koracima: File -> Stream Properties ->Options -> Maximum members for nominal �elds)
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
Values - interval ili mogu�ce vrednosti atributa
< Read > - informacije se u£itavaju pri izvr²avanju £vora< Read+ > - informacije se u£itavaju i dodaju de�nisanim(ako postoje)< Pass > - Ne u£itavaju se informacije< Current > - ostaju de�nisane vrednostiSpecify... - otvara se poseban prozor za de�nisanje vrednosti
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
Check
None - ne menja se vrednost (podrazumevana akcija)Nullify - postavlja se na nullCoerce - vrednost �ce biti preba£ena u legalnu
za Flag - u neta£nu vrednostNominal i Ordinal - u prvu vrednost iz skupaza neprekidne - ako je vrednost ve�ca od gornje granice bi�cezamenjena sa gornjom granicom, a ako je vrednost manja oddonje granice bi�ce zamenjena sa donjom granicom zadatogintervala mogu�cih vrednostinull vrednost za neprekidne atribute se zamenjuje sa srednjomvredno²�cu
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
U£itavanje podataka iz baze podataka
Check
Discard - ceo slog se odbacujeWarn - broj slogova se napravilnim vrednostima se prijavlujeAbort - kada se nai�e na prvi nepravilan slog prijavljuje segre²ka
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Upoznavanje sa podacima
Data Audit - £vor za upoznavanje sa podacimaprikazuje sumarne statistike za atribute i gra�ke sadistribucijom vrednosti po atributimaprikazuje izve²taj o nedostaju�cim vrednostima, elementima vangranica, ekstremnim vrednostima i omogu�cava de�nisanjeakcija za obradu tih vrednosti
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Statistike
Za uzorak od n vrednosti, x1, x2, ..., xnsrednja vrednost (eng. mean) je µ = 1
n
∑i xi
varijansa (eng. variance) je σ2 = 1
n−1
∑i (xi − µ)2
standardna devijacija (eng. standard deviation), mera
disperzije oko srednje vresnosti σ =√
1
n−1
∑i (xi − µ)2
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Statistike
iskrivljenost (eng. skewness) Mera asimetrije distribucije.Normalna distribucija je simetri£na i ima vrednost asimetrije 0.Distribucija sa zna£ajnom pozitivnom asimetrijom ima dugidesni rep. Distribucija sa zna£ajnom negativnom asimetrijomima duga£ak levi rep.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Statistike
spljo²tenost (eng. kurtosis). Mera postojanja ekstremnevrednosti. Za normalnu distribuciju, vrednost spljo²tenosti je 0.Pozitivna vredsnot spljo²tenosti ukazuje na to da podacipokazuju ekstremnije ekstreme od normalne distribucije.Negativna vrednost spljo²tenosti ukazuje da podaci pokazujumanje ekstremne vrednosti od normalne distribucije.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Statistike
Mod (eng. mode) Vrednost koja se naj£e²�ce pojavljuje u skupupodataka.
Medijana (eng. median). Vrednost koja deli slu£ajeve na polanakon sortiranja. Ako postoji paran broj slu£ajeva, medijan jeprosek dva srednja slu£aja kada se sortiraju po rastu�cem iliopadaju�cem redosledu.
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Statistike
Postotna vrednost ili percentil za neki izabrani broj p de�ni²ese po²tuju�ci uslov da je barem p% vrednosti u skupu manje ilijednako toj vrednosti
25. percentil je poznat i kao prvi kvartil (Q1)50. percentil je medijana ili drugi kvartil (Q2)75. percentil je poznat i kao tre�ci kvartil (Q3)interkvartilni raspon (Q3 − Q1)
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Obrada nedostaju�cih vrednosti
Null ili sistemski nedostaju�ce vrednosti - ozna£ene kao $null$
prazne niske i beline - regularne vrednosti, mogu se de�nisatikao blanko vrednosti (£vorovi Database, Types...)
Blanko ili korisni£ki de�nisane nedostaju�ce vrednosti u£vorovima Database, Types... (npr. 99 ili -1)
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Obrada nedostaju�cih vrednosti - metod
Fixed - zamena koriste�ci zadatu vrednost koja je rezultatizabrane statistike ili zadata konstanta
Random - zamena izborom slu£ajne vrednosti
Expression - zamena rezultatom zadatog izraza
Algorithm - zamena kori²�cenjem vrednosti predvi�ene modelomdobijenog algoritmom C&RT.
Generate > Missing Values SuperNode
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Obrada elemenata van granica i ekstremnih vrednosti
Coerce - zamena elemenata van granica i ekstremnih vrednostisa najbliºom vredno²�cu koja se ne smatra elementom vangranica. Npr, ako je element van granice de�nisan kaovrednost iznad ili ispod 3 standardne devijacije, onda bi svielementi van granica bili zamenjeni najve�com ili najmanjomvredno²�cu unutar ovog opsega.
Discard - odbacuju se slogovi sa elementima van granica u tomatributu
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Obrada elemenata van granica i ekstremnih vrednosti
Nullify - zamena elemenata van granica i ekstremnih vrednostisa null ili sistemski nedostaju�com vredno²�cu
Coerce outliers / discard extremes
Coerce outliers / nullify extremes
Generate > Outlier & Extreme SuperNode
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Outline
1 Istraºivanje podataka
2 Atributi
3 Tipovi skupova podataka
4 �um i elementi van granice
5 Razumevanje istraºivanja podataka
6 IBM SPSS Modeler
7 U£itavanje podataka
8 Zadatak
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Primenom IBM SPSS Modeler uraditi:
U£itati skup podataka skupV1.xlxs pomo�cu £vora Excel.
De�nisati da se atribut id ne koristi.Za atribut gender
prazne niske zameniti sa vredno²�cu M
postaviti da je binarnog tipapostaviti da je vrednost F ta£na vrednost
Istraºivanje podataka
Istraºivanje podatakaAtributi
Tipovi skupova podataka�um i elementi van granice
Razumevanje istraºivanja podatakaIBM SPSS ModelerU£itavanje podataka
Zadatak
Primenom IBM SPSS Modeler uraditi:
Za aribut age promeniti gornju granicu u intervalu mogu�cihvrednosti na 100.
U slogovima koji nemaju de�nisano ime, tj. uneti su prazneniske, zameniti praznu nisku sa jednom od niski iz liste (aa, bb,cc). Koristiti funkciju oneof.
Eliminisati slogove koji sadrºe ekstremne vrednosti odre�enemetodom sa kvartilima.
Rezultat sa£uvati u datoteci output.csv.
Istraºivanje podataka