Data Mining shqip

40
Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Kapitulli 12 Nje Hyrje ne Data Mining Pamje e Pergjithshme e Data Warehousing dhe OLAP

description

Data Mining shqip

Transcript of Data Mining shqip

Page 1: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe

Kapitulli 12

Nje Hyrje ne Data MiningPamje e Pergjithshme e Data Warehousing dhe OLAP

Page 2: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 2

Pamje e pergjithshme e Data Mining Data mining-nxjerrja e informacionit parashikues prej bazave te te

dhenave shume te medha Nje teknologji e re shume e fuqishme me nje potencial te madh per te

ndihmuar kompanite te fokusohen ne informacionin me te rendesishem ne magazinat e tyre te te dhenave (data warehouses).

Teknikat e data mining mund t’i pergjigjen ceshtjeve te biznesit qe tradicionalisht ishin teper time consuming per tu zgjidhur.

Zbulimi i informacionit te ri ne termat e modeleve ose rregullave prej sasive te pafundme te te dhenave.

Procesi i gjetjes se struktures interesante ne te dhenen. Procesi i perdorimit te nje ose me teper teknikave te te mesuarit nga

kompjuteri per te analizuar dhe nxjerre automatikisht njohuri nga e dhena.

Page 3: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 3

Pamje e pergjithshme e Data Mining Ne pergjithesi, data mining (shpesh e quajtur data ose

knowledge discovery) eshte procesi i analizimit te te dhenes nga perspektiva te ndryshme dhe permbledhja e saj ne informacion te dobishem – informacion qe mund te perdoret per te rritur te ardhuren, te ule kostot, ose qe te dyja.

Data mining software eshte nje prej nje numri mjetesh analitike (analytical tools) per te analizuar te dhenat.

Ai lejon perdoruesit te analizojne te dhenat nga dimensione ose kende te ndryshme, t’i kategorizoje ato, dhe te permbledhe relacionet e identifikuar.

Teknikisht, procesi i data mining eshte procesi i gjetjes se lidhjeve reciproke ose modeleve ndermjet nje dyzine fushash ne bazat e medha relacionale.

Page 4: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 4

Pamje e pergjithshme e Data Mining

Kontrollojne (scour) ne bazen e te dhenave per modele te fshehura, duke gjetur informacion parashikues te cilin ekspertet mund ta humbasin sepse gjendet jashte shpresave te tyre.

Teknikat e data mining mund te mplementohen ne menyre te shpejte ne platformat ekzistuese software-ike dhe hardware-ike per te shtuar vleren e burimeve ekzistuese te informacionit dhe mund te integrohen me produkte dhe sisteme te reja.

Page 5: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 5

Themelet e Data Mining

Teknikat e data mining jane rezultat i nje procesi te gjate kerkimesh dhe zhvillimesh produkti.

Ky zhvillim ka filluar kur te dhenat e biznesit u ruajten per here te pare ne kompjuter.

Vazhdoi me permiresimet ne askesimin e te dhenes

Se fundmi me teknologjite qe lejuan perdoruesin te navigoje permes te dhenave ne kohe reale.

Page 6: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 6

Themelet e Data Mining

Data mining eshte gati per aplikimin ne bashkimin e biznesit sepse mbeshtetet nga tre teknologji qe tashme jane mjaft te ezauruara: Massive data collection – bashkesi masive te

dhenash Kompjutera te fuqishem multiprocessor Algoritme te data mining

Komponentet thelbesore te teknologjise se data mining kane qene per shume dekada nen zhvillim, ne fushat e kerkimit te tilla si statistikat, iteligjenca artificiale, dhe machine learning.

Page 7: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 7

Qellimi i Data Minig

Data mining e trashegon emrin prej ngjashmerive midis kerkimit per informacion te vlefshem te biznesit ne nje baze te gjere te dhenash- per shembull, gjetja e produkteve te lidhur ne gigabytet e te dhenave te ruajtura – dhe minimi i nje mali per nje mineral te vlefshem (fig.)

Page 8: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 8

Qellimi i Data Mining

Teknologjija e data mining mund te gjeneroje mundesi te reja te biznesit nepermjet sigurimit te ketyre mundesive: Parashikim i automatizuar i tendencave dhe sjelljeve: data

mining automatizon procesin e gjetjes se informacionit parashikues ne bazat e te dhenave te gjera –marketingu i planifikuar

Zbulimi i automatizuar i modeleve te parakoheshme te panjohur

Kur mjetet e data mining implementohen me performance te larte ne sistemet e perpunimit ne paralel, ato mund te analizojne brenda minutave baza te dhenash masive.

Page 9: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 9

Qellimi i Data Mining

Nje njoftim i fundit i Kerkimit te Teknologjise se Avancuar te grupit Gartner e radhit data mining dhe inteligjencen artificiale ne majen e pese fushave kyce te teknologjise qe “will clearly have a major impact across a wide range of industries within the next 3 to 5 years.”

Page 10: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 10

Qellimi i Data Mining

Data mining konsiston ne pese elementeve kryesore: Nxjerr, transformon, dhe ngarkon transaction data ne

sistemin e data warehouse. Ruan dhe manaxhon te dhenen ne nje multidimensional

database system. Siguron aksesim te dhenash per analistet e biznesit dhe

profesionistet e teknologjise se informacionit. Analizon te dhenat nepermjet programeve te aplikimt. E shfaq te dhenen ne nje format te perdorshem, te tille si

nje graf ose tabele.

Page 11: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 11

Qellimi i Data Mining

Teknikat e perdorura me shume te data mining jane: Rrjetat artificiale neurale- modele parashikuese jo-lineare

qe mesojne nepermjet trainimeve dhe ngjasojne e strukture me rrjetat neurale biologjike

Pemet e vendimeve- struktura qe paraqesin bashkesi vedimesh; gjenerojne rregulla per klasifikimin e bashkesive te te dhenave

Algoritmat e gjenetikes-teknika optimizimi Metoda nearest neighbor Rule induction-zgjerim i rregullave if-then prej te dhenave

bazuar ne kuptimin statistikor

Page 12: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 12

Si punon Data Minig

Data mining eshte e afte te na tregoje gjerat e rendesishme qe nuk i njohim ose ato cfare do te ndodhin me pas, si?

Teknika qe eshte perdorur per te kryer keto akte te rendesishme ne data mining eshte quajtur modelim – modeling

Modelimi eshte thjeshte akti i ndertimit te nje modeli ne nje situate ku e njohim pergjigjen dhe me pas zbatimi i tij ne nje situate tjeter te panjohur.

Page 13: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 13

Nje arkitekture per Data Mining

Per te implementuar sa me mire keto teknika te avancuara, ato duhet te jene plotesisht te integruara me nje data warehouse po ashtu si edhe me mjete analizash interaktive te biznesit.

Shume mjete te data mining konkretisht veprojne jashte warehouse, duke kerkuar hapa te tjera per nxjerrjen, importimin dhe analizimin e te dhenes.

Data warehouse eshte nje pike fillimi ideale qe permban nje kombinim te te dhenave te brendshme

Page 14: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 14

Nje arkitekture per Data Mining

Nje server OLAP (On-Line Analytical Processing) i jep mundesi nje modeli biznesi end-user me te sofistikuar te zbatohet kur navigohet data warehouse.

Strukturat multidimensionale lejojne perdoruesin te analizoje te dhenat ndersa duan te shohin biznset e tij –permbledhje sipas linjes se produktit, rajonit, dhe persektiva kyce te biznest te tyre.

Serveri data mining duhet te integrohet me data warehouse dhe serverin OLAP per te futur analizat e biznesit te fokusuara ne ROI direkt ne kete inrastrukture.

Page 15: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 15

Aplikime te dobishme

Nje numer i madh kompanish kane zhvilluar me sukses aplikime te data mining.

Dy faktore kritike per suksesin me data mining jane: Nje data warehose e gjere, e mire integruar Nje kuptim i mire percaktuar i procesit te biznesit

brenda te cilit data mining do te aplikohet

Page 16: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 16

Aplikime te Data Mining

Marketing Strategji te marketingut dhe sjellje konsumatore

Finance Gjetje e mashtrimeve, creditworthiness dhe

analiza investimesh Prodhim - Manufacturing

Optimizim i burimeve Shendetesi

Analiza imazhesh , efektekte anesore te mjekimeve dhe efektivitet te trajtimit

Page 17: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 17

Qellimi i Data Warehousing Bazat e te dhenave tradicionale nuk jane te optimizuara per aksesim

te dhenash. Ato vetem kane per te balancuar kerkesen e aksesimit te te dhenes me nevojen per te siguruar integritetin e te dhenes.

Pjesen me te madhe te kohes perdoruesit e data warehouse kane nevoje vetem per read access por, kerkojne qe aksesi te jete I shpejte mbi nje volum te madh te dhenash.

Pjesa me e madhe e te dhenave te kerkuara per analizat e data warehouse vijne nga shume baza te dhenash dhe keto analiza jane te shpeshta dhe te afta per te projektuar software specifike qe plotesojne kerkesat.

Ka nje nevoje te madhe per mjete qe pajisin vendim marresit me informacion per te marre vendime shpejt dhe ne menyre te sigurte bazuar ne te dhena historike.

Funksionaliteti I mesiperm realizohet nga Data Warehousing dhe Online analytical processing (OLAP)

Page 18: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 18

Paraqitja, Percaktimi dhe Terminologjia

W. H Inmon e ka karakterizuar nje data warehouse si: “A subject-oriented, integrated, nonvolatile,

time-variant collection of data in support of management’s decisions.”

Page 19: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 19

Paraqitja, Percaktimi dhe Terminologjia

Data warehouses kane karakteristiken dalluese qe jane kryesisht te menduara per aplikimet qe mbeshtesin vendimmarrje. Bazat e te dhenave tradicionale jane operacioale -

transactional. Aplikimet qe mbeshtet data warehouse jane:

OLAP (Online Analytical Processing) eshte nje term I perdorur per te pershkruar analizat e te dhenave komplekse prej data warehouse.

DSS (Decision Support Systems) gjithashtu I njohur si EIS (Executive Information Systems) mbeshtet vendim marresit kryesore te organizates per te marre vendime komplekse dhe te rendesishme.

Data Mining perdoret per zbulimin e njohurive, procesi I kerkimit te te dhenes per njohuri te reja te paparashikuara.

Page 20: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 20

Struktura konceptuale e Data Warehouse

Perpunimi I Data Warehouse perfshin Pastrim dhe riformatim te te dhenes OLAP Data Mining

Databases

Data Warehouse

Cleaning Reformatting

Updates/New Data

Back Flushing

Other Data Inputs

OLAP

DataMining

Data

MetadataDSSIEIS

Page 21: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 21

Krahasimi me Bazat e te Dhenave Tradicionale Data Warehouses jane kryesisht te optimizuara per

aksesimin e pershtatshem te te dhenes. Bazat e te dhenave tradicionale jane operacionale dhe jane te

optimizuara per mekanizmat e aksesimit dhe masat e sigurimit te integritetit njekohesisht.

Data warehouses e ve theksin me teper ne te dhena historike meqe qellimi kryesor I tyre eshte te mbeshtese analizat e serive kohore dhe te tendences.

Krahasuar me bazat e te dhenave operacionale, data warehouses jane nonvolatile.

Ne bazat e te dhenave operacionale transaksioni eshte mekanizmi qe ndryshon bazen e te dhenave. Ne kontrast informacioni ne data warehouse eshte relativisht coarse grained (I trashe) dhe politika e rifreskimit eshte zgjedhur me kujdes, zakoisht incremental.

Page 22: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 22

Karakteristikat e Data Warehouses View konceptuale multidimensionale Dimensionimi I Pergjithshem Dimensione te pakufizuara dhe nivelet aggregation Veprime te pakufizuara cross-dimensional Dynamic sparse matrix handling Arkitekture client-server Mbeshtetje multi-user Aksesueshmeri - Accessibility Transparence - Transparency Manipulim intuitiv I te dhenes Performance e qendrueshme e raportimit Raportim fleksibel

Page 23: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 23

Klasifikimi I Data Warehouses Ne pergjithesi, Data Warehouses jane nje rend I

madhesise (magnitude) me i gjere se burimi I bazave te te dhenave.

Volumi I te dhenes eshte nje ceshtje, bazuar ne te cilen Data Warehouses mund te jete klasifikuar si me poshte. Enterprise-wide data warehouses

Jane projekte gjigande qe kerkojne investime masive te kohes dhe burimeve.

Virtual data warehouses Ato sigurojne views te bazave te te dhenave operacionale qe

jane materializuar per akses eficient. Data marts

Keto jane ne pergjithesi te planifikuara ne nje nenbashkesi te organizates, te tille si nje departament.

Page 24: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 24

Modelimi I te dhenes per Data Warehouses

Bazat e te dhenave tradicionale ne perjithesi kane te beje me te dhena dy-dimenionale (I ngjashem me nje spread sheet). Megjithate, performanca e query-ive ne nje model

ruajtje multi-dimensional te te dhenes eshte shume me teper eficiente.

Data warehouses mund te shfrytezojne kete vecori meqe ne pergjithesi ato jane Non volatile Shkalla e parashikueshmerise se analizave qe do

te realizohen ne to eshte e larte.

Page 25: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 25

Modelimi I te dhenes per Data Warehouses

Example of Two- Dimensional vs. Multi-Dimensional

::

Three dimensional data cube

Product

Fiscal Quarter

Qtr 1 Qtr 2 Qtr 3 Qtr 4

Reg 1P123

P124

P125

P126

Reg 2 Reg 3

Re g i o n

Page 26: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 26

Modelimi I te dhenes per Data Warehouses

Avantazhet e modelit multi - dimensional Modelet multi-dimensionale e cojne veten e tyre

lehtesisht ne view hierarkike e cfare eshte e njohur si roll-up display dhe drill-down display.

E dhena mund te jete direkt e pyetur (queried) ne cdo kombinim dimensionesh, duke kaluar query komplekse te bazes se te dhenave.

Page 27: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 27

Skemat multi -dimensionale

Skemat multi-dimensionale specifikohen duke perdorur: Dimension table

Konsiston ne tuples te atributeve te dimensionit. Fact table

Cdo tuple eshte nje fakt I regjistruar. Ky fakt permban disa variabla uniforme ose te vezhguar dhe i identifikon ato me shenjues ne dimension tables. Fact table permban te dhena, dhe dimensione per te identifikuar cdo tuple ne te dhenen.

Page 28: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 28

Skemat multi -dimensionale

Dy skemat multi-dimensionale me te perdorshme jane Skema Star :

Perbehet nga nje fact table me nje tabele te vetme per cdo dimension.

Skema Snowflake : Eshte nje lloj I skemes star, ne te cilen tabelat

dimensionale prej nje skeme star organizohen ne nje hierarki duke I normalizuar ato.

Page 29: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 29

Skemat multi -dimensionale

Skema Star : Konsiston ne nje fact table me nje tabele te vetme

per cdo dimension.

Page 30: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 30

Skemat multi -dimensionale

Skema Snowflake : Eshte nje lloj I skemes star, ne te cilen tabelat

dimensionale prej nje skeme star organizohen ne nje hierarki duke I normalizuar ato .

Page 31: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 31

Skemat multi -dimensionale

Fact Constellation Fact constellation eshte nje bashkesi tabelash qe

ndajne disa dimension tables. Megjithate, fact constellations kufizojne query-te e mundshme per warehouse.

Page 32: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 32

Skemat multi -dimensionale

Indeksimi Data warehouse perdor gjithashtu indeksimin per

te mbajtur performacen e larte te aksesimit. Nje teknike e quajtur bitmap indexing nderton nje

vektor bitesh per cdo vlere ne domain.

Page 33: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 33

Ndertimi I nje Data Warehouse

Ndertuesit e Data warehouse duhet te kene nje pamje apo kendveshtrim te gjere te shfrytezimit te parashikuar te warehouse. Projekti duhet te mbeshtese ad-hoc querying Nje skeme e pershtatshme duhet te jete zgjedhur

e menyre te tille qe te reflektoje perdorimin e parashikuar.

Page 34: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 34

Ndertimi I nje Data Warehouse

Projektimi I nje Data Warehouse perfshin hapat e meposhtme. Mbledhja e te dhenave per warehouse. Garantimi qe Data Storage ploteson kerkesat e

query-ve ne menyre eficiente. Marrja ne konsiderate te plote e mjedisit ne te cilin

shtrihet data warehouse.

Page 35: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 35

Ndertimi I nje Data Warehouse

Mbledhja e te dhenes per warehouse E dhena duhet te nxirret nga burime te

shumefishta, heterogjene. E dhena duhet te formatohet per konsekuence

brenda warehouse. E dhena duhet te pastrohet per te siguruar

vlefshmerine. Veshtiresi ne auotmatizimin e procesite te pastrimit. Perditesim I te dhenes me ate te pastruar.

Page 36: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 36

Ndertimi I nje Data Warehouse

Ruajtja e te dhenes sipas modelit te te dhenes te warehouse

Krijimi dhe mirembajtja e kerkuar e strukturave te te dhenave

Krijimi dhe mirembajtja e duhur e access paths Sigurimi I te dhenes time-variant sapo te dhena te reja

jane shtuar Mbeshtetje e perditesimit te te dhenes warehouse . Rifreskim I te dhenes Pastrimi i te dhenes

Page 37: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 37

Warehouse kundrejt Data Views View-te dhe data warehouses jane te ngjashme ne ate qe

te dyja kane fragmente read-only prej bazes se te dhenave.

Megjithate, data warehouses jane te ndryshme nga views per sa me poshte: Data Warehouses ekzistojne si ruajtje e perhershme ne ved qe

te jete e materializuar ne kerkese. Data Warehouses zakonisht nuk jane relacionale, por multi-

dimensionale. Data Warehouses mund te jene te indeksuara per t’u

optimizuar. Data Warehouses sigurojne mbeshtetje te vecante te

funksionaliteteve. Data Warehouses merren me volume shume te medha te te

dhenes qe ne pergjithesi ndodhet ne me teper se je baze te dhenash.

Page 38: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 38

Veshtiresite ne Implementimin e Data Warehouses Kerkohet shume kohe ne ndertimin e nje data warehouse

Potencialisht duhen vite per te ndertuar nje data warehouse te mirembajtshme ne menyre eficiente.

Njekohesisht cilesia dhe konsistenca e te dhenes jane ceshtje apo probleme kryesore.

Revising the usage projections regularly to meet the current requirements. The data warehouse should be designed to accommodate

addition and attrition of data sources without major redesign Administration of data warehouse would require far

broader skills than are needed for a traditional database.

Page 39: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 39

Open Issues in Data Warehousing

Data cleaning, indexing, partitioning, and views could be given new attention with perspective to data warehousing.

Automation of data acquisition data quality management selection and construction of access paths and structures self-maintainability functionality and performance optimization

Incorporating of domain and business rules appropriately into the warehouse creation and maintenance process more intelligently.

Page 40: Data Mining shqip

Copyright © 2007 Ramez Elmasri and Shamkant B. Navathe Slide 29- 40

Recap

Purpose of Data Warehousing Introduction, Definitions, and Terminology Comparison with Traditional Databases Characteristics of data Warehouses Classification of Data Warehouses Multi-dimensional Schemas Building A Data Warehouse Functionality of a Data Warehouse Warehouse vs. Data Views Implementation difficulties and open issues