babii

26
BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Pengertian Data Menurut Fred McFadden, dkk (Adi Nugroho,ST.,MMSI, 2004): Data adalah fakta tentang sesuatu di dunia nyata yang dapat direkam disimpan pada media komputer. Definisi di atas perlu diperlua mencerminkan realitas yang ada saat ini. Basis data saat ini digunaka menyimpan objek-objek seperti: dokumen, citra fotografi, suara, serta alih-alih hanya teks serta angka pada aplikasi basis data terdahulu. demikian, pengertian ‘data’ dapat diperluas menjadi: fakta, te suara, serta vedio yang bermanfaat di lingkup pengguna. Menurut Abdul Kadir (1998): Data adalah fakta mengenai objek, orang dan lain-lain. Data dengan nilai (angka, deretan karakter, atau simbol). Menurut Bambang Hariyanto (2004): Data adalah rekaman mengenai fenomena/fakta yang ada atau terjadi. 2.1.2 Pengertian Informasi Menurut Adi Nugroho, ST., MMSI (2004): Informasi adalah data yang telah diolah sedemikian rupa sehingga memi makna tertentu bagi pengguna. Menurut Abdul Kadir (1998): Informasi adalah hasil analisis dan sintesis terhadap data. Dengan ka informasi dapat dikatakan sebagai data yang telah diorganisasikan ke bentuk yang sesuai dengan kebutuhan sesorang. 6

Transcript of babii

6

BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Pengertian Data Menurut Fred McFadden, dkk (Adi Nugroho,ST.,MMSI, 2004): Data adalah fakta tentang sesuatu di dunia nyata yang dapat direkam dan disimpan pada media komputer. Definisi di atas perlu diperluas untuk mencerminkan realitas yang ada saat ini. Basis data saat ini digunakan untuk menyimpan objek-objek seperti: dokumen, citra fotografi, suara, serta vedio, alih-alih hanya teks serta angka pada aplikasi basis data terdahulu. Dengan demikian, pengertian data dapat diperluas menjadi: fakta, teks, grafik, suara, serta vedio yang bermanfaat di lingkup pengguna. Menurut Abdul Kadir (1998): Data adalah fakta mengenai objek, orang dan lain-lain. Data dinyatakan dengan nilai (angka, deretan karakter, atau simbol). Menurut Bambang Hariyanto (2004): Data adalah rekaman mengenai fenomena/fakta yang ada atau terjadi. 2.1.2 Pengertian Informasi Menurut Adi Nugroho, ST., MMSI (2004): Informasi adalah data yang telah diolah sedemikian rupa sehingga memiliki makna tertentu bagi pengguna. Menurut Abdul Kadir (1998): Informasi adalah hasil analisis dan sintesis terhadap data. Dengan kata lain, informasi dapat dikatakan sebagai data yang telah diorganisasikan ke dalam bentuk yang sesuai dengan kebutuhan sesorang.

7

Menurut Encyclopedia of Computer Science and Engineering[2] (Abdul Kadir, 1998): Banyak ilmuwan di bidang informasi menerima definisi standar: informasi adalah data yang digunakan dalam pengambilan keputusan. Alasannya adalah bahwa informasi bersifat relatif; relatif terhadap situasi, relatif terhadap waktu saat keputusan diambil, juga relatif terhadap pembuat keputusan, dan bahkan juga terhadap latar belakang pengambil keputusan. 2.1.3 Pengertian Meta Data Menurut Adi Nugroho, ST., MMSI (2004): Meta data adalah data yang menjelaskan data yang lainnya. Penjelasan ini dapat berupa definisi data, struktur data, aturan, serta batasan. Dalam konteks basis data, meta data mengijinkan perancang basis data dan pengguna memahami segala sesuatu tentang data: jenisnya, maknanya, serta karakteristiknya. Meta data sangat penting agar data yang bersangkutan tidak disalah-artikan, tidak memiliki makna yang mendua-arti (ambigu), serta tidak membingungkan. 2.1.4 Pengertian Basis Data Menurut Adi Nugroho, ST., MMSI (2004): Basis data adalah koleksi dari data-data yang terorganisasi dengan cara sedemikian rupa sehingga data mudah disimpan dan dimanipulasi (diperbaharui, dicari, diolah dengan perhitungan-perhitungan tertentu, serta dihapus). Menurut Budhi Kristianto (www. MateriKuliah.Com): Database (Basis data) adalah kumpulan data-data yang tersimpan dalam berbagai table. Menurut Chou[10] ( Abdul Kadir, 1998): Basis data sebagai kumpulan informasi bermanfaat yang diorganisasikan ke dalam tatacara khusus.

8

Menurut Fabbi dan Schwab[1] ( Abdul Kadir, 1998): Basis data adalah sistem berkas terpadu yang dirancang terutama untuk meminimalkan pengulangan data. Menurut Date[3] ( Abdul Kadir, 1998): Basis data dapat dianggap sebagai tempat untuk sekumpulan berkas data terkomputerisasi. Menurut James Martin (Edhy Sutanta, 1995): Basis Data adalah suatu kumpulan data terhubung (interrelated data) yang disimpan secara bersama-sama pada suatu media, tanpa mengatap satu sama lain atau tidak perlu suatu kerangkapan data (controlled redudancy) dengan cara-cara tertentu sehingga mudah untuk digunakan atau ditampilkan kembali; dapat digunakan oleh satu atau lebih program aplikasi secara optimal; data disimpan tanpa mengalami ketergantungan pada program yang akan menggunakannya; data disimpan sedemikian rupa sehingga penambahan, pengambilan dan modifikasi data dapat dilakukan dengan mudah dan terkontrol. Menurut Bambang Hariyanto (2004): Basis Data adalah kumpulan data (elementer) yang secara logik berkaitan dalam merepresentasikan fenomena/fakta secara terstruktur dalam domain tertentu untuk mendukung aplikasi pada sistem tertentu, merupakan kumpulan data yang saling berhubungan yang merefleksikan fakta-fakta yang terdapat di organisasi. 2.1.5 Pengertian Sistem Basis Data Menurut Date (Abdul Kadir, 1998): Sistem basis data pada dasarnya adalah sistem terkomputerisasi yang tujuan utamanya adalah memelihara informasi dan membuat informasi tersebut tersedia saat dibutuhkan. Menurut James F. Courtney Jr. dan David B. Paradice (Edhy Sutanta, 1995): Sistem Basis Data adalah sekumpulan basis data dengan para pemakai yang menggunakan basis data secara bersama-sama, personal-personal yang

9

merancang dan mengelola basis data, teknik-teknik untuk merancang dan mengelola basis data, serta sitem komputer untuk mendukungnya. 2.1.6 Hirarki Data a. Secara tradisional, data diorganisasikan ke dalam suatu hirarki yang terdiri: Berkas

Rekaman

Rekaman

Elemen data

Elemen data Gambar 2.1 Hirarki data

Keterangan: 1.Elemen data / medan / kolom / item / atribut adalah satuan data terkecil yang tidak dapat dipecah lagi menjadi unit lain yang bermakna. 2.Rekaman / tuple / record adalah gabungan sejumlah elemen data yang saling terkait. 3.Berkas adalah himpunan seluruh rekaman yang bertipe sama membentuk sebuah berkas. ( Abdul Kadir, 1998)

b. Penyusunan Sistem Basis Data

10

Sistem Basis Data

Basis Data

File

Record Agregat Data Data Item

Byte

Bit Gambar 2.2 Hirarki data suatu sistem basis data Keterangan: 1.Bit adalah suatu sistem angka biner yang terdiri atas dua macam nilai saja, yaitu 0 dan 1. 2.Byte adalah bagian terkecil yang dapat dialamatkan dalam memory. 3.Rinci data / data item / field / elemen data adalah unit terkecil yang disebut data, merupakan sekumpulan byte/character yang mempunyai makna. 4.Agregat data adalah sekelompok rinci data yang mempunyai ciri tertentu dan diberi nama. Contoh, agregat data bernama tanggal terdiri atas data item hari, bulan dan tahun.

11

5.Record / tuple adalah merupakan sekumpulan data item atau agregat data yang saling berhubungan dengan suatu objek tertentu. 6.File adalah sekumpulan record sejenis secara relasi. 7.Basis data / library adalah sekumpulan dari macam-macam tipe record yang mempunyai hubungan antarrecord, agregat data dan rinci data terhadap suatu objek tertentu. 8.Sistem basis data adalah sekumpulan basis data dalam suatu sistem yang mungkin tidak berhubungan satu sama lain, namun secara umum mempunyai hubungan sistem. (Edhy Sutanta, 1995) 2.1.7 Pengertian Data Warehouse Menurut Adi Nugroho, ST., MMSI (2004): Data warehouse adalah data-data yang beorientasi subjek, terintegrasi, memiliki dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses pengambilan keputusan oleh para manajer di setiap jenjang (namun terutama pada jenjang majanerial yang memiliki peringkat tinggi). Arti setiap kata kunci yang telah disebutkan adalah sebagai berikut: Berorientasi subjek. Data warehouse terorganisasi di seputar subjek kunci (atau entitas-entitas peringkat tinggi) dalam perusahaan. Subjek utama mungkin adalah pelanggan, pasien, mahasiswa, serta produk. Terintegrasi. Data yang tersimpan dalam data warehouse didefinisikan menggunakan konversi penamaan yang konsisten, format-format, struktur terkodekan, serta karakteristik-karakteristik yang berhubungan.

12

Memiliki dimensi waktu. Data yang tersimpan dalam warehouse mengandung dimensi waktu yang mungkin digunakan sebagai rekaman bisnis untuk tiap waktu tertentu (bersejarah).

Non-volatile. Data yang tersimpan dalam data warehouse diambil dari sistem operasional yang sedang berjalan, tetapi tidak dapat diperbaharui (di-update) oleh pengguna (bersifat hanya baca).

Menurut Bill Inmon (terjemahan dari http://en.wikipedia.org/wiki/Data_warehouse, 2007): Data warehouse sebagai berikut 1).Subject-oriented, maksudnya adalah bahwa data di dalam database diorganisir sedemikian sehingga semua elemen data yang berkenaan dengan obyek atau peristiwa dunia nyata yang sama dihubungkan bersama-sama; 2).Time-variant, maksudnya adalah bahwa perubahan pada data di dalam database adalah direkam dan track sedemikian sehingga laporan dapat dihasilkan menurut perubahan waktu; 3).Non-volatile, maksudnya adalah data di dalam database tidak pernah over-written atau dihapus, hanya sekali commit, data adalah statis, read-only, tetapi diperlukan untuk laporan dimasa mendatang; 4).Integrated, maksudnya adalah database berisi data dari semua data aplikasi operasional organisasi, dan bahwa data dibuat konsisten. Menurut Ralph Kimball's (terjemahan dari http://www.dwinfocenter.org : 2007): Data warehouse adalah "suatu salinan data transaksi yang khusus disusun untuk query dan analisa". Menurut terjemahan dari http://www.dwinfocenter.org (2007): Dua penolakan terhadap definisi Ralph's adalah: 1.)Kadang-Kadang data bukan transaksi disimpan pada suatu data warehouse meskipun demikian mungkin 95-99% data pada umumnya adalah data transaksi. 2.)"query dan report" bukannya "query and analysis" sebab keluaran yang utama dari sistem data warehouse adalah berupa daftar bentuk tabel (query) dengan pengaturan minimal atau laporan formal sangat formatted. Query dan report diturunkan dari data menyimpan dalam suatu data warehouse mungkin atau tidak mungkin digunakan untuk analisa.

13

Menurut Bambang Hariyanto (2004): Data Warehouse adalah repository (arsip) informasi yang dikumpulkan dari banyak sumber disimpan pada skema yang disatukan di satu situs tunggal. Begitu dikumpulkan, data disimpan selama waktu yang lama. Data warehouse menyediakan satu antarmuka terkonsolidasi tunggal, mempermudah pembuatan query yang mendukung pembuatan keputusan. Karakteristik data warehouse adalah: 1. Data dikumpulkan dari sumber-sumber lain seperti sistem lama ataupun sistem OLTP. 2. Data dibuat konsisten dengan penyimpanan di data warehouse. 3. Data diringkas. Data warehouse umumnya tidak menyimpan serinci sistem berorientasi transaksi. 4. Data berumur lebih lama. Sistem transaksi dapat mempertahankan data hanya sampai selesainya transaksi, sedangkan data warehouse dapat mempertahankan data sampai bertahun-tahun. 5. Data disimpan dalam suatu format yang nyaman untuk melakukan query dan analisis. 6. Data biasanya read-only. Menurut Julius Hermawan (2004): Data Warehouse merupakan database yang ditujukan untuk keperluan pengambilan data dan penganalisaan data.

Karakterisrtik data warehouse adalah: 1. Data konsisten dan terkonsolidasi, yang berarti data yang berasal dari berbagai sumber sudah disusun dengan konversi bersama sehingga satu

14

nama dalam data warehouse memiliki arti dan format yang sama pada semua database sumber. 2. Data berorientasi pada subjek yang khusus, yang berarti data yang dimasukkan dalam data warehouse adalah data yang benar-benar diperlukan dalam proses pengambilan dan penganalisaan data dalam suatu subjek. 3. Data historis, yang berarti data warehouse berisi data masa lampau yang mungkin berasal dari periode yang sudah lama sekali. 4. Data hanya boleh dibaca, yang berarti tidak akan ada proses pengubahan apalagi penghapusan terhadap data yang sudah masuk ke dalam data warehouse. 2.1.8 Arsitektur Data Warehouse Menurut Adi Nugroho, ST., MMSI, 2004: Arsitektur dasar yang sering digunakan bersama data warehouse adalah yang pertama: arsitektur fisik 2 perangkat untuk pemasukan data; kedua: arsitektur 3 peringkat yang pengunaannya semakin populer pada lingkungan yang lebih kompleks; terakhir: arsitektur data 3 peringkat yang berasosiasi dengan arsitektur fisik 2 peringkat.

a.

Sumber (basis Arsitektur data)

dua peringkatWorkstation Data Warehouse

Sumber (basis data)

Transformasi dan Integrasi

Sumber (basis data) Workstation

Lingkungan Operasional

Lingkungan Informational

15

Gambar 2.3 Arsitektur dasar data warehouse

Sumber (basis data)

Sumber (basis data)

Transformasi dan Integrasi

Data Warehouse

Seleksi dan Agregasi

b.

Sumber (basis Arsitektur data)

Data Warehouse yang DiperluasData Mart Data Mart

Lingkungan Operasional

Workstation

Workstation

Workstation

Lingkungan Informational

16

Gambar 2.4 Arsitektur 3 peringkat Kunci1 c. Arsitektur Data Tiga Lapis AtributData Turunan

Kunci3Metadata Data Mart

Atribut AtributEDW Metadata

Atribut Atribut Model Data Perusahaan Kunci1 Kunci2Data Operasional Data Rekonsiliasi

AtributMetadata Operasional

Kunci3

Kunci4 Gambar 2.5 Arsitektur Data 3 Lapis Kolom Data 2.1.9 Skema Data Warehouse Kolom Menurut adi Nugroho, ST., MMSI, 2004: Data 2.1.9.1 Skema Bintang Kunci2 Atribut Atribut Atribut Kolom Data Kunci4 Atribut Atribut Atribut

17

Produk Kd_Produk Deskripsi Warna Ukuran Kd_Produk Kd_Periode Kd_Toko Gambar 2.6 Unit_Terjual Komponen-komponen Skema Bintang Harga_Penjuala n Biaya Periode Kd_Periode Kd_Produk 2.1.9.2 Variasi-Variasi dari Skema Bintang Kd_Periode Tahuna. Skema Bintang dengan 2 Tabel Fakta Kuartal Kd_Toko Bulan Unit_Terjual Harga_Penjuala n Biaya Penjualan Bulanan

Toko Kd_Toko Nama_Toko Kota Telpon Manajer

Penjualan Harian

18

Kelompok Produk No_Kelomp k Deskripsi Lokasi Produk Kd_Produk Deskripsi No_Kelomp k Warna Ukuran Penjualan Kd_Produk Kd_Periode Toko Kd_Toko Nama_Toko Kota Telpon Manajer

Kd_Toko Gambar 2.7 Skema Bintang dengan 2 Tabel Fakta Unit_Terjual Harga_Penjuala n b. Skema Snowflake Biaya Periode Kd_Periode Tahun Kuartal Bulan

Manajer Nama Alamat Telpon Manajer Toko

19

Gambar 2.8 Skema Snowflake 2.1.10 Pernyataan SQL a. Perintah SQL SELECT sum (f_sales.units_sold) FROM f_sales, d_customer, d_time, d_store, d_product WHERE

20

f_sales.customer_id = d_customer.customer_id AND f_sales.date_id = d_time.date_id AND f_sales.store_id = d_store.store_id AND f_sales.product_id = d_product.product_id AND d_time.year_id = 1997 AND d_product.category_id = "tv" GROUP BY d_product.brand, d_store.country_iso_id b. Equivalent ANSI SQL-92 SELECT sum (f_sales.units_sold) FROM f_sales INNER JOIN d_customer ON d_customer.customer_id = f_sales.customer_id INNER JOIN d_time ON d_time.date_id = f_sales.date_id INNER JOIN d_store ON d_store.store_id = f_sales.store_id INNER JOIN d_product ON d_product.product_id = f_sales.product_id WHERE d_time.year_id = 1997 AND d_product.category_id = "tv" GROUP BY d_product.brand, d_store.country_iso_id SELECT sum (f_sales.units_sold) FROM f_sales INNER JOIN d_customer USING (customer_id) INNER JOIN d_time USING (date_id) INNER JOIN d_store USING (store_id) INNER JOIN d_product USING (product_id) WHERE d_time.year_id = 1997 AND d_product.category_id = "tv" GROUP BY d_product.brand, d_store.country_iso_id c. Alternate ANSI SQL-92 SELECT sum (f_sales.units_sold) FROM

21

f_sales NATURAL JOIN d_customer NATURAL JOIN d_time NATURAL JOIN d_store NATURAL JOIN d_product WHERE d_time.year_id = 1997 AND d_product.category_id = "tv" GROUP BY d_product.brand, d_store.country_iso_id (http://en.wikipedia.org/wiki/Data_warehouse) 2.1.11 Karakteristik Data Rekonsilisasi Menurut adi Nugroho, ST., MMSI, 2004: Data rekonsiliasi ditujukan untuk menyediakan data tunggal yang absah untuk digunakan oleh aplikasi-aplikasi pengambil keputusan. Idealnya data adalah ternormalisasi dengan baik, mencatat perubahannya dalam waktu,

komprehenshif, dan terkedali kualitasnya.

Karakteristik-karakteristik data rekonsilisasi adalah sebagai berikut: Rinci. Data adalah rinci (alih-alih terikhtisarkan), pengguna menyediakan dalam upaya

fleksibilitas

maksimum

untuk

berbagai

menstrukturkannya sehingga sesuai dengan kebutuhan.

22

Bersejarah. Data bersifat periodik untuk menyediakan cara pandang yang mengikutsertakan konsep perubahan dalam waktu.

Ternormalisasi. Data ternormalisasi penuh (yaitu dalam bentu ke-3 atau lebih tinggi). Data yang ternormalisasi menyediakan tingkat integritas data yang tinggi dan fleksibilitas penggunaan yang tinggi dibandingkan data yang tidak ternormalisasi. Denormalisasi, pada data rekonsiliasi, jarang digunakan sebab proses ini tidak terlalu memperbaiki kinerja data warehouse. Selain itu, denormalisasi pada data warehouse juga jarang digunakan sebab data rekonsiliasi umumnya diakses secara periodik menggunakan proses batch.

Komprehensif.

Data

rekonsiliasi

menggambarkan

sudut

pandang

perusahaan secara luas, dimana perancangannya sesuai dengan model data perusahaan. Terkendali kualitasnya. Data rekonsiliasi harus memiliki kualitas yang tidak diragukan serta memiliki integritas tinggi sebab akan diikhtisarkan ke data mart dan digunakan untuk aplikasi pengambilan keputusan tertentu. Perhatikan bahwa karakteristik data rekonsiliasi sangat berbeda dengan data operasional pada umumnya darimana data diturunkan. Data operasional umumnya juga rinci, namun berbeda pada 4 matra (dimensi) seperti yang dijelaskan di bawah ini: Data operasional adalah transien, alih-alih periodik. Data operasional belum tententu ternormalisasi dengan baik. Pada data operasional kadang dilakukan denormalisasi demi perbaikan kinerja akses.

23

Data operasional kurang komprehensif. Data operasional secara umum dibatasi dalam lingkup aplikasi tertentu.

Data operasional sering berkualitas rendah, dengan berbagai jenis ketidakkonsistenan dan kesalahan-kesalahan.

Proses rekonsiliasi data bertanggungjawab untuk mentransformasikan data operasional ke data rekonsiliasi. Karena ada perbedaan yang tajam antara kedua jenis data, pembentukan data rekonsiliasi sangat sukar dan membutuhkan teknik yang canggih saat mengembangkan data warehouse. 2.1.11.1 Proses Rekonsiliasi Data Rekonsiliasi data terjadi dalam 2 tahap selama proses mengisi data warehouse milik perusahaan. Tahap inisialisasi, yaitu saat EDW pertama kali diciptakan. Pembaharuan berkelanjutan (biasanya dalam periode waktu tertentu) untuk memelihara EDW terkini dan/atau untuk mengembangkannya.

Penang kapan

Pember sihan

Transfo rmasi

Pemuat an&ind eksasi

] Rekonsiliasi Data Sistem Operasional Data Warehouse

24

Gambar 2.9 Langkah-langkah rekonsiliasi data Rekonsiliasi data dapat digambarkan sebagai proses seperti yang diperlihatkan pada gambar 2.9, yang mencakup 4 langkah : penangkapan (capture), pembersihan (scrub), transformasi (transform), dan pemuatan dan pemberian indeks (load and index). Pada kenyataannya, langkah-langkah itu dapat dikombinasikan dengan berbagai cara. Misalnya penangkapan data dan pembersihan dapat digabungkan menjadi satu langkah, atau pembersihan dan transformasi dapat juga digabungkan. 2.1.11.2 Penangkapan Mengekstraksi data yang relevan dari berkas sumber dan basisdata yang digunakan untuk mengisi EDW sering dinamakan penangkapan (capture). Dua jenis penangkapan data adalah penangkapan statis (static capture) dan penangkapan berkelanjutan (incremental capture). Penangkapan statis digunakan untuk pengisian awal data warehouse, dan penangkapan berkelanjutan digunakan selama pemeliharaan data warehouse. Penangkapan statis adalah metode untuk menangkap snapshot dari sumber yang dibutuhkan pada suatu titik tertentu. Penangkapan berkelanjutan menangkap hanya perubahan-perubahan yang terjadi pada sumber data sejak penangkapan terakhir. Metode yang paling umum digunakan adalah dengan membuat catatan penangkapan (log capture). Perhatikan bahwa catatan penangkapan mengandung rekaman after image untuk perubahan terkini yang terjadi pada

25

basisdata. Dengan catatan penangkapan, hanya after image yang dicatat setelah penangkapan terakhir dipilih dari catatan. Replikasi snapshot merupakan penyalinan tabel sederhana atau snapshot secara periodik dan dipergunakan untuk sistem pendukung keputusan (DSSDecision Support System) dan warehousing atau mining yang tidak membutuhkan data terkini. Snapshot bekerja sebagai berikut (dengan mengasumsikan lokasi-lokasi yang berbeda akan memperbaharui data yang sama): Pertama, pembaharuan-pembaharuan semua lokasi yang tereplikasi secara periodik dikumpulkan pada lokasi utama. Kemudian dalam beberapa DBMS terdistrubusi, daftar perubahan dibuat untuk mencatat rekamanrekaman pada catatan snapshot (snaphot log) yang merupakan tabel dari pengindentifikasi baris (rekaman) untuk rekaman-rekaman yang mengalami perubahan. Kemudian snapshot hanya bersifat hanya dapat dibaca (readonly) tadi, yang merupakan bagian tereplikasi dari basisdata, diambil dari lokasi utama. Terakhir, snapshot tadi dikirimkan kesetiap lokasi dimana salinannya berada. Ini dinamakan penyegaran penuh (full refresh) basisdata. Alternatif lain, hanya bagian-bagian tertentu yang berubah pada snapshot terakhir yang akan dikirimkan. Ini dinamakan penyegaran terdiferensiasi (diferentiated refresh). 2.1.11.3 Perbaikan/Pembersihan Data pada sistem operasional seringkali berkualitas rendah. Beberapa kesalahan dan ketidakkonsistenan data yang umum adalah sebagai berikut: Kesalahan pengerjaan nama dan alamat.

26

Tanggal lahir yang tidak sah atau berubah. Field-field digunakan untuk kegunaan-kegunaan yang tidak diharapkan sejak semula.

Alamat-alamat serta kode-kode area tidak sesuai. Data yang hilang. Sasaran dari perbaikan data adalah memeriksa kesalahan (error) pada nilai data, sementara sasaran dari transformasi data adalah mengkonversi format data dari sumber ke sistem target. Perhatikan, adalah penting untuk memperbaiki data sebelum ditransformasi karena jika dijumpai kesalahan pada data sebelum ditransformasi, kesalahan-kesalahan itu akan menjalar dan tetap berada dalam data setelah transformasi.

2.1.11.4 Fungsi-Fungsi Transformasi Data Transformasi data mencakup berbagai fungsi yang berbeda. Fungsi-fungsi itu mungkin dapat digolongkan ke dalam 2 kategori : fungsi pada peringkat rekaman dan fungsi pada peringkat field. Pada kebanyakan aplikasi data warehousing, gabungan beberapa fungsi tersebut mungkin dibutuhkan.

Rekaman sumber

Kunci

x

Rekaman target

Kunci

f(x) Gambar 2.10

27

Representasi dasar

Rekaman sumber

Kunci

x

C=5(F-32)/9

Rekaman target

Kunci

Suhu (Celsius)

Gambar 2.11 Transformasi algoritmik

Rekaman sumber

Kunci

Kode Area Kode 021 022 031 Nama Jakarta Bandung Surabaya

Rekaman target

Kunci

Nama Area

Gambar 2.12 Penelusuran field tunggal

2.1.11.5 Fungsi pada Peringkat Rekaman Fungsi pada tingkat rekaman beroperasi pada sejumlah rekaman, seperti berkas atau tabel. Fungsi-fungsi yang penting meliputi: pemilihan (selecting), penggabungan (joining), normalisasi, serta agregasi. Pemilihan adalah proses pemartisian data mengikuti kriteria yang telah didefinisikan sebelumnya. Untuk aplikasi-aplikasi data warehouse, pemilihan

28

digunakan untuk mengekstraksi data yang relevan dari sistem sumber yang akan digunakan untuk mengisi data warehouse. Kenyataannya, pemilihan adalah merupakan bagian dari fungsi penangkapan yang telah dibicarakan sebelumnya. Penggabungan mengkombinasikan data dari berbagai sumber ke dalam tabel tunggal. Penggabungan data adalah fungsi yang sangat penting pada aplikasi data warehouse karena sering diperlukan untuk mengkonsolidasikan data dari berbagai sumber. Penggabungan sering merupakan proses yang rumit karena faktor-faktor di bawah ini: Seringkali data sumber tidak bertipe relasional, dimana pada kasus ini pernyataan SQL tidak dapat digunakan. Untuk itu, pernyataan dengan bahasa-bahasa diaplikasikan. Meski data sumber relasional, kunci primer untuk tabel-tabel yang akan digabungkan sering berada dalam ranah nilai (domain) yang berbeda. Kunci-kunci ini harus direkonsiliasi terlebih dahulu sebelum pernyataan SQL JOIN dapat dilakukan. Data sumber mungkin mengandung kesalahan-kesalahan, yang membuat operasi penggabungan menjadi berisiko tinggi. Normalisasi adalah proses dekomposisi relasi-relasi yang memiliki anomalianomali menjadi relasi-relasi yang lebih kecil dan terstruktur dengan lebih baik. Data sumber dalam sistem operasional sering telah didenormalisasi. pemprograman tertentu harus dibentuk dan

29

Untuk itu, data-data harus dinormalisasi sehingga dapat digunakan untuk transformasi data. Agregasi adalah proses transformasi data dari peringkat rinci menjadi data ikhtisar. Sebagai contoh dalam bisnis ritel, transaksi-transaksi penjualan individual dapat diikhtisarkan untuk menghasilkan total penjualan untuk tiap toko, tiap produk, penjualan pada tanggal tertentu, penjualan pada periode tertentu dan sebagainya. Karena (pada model tertentu) data warehouse hanya memuat data rincian, agregasi tidak berasosiasi dengan komponen itu. Bagaimanapun juga, agregasi adalah fungsi yang penting untuk dalam pengisian data mart. 2.1.11.6 Fungsi pada Peringkat Field Fungsi peringkat field mengkonversi data dari suatu format dari rekaman sumber ke format yang berbeda pada rekaman target. Fungsi-fungsi peringkat field dibagi menjadi 2 jenis, yaitu: field tunggal dan multifield. Transformasi field tunggal mengkonversi data dari field sumber tunggal ke field target tunggal juga. Sebagai contoh terdapat dalam gambar 2.10, gambar 2.11, gambar 2.12 (representasi dasar, transformasi algoritmik, penelusuran field tunggal). Transformasi multifield mengkonversi data dari satu atau lebih field sumber ke satu atau lebih field target. Rekaman sumber Nm_karyawan Alamat Telpon

Rekaman target

Nm_karyawan

NIP

Alamat

30

Gambar 2.13 Relasi banyak ke satu Rekaman sumber Kd_produk Produk Lokasi

Rekaman target

Kd_produk

Merek

nama_Produk Lokasi

Gambar 2.14 Relasi satu ke banyak 2.1.11.7 Kakas Pendukung Transformasi Data Rekonsiliasi data merupakan proses yang rumit dan menantang. Berbagai perangkat lunak aplikasi terintegrasi harus dikembangkan untuk mendukung proses ini. Terdapat 3 kategori kakas tersebut: kualitas data, konversi data, dan pembersihan data. Kakas kualitas data dimaksudkan untuk melakukan penilaian kualitas data dan membandingkannya denga kualitas data yang dibutuhkan oleh data warehouse. Kakas jenis ini sangat bermanfaat selama tahap awal pengembangan data warehouse. Kakas konversi data adalah kakas yang melakukan 3 fungsi utama dalam pengembangan data warehouse. Ketiga fungsi itu adalah: melakukan ekstraksi, mentransformasi, kemudian memuat dan mengatur indeks. Kakas ini merupakan kakas yang dihasilkan oleh program. Mereka menerima

31

masukan berupa skema (atau deskripsi berkas) dari berkas sumber dan berkas target, serta aturan bisnis yang digunakan untuk transformasi data. Aturanaturan bisnis umumnya berupa rumus-rumus, algoritma-algoritma dan tabeltabel pemeriksaan (lookup table). Kakas jenis ini kemudian akan menghasilkan kode program yang akan melakukan fungsi transformasi seperti yang dibutuhkan. Kategori yang terakhir adalah kakas-kakas yang dirancang secara khusus untuk melakukan pembersihan data dan fungsi-fungsi yang terkait. Ada kakas-kakas tertentu yang dirancang untuk melakukan analisis kualitas data, pembersihan data dan rekayasa ulang data (yaitu menyingkapkan aturanaturan bisnis dan relasi-relasi antarentitas).