Apa Pengertian Data Wrehouse ?
A data warehouse is a relational database that is designed for query and analysis rather than for transaction processing. It usually contains historical data derived from transaction data, but can include data from other sources. Data warehouses separate analysis workload from transaction workload and enable an organization to consolidate data from several source his helps in: Maintaining historical records Analyzing the data to gain a better understanding of the business and to improve the business(Paul Lane 2007).
Dalam buku Oracle Guidance Paul Lane menulis bahwa data warehouse adalah database relasional yang dirancang untuk query dan analisis dari pada untuk pemrosesan transaksi. Biasanya berisi data historis yang berasal dari data transaksi, tetapi dapat mencakup data dari sumber lain. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan suatu organisasi mengkonsolidasikan data dari beberapa sumber. Ini membantu dalam:Memelihara data historical dan Menganalisis data untuk mendapatkan pemahaman yang lebih baik tentang bisnis dan untuk meningkatkan bisnis.
Sedangkan Ferdiana berpendapat bahwa data warehouse adalah sebuah konsep serta kombinasi teknologi yang memberikan fasilitas pada suatu organisasi dalam pengelolaan serta pemeliharaan data historis yang didapatkan dari sistem maupun aplikasi operasional (Ferdiana 2008).
Sedangkan Ferdiana berpendapat bahwa data warehouse adalah sebuah konsep serta kombinasi teknologi yang memberikan fasilitas pada suatu organisasi dalam pengelolaan serta pemeliharaan data historis yang didapatkan dari sistem maupun aplikasi operasional (Ferdiana 2008).
Dari beberapa pendapat tersebut dapat di definisikan bahwa data warehouse adalah kumpulan dari data histori transaksi dari berbagai sumber data, dan platform. Data-data tersebut diintegrasikan melalui suatu mekanisme extract, transform, loading (ETL). Sehingga kumpulan data tersebut berguna untuk keperntingan analisa bisnis dan data mining.
Gambar1: Data Warehouse Environment
Gambar 1 adalah data warehouse environment. Data dari beberapa data source bahkan dengan berbeda platform diintegrasikan melalui proses ETL yang berada pada staging area. Kemudian data tersebut dimasukkan dalam data warehouse skema dalam bentuk data mart. Sehingga kemudian bisa digunakan untuk proses reporting, mining dan kepeluan analitik lainnya.
Dalam skema data warehouse ada proses ETL. ETL adalah kepanjangan dari extracting, transforming and loading. ETL mencakup fase pemrosesan data dari sumber data (basis data) untuk masuk ke dalam data warehouse. Ada pun tujuan dari ETL adalah menyaring, mengolah, dan menggabungkan data yang relevan dari berbagai sumber data untuk disimpan kedalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap yaitu:
1. Extract, Tahapan pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sumber data. Kebanyakan proyek data warehouse menggabungkan data dari sumber- sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.
2. Transform, Tahap transform menerapkan suatu set aturan untuk mentransformasi data dari sumber data menjadi data tujuan. Termasuk diantaranya mengkonversi data-data ukuran (measure) kedalam dimensi yang sama menggunakan unit yang sama sehingga suatu saat dapat digabungkan (join). Langkah-langkah transformasi dapat berupa penggabungan data dari beberapa sumber data, menghasilkan data agregat, pengurutan, menurunkan nilai-nilai hasil kalkulasi yang baru atau pun menerapkan aturan validasi yang kompleks.
3. Load, Di tahapan loading, penting untuk memastikan bila kinerja proses loading data berjalan dengan benar dan menggunakan sumber daya sekecil mungkin. Target dari proses loading umumnya adalah sebuah basis data. Agar proses loading berjalan efisien, me-non aktifkan semua constraint dan indeks sebelum proses loading dan mengaktifkan kembali keduanya setelah proses loading data akan sangat membantu meningkatkan kinerja proses loading. Referential integrity harus dijaga oleh perangkat lunak ETL untuk menjamin konsistensi data.

No comments:
Post a Comment