(FIXED) Modul I Decomposition and Smoothing Data Analysis

21
Modul I Decomposition and Smoothing Data Analysis Oleh: Muhammad Rafi Al-Hariri Nasution / 12812035 I. Pendahuluan Prosedur dekomposisi digunakan dalam suatu time-series untuk memisahkan suatu sinyal seperti trend dan seasonal dalam time-series itu sendiri. Lebih luas lagi, dekomposisi juga termasuk dalam siklus panjang, mingguan, atau harian, dsb. Namun pada modul ini kita akan fokus pada trend dan seasonal decomposition. Tujuan utama dalam dekomposisi adalah mengestimasi efek musiman yang digunaan untuk membuat dan menyajikan nilai musiman yang disesuaikan. Nilai musiman yang telah disesuaikan akan menghilangkan efek musman dari suatu nilai sehingga trend dapat terlihat lebih jelas. Contohnya, banyak wilayah di U.S., pengangguran akan berkurang saat musim panas karena meningkatnya jumlah pekerjaan di sector pertanian. Sehingga, menurunnya jumlah pengangguran di bulan Juni jika dibandingkan dengan bulan Mei tidak dibutuhkan untuk melihat trend jumlah pengangguran pada umumnya, karena jumlah ini terpengaruh pada musim summer saja. Untuk melihat adanya “Trend” yang sesungguhnya, kita perlu untuk mendekomposisi nilai tersebut dengan menghilangkan nilai musimannya. II. Moving Average HadCRUT3 monthly global surface air temperatures since 1850 (left panel). HadCRUT3 annual global surface air temperatures since 1850 (centre). HadCRUT3 annual global surface air temperatures since 1850 smoothed with a 21-point binomial filter (right panel). All diagrams were downloaded from the Hadley Center 7 March 2009.

Transcript of (FIXED) Modul I Decomposition and Smoothing Data Analysis

Page 1: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Modul I Decomposition and Smoothing Data Analysis

Oleh: Muhammad Rafi Al-Hariri Nasution / 12812035

I. Pendahuluan

Prosedur dekomposisi digunakan dalam suatu time-series untuk memisahkan suatu sinyal seperti trend dan seasonal dalam time-series itu sendiri. Lebih luas lagi, dekomposisi juga termasuk dalam siklus panjang, mingguan, atau harian, dsb. Namun pada modul ini kita akan fokus pada trend dan seasonal decomposition.

Tujuan utama dalam dekomposisi adalah mengestimasi efek musiman yang digunaan untuk membuat dan menyajikan nilai musiman yang disesuaikan. Nilai musiman yang telah disesuaikan akan menghilangkan efek musman dari suatu nilai sehingga trend dapat terlihat lebih jelas. Contohnya, banyak wilayah di U.S., pengangguran akan berkurang saat musim panas karena meningkatnya jumlah pekerjaan di sector pertanian. Sehingga, menurunnya jumlah pengangguran di bulan Juni jika dibandingkan dengan bulan Mei tidak dibutuhkan untuk melihat trend jumlah pengangguran pada umumnya, karena jumlah ini terpengaruh pada musim summer saja. Untuk melihat adanya “Trend” yang sesungguhnya, kita perlu untuk mendekomposisi nilai tersebut dengan menghilangkan nilai musimannya.

II. Moving Average

HadCRUT3 monthly global surface air temperatures since 1850 (left panel).  HadCRUT3 annual global surface air temperatures since 1850 (centre). HadCRUT3 annual global surface air temperatures since 1850 smoothed with a 21-point binomial filter (right panel). All diagrams were downloaded from the Hadley Center 7 March 2009.

Smoothing data-series adalah teknik biasa dalam sains, banyak textbook yang menjelaskan tentang beberapa pendekatan untuk Smoothing ini. Banyaknya data pada suatu data-series, akan menjadikannya sulit untuk direpresentasikan karena terlihat seperti noise atau gangguan. Banyaknya data yang serupa dalam data Geofisika seperti Meteorologi dan Klimatologi, menjadikan Smoothing atau filtering menjadi penting sehingga kita dapat merepresentasikan confusing data tersebut.

Adapun tipe Smoothing data yang sederhana adalah Moving Average atau Running Mean atau yang biasa disebut dengan rata-rata berjalan. Moving Average dapat dihitung dengan menjumlah N jumlah data dan membagikannya dengan N jumlah (biasanya merupakan bilangan ganjil). Adapun formula dari Moving Average adalah sebagai berikut.

Page 2: (FIXED) Modul I Decomposition and Smoothing Data Analysis

MAn=∑i=1

n

Di

n

Dimana,

n = Periode yang dibutuhkan dalam moving average

Di = Data dalam periode i

Berikut adalah contoh dari Moving Average dengan jumlah data 12, dan dirata-ratakan per tiga dan lima bulan.

1 1 3 2 2 4 3 3 5 4 4 65/3 2 7/3 8/3 3 10/3 11/3 4 13/3 14/3

9/5 12/5 14/5 14/5 17/5 19/5 19/5 22/5

Contoh lain terkait Moving Average dengan menggunakan data temperature permukaan secara global dapat dilihat dari gambar berikut.

Gambar I. Global Surface Temperature mean by time for each month

Page 3: (FIXED) Modul I Decomposition and Smoothing Data Analysis

III. Harmonik Analisis

Analisis dalam domain frekuensi melibatkan penyajian data-series dalam artian kontribusi dibuat pada skala waktu yang berbeda. Contoh, data suhu perjam dalam satu deret waktu tertentu dapat merepresentasikan siklus diurnal serta siklus annual (pemanasan karena gerak semu matahari). Jika kita memiliki data 1 tahun tiap jam, artinya terdapat 24x365 = 8760 jam time-series data. Jika dilihat pada domain frekuensi, kita dapat melihat kontribusi dari variabilitas waktu pada periode 24 jam dan 8760 jam, atau frekuensi 1/24 = 0.04174 perjam (representasi dari siklus diurnal) atau 1/8760 = 0.000114 perjam (representasi dari siklus annual).

Harmonik Analisis terdiri dari representasi fluktuasi atau variasi dalam suatu time-series data yang muncul dari berbagai fungsi sinus dan kosinus suatu data. Fungsi Trigonometri ini merupakan sesuatu yang harmonic dalam arti bahwa mereka terpilih karena mereka memiliki frekuensi yang menunjukkan adanya kelipatan suatu bilangan bulat pada frekuensi yang ditentukan pada pengambilan suatu ukuran sampel data-series.

Jika kita memiliki suatu data time-series seperti diatas (garis berwarna hitam), sebenarnya data tersebut dapat dibangun dari beberapa fungsi sinus dan cosinus.

Pada Harmonik Analisis, kita perlu mengetahui bagaimana bentuk alami dari sinus (sin(α)) dan cosinus (cos(α)) dimana nilai fungsi ini bergantung pada besarnya nilai α dalam satuan sudut yang merujuk pada derajat ataupun radian. Berikut merupakan bentuk sinus dan cosinus pada rentang 0 hingga 360o (0 ke 2π)

Page 4: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Mengingat bahwa keduanya merupakan fungsi periodic. Cosinus bernilai maximum pada 0o, 360o, dan seterusnya, dan sinus maksimum pada 90o, 450o, dan seterusnya. Sehingga kita dapat menyimpulkan bahwa

Cos (α-π/2) = sin (α)

dan

Sin (α+π/2) = cos (α)

Konsep Dasar Representasi Time-series dengan Fungsi Harmonis

Bahkan dalam suatu time-series sederhana, fungsi kosinus dan sinus dapat ditemukan, namun untuk mengeksekusi suatu siklus pada n pengamatan, 3 kesulitan dasar harus diselesaikan agar fungsi kosinus dan sinus dapat merepresentasikan data tersebut.

1) Fungsi trigonometri menggunakan sudut, sedangkan data dalam bentuk time-series

Solusi: α= 3600

cyclejumlahwaktudalam satuanunit

jumlahobservasiwaktu persiklus= t

n3600= t

n2π

Adapun frekuensi dasar dapat didefinisikan sebagai

ω1=2 πn

Kuantitas ini merupakan frekuensi angular, yang memiliki dimensi fisis dalam radian per satuan waktu. Frekuensi angular ini menggambarkan siklus penuh dan jumlah unit n dalam satuan waktu.

2) Sinus dan kosinus berada pada rentang -1 dan +1 sedangkan data bisa berada jauh diatas itu.

Solusi: Pada suatu fungsi sinus dan kosinus, kita dapat menambah besar amplitude yang akan membuat range nilai semakin tinggi. Jika amplitude A = 5, maka nilai sinus dan kosinus akan berada disekitar -5 dan +5 variatif berdasarkan besar sudut ataupun waktu.

Page 5: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Adapun kita dapat menambahkan nilai y yang merupakan nilai rata-rata time-series data. Sehingga, kita akan mendapatkan bahwa

Y t= y+C 1cos ( 2 πtn )

3) Fungsi sinus dan kosinus berada pada nilai α = 0 dan α = 2π. Namun, bagaimana jika kondisi ini tidak cocok terhadap kondisi aslinya?

Solusi: Penambahan fasa sangat perlu dilakukan ketika suatu fungsi ternyata tidak cocok untuk mendekati nilai tersebut, sehingga kita dapat menuliskan suatu fungsi baru dengan suatu penambahan besar fasa ф1 sebagai berikut.

Y t= y+C1cos ( 2 πtn

−ф1)

Gambar III. Contoh bagaimana pengurangan atau penambahan fasa dapat mengestimasi suatu nilai dengan baik.

Page 6: (FIXED) Modul I Decomposition and Smoothing Data Analysis

IV. Empirical Mode Decomposition (EMD)

Empirical Mode Decomposition (EMD) adalah sebuah metode yang dikembangkan oleh Norden Huang di NASA sebagai bagian dari Hilbert-Huang Transformasi. Aslinya, EMD dikembangkan untuk menghitung frekuensi yang terukur saat itu juga dari suatu data non-linear dan non-stasioner (Huang, 1998). Namun, dikarenakan banyaknya fenomena alam yang juga merupakan proses nonlinear dan non-stationary, metode ini mulai digunakan untuk banyak data sains termasuk data-data Meteorologi dan Iklim (Peel 2005 dan McMahon 2008)

Jika dibandingkan dengan teknik dekomposisi lain seperti Fourier analisis, Wavelet atau bahkan Principle Componen Analysis (PCA), EMD memiliki lebih banyak keunggulan karena ini dapat menangani suatu data time-series yang nonlinear dan non-stationary. Dikarenakan dekomosisi didasarkan pada karakteristik skala waktu lokal dari data, EMD dapat mengkomputasi proposi dari suatu variasi dalam time-series yang dapat dikaitkan pada fluktuasi (baik rendah ataupun frekuensi yang tinggi) pada skala waktu yang berbeda (McMahon, 2008). Dengan demikian, penggunaan EMD dalam analisis klimatologi dapat berguna karena banyaknya data klimatologi seperti intensitas curah hujan, suhu, kelembaban, dsb yang bersifat nonlinear dan non-stasioner.

Dengan menggunakan metode EMD, suatu time series data akan didekomposisi kedalam beberapa komponen yang independen dan tidak berkolerasi satu dengan lainnya. Komponen ini biasa disebut sebagai Intrinstic Mode Functions (IMFs). Bagian akhir IMF merupakan sisa atau trend dari seluruh time-series. Jika semua IMF dan semua sisanya dijumlahkan kembali, maka data asli akan terbentuk kembali.

Contoh: Data ketinggian Geopotensial pada ketinggian 700 dan 30 mb.

Page 7: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Figure IV-I. Top. The total geopotential height at 30 hPa and 700 hPa spatially averaged over 20◦N to 90◦N. Bottom. The decomposition of the 30 hP (left) and 700 hPa (right)geopotential height produces five modes and a trend. The first mode is the annual cycle. The second mode is the extratropical QBO, with an average period of 28 months. The third ENSO-like mode has an average period around four years and the fourth mode is highly correlated with the 11-yr sunspot cycle. We refrain from commenting on the 22-yr mode found since the data record contains only two periods of this oscillation. The trend in recent decades indicates cooling in the troposphere and warming in the stratosphere. This is consistent with the anticipated effect of increasing greenhouse gases. Figure taken from Coughlin, K. T., and K. K. Tung, 2004: 11-year solar cycle in the stratosphere extracted by the empirical mode decomposition method. Adv. Space Res., 34, 323–329 with permission.

Berdasarkan (Huang, 1998), IMF adalah suatu fungsi yang memenuhi 2 kondisi: (1) dalam keseluruhan satuan data, jumlah nilai extrim dan minimum yang bertentangan haruslah bernilai sama atau sangat berbeda satu dengan lainnya, dan (2) pada suatu titik, rata-rata nilai dari nilai maksimum dan minumnya adalah bernilai 0. Secara teoritis, tiap-tiap IMF merupakan orthogonal dan tidak berkorelasi.

(Huang, 2005), prosedur untuk memperoleh IMF dengan EMD terdiri dari beberapa step yang dapat dirangkum sebagai berikut.

Setiap data, mengidentifikasi seluruh lokal maksimum dan kemudian menghubungkan semua lokal maksimum dengan sebuah persamaan garis cubil spline sebagai upper envelope. Ulangi prosedur untuk lokal minimum sehingga kita memperoleh lower envelope. Bagian upper dan lower envelope harus meng-cover seluruh data diantara mereka. Langkah selanjutnya adalah menghitung rata-rata dari upper dan lower envelope (ml) dan perbedaan diantara data dan ml. Hasilnya adalah komponen first proto-IMF (PIMF) atau hl. Ulangi proses dengan menggunakan hl hingga data PIMF mencapai stoppage criteria. Kriteria stop mirip dengan Tes Konvergensi Cauch.

Page 8: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Ketika suatu fungsi telah mencapai kriteria stopnya, komponen ini ditunjuk sebagai IMF pertama atau cl. IMF pertama ini kemudian dikurangi dengan sisa data untuk mendapatkan data sisanya. Sisa tersebut kemudian digunakan untuk mengurangi data asli sehingga diperoleh IMF selanjutnya. Prosedur ini diulangi terus menerus hingga didapatkan IMF terakhir. Residual mungkin konstan, trend-monoton, atau tidak komplit (≤3 extrema) dengan fluktuasi periode lebih panjang daripada panjang data itu sendiri (McMahon 2008). Proses untuk mendapatkan IMF ini dinamakan sebagai Sifting process.

Univ-Delaware Temperature IMFs at Tarakan (1961 - 1990)

1961 1966 1971 1976 1981 1986-1

-0.5

0

0.5

1

Year

Tem

pera

ture

( C

)IMF-4

1961 1966 1971 1976 1981 1986-1

-0.5

0

0.5

1

Year

Tem

pera

ture

( C

)

IMF-3

1961 1966 1971 1976 1981 1986-2

-1

0

1

2

Year

Tem

pera

ture

( C

)

IMF-2

1961 1966 1971 1976 1981 1986-2

-1

0

1

2

Year

Tem

pera

ture

( C

)

IMF-1

Figure II.1 Example of intrinsic mode function (IMF-4) from Univ. of Delaware temperature data at Tarakan.

Contoh dari salah satu IMF ditunjukkan pada gambar diatas. Gambar ini merepresentasikan sebuah osilasi mode sebagai salah satu banding terhadap fungsi harmonic sederhana, namun dapat lebih digeneralisasikan. Dapat dilihat bahwa osilasi IMF tersebut bergerak disekitar nilai 0, sesuai dengan definisinya pada lokal maksimum dan minimum.

IMF juga memiliki arti fisis karena sifat skalanya yang didefinisikan oleh data fisis. Kita dapat melihat mode Diurnal, Annual, Seasonal, Interdecadal, Sun spot (11 tahunan), dsb bergantung pada panjang data itu sendiri.

Page 9: (FIXED) Modul I Decomposition and Smoothing Data Analysis

V. Langkah Kerja

V.1 Running Mean 1) Sintesis dan Normalisasi data sintesis dengan periode 5, 10, 15 dan jumlah bilangan

gelombang untuk setiap Periode.

2) Dekomposisi masing-masing sinyal sesuai dengan periode yang telah didefinisikan, plot gambar

Page 10: (FIXED) Modul I Decomposition and Smoothing Data Analysis

V.2 Emphirical Mode Decomposition1) Sintesis dan Normalisasi data yang sama

Page 11: (FIXED) Modul I Decomposition and Smoothing Data Analysis

2) Gunakan fungsi EMD.m dan plot hasil IMFnya

V.3 Harmonic Analysis1) Sintetis dan normalisasi data seperti gambar berikut.

Page 12: (FIXED) Modul I Decomposition and Smoothing Data Analysis

2) Definisikan Himpunan X yang akan diisi dengan pendekatan fungsi sinus kosinus untuk setiap bilangan gelombang (total n/2 gelombang)

3) Dengan pendekatan Multiple Linear Regression (MLR), akan didekati nilai Amplitudo dan fasa gelombang

Page 13: (FIXED) Modul I Decomposition and Smoothing Data Analysis

4) Estimasi nilai Yi dengan jumlah bilangan gelombang (n/2); Plot gambar dengan menggunakan script berikut.

5) Running program, analisis!

Page 14: (FIXED) Modul I Decomposition and Smoothing Data Analysis

REFERENCES

http://www.climate4you.com/DataSmoothing.htm

Coughline, Katie et all.2005. EMPIRICAL MODE DECOMPOSITION OF CLIMATE VARIABILITY. University of Washington

Draper, N. R., and H. Smith. Applied Regression Analysis. Hoboken, NJ: Wiley-Interscience, 1998. pp. 307–312.

Doherty, Sarah J., and Coauthors, 2009: Lessons Learned from IPCC AR4: Scientific Developments Needed to Understand, Predict, and Respond to Climate Change. Bull. Amer. Meteor. Soc., 90, 497–513.

Huang, N. E., Shen, Z., Long, S. R., Wu, M. C., Shih, S. H., Zheng, Q., Tung, C. C., and Liu, H. H. 1998: The empirical mode decomposition method and the Hilbert spectrum for non-stationary time series analysis. Proc. Roy. Soc. London, A454, 903–995.

Huang, Norden E., 2005: Introduction to Hilbert-Huang Transform and Some Recent Developments. In: The Hilbert-Huang Transform in Engineering [Huang N. E. and Attoh-Okine N. O. (eds.) CRC Press

International Arctic Science Committee/IASC (Lead Author), Sidney Draggan (Topic Editor), 2010: Statistical downscaling approach and downscaling of AOGCM climate change projections. In: Encyclopedia of Earth. Eds. Cutler J. Cleveland (Washington, D.C.: Environmental Information Coalition, National Council for Science and the Environment). [First published in the Encyclopedia of Earth February 8, 2010; Last revised Date February 8, 2010; Retrieved November 3, 2010 http://www.eoearth.org/article/Statistical_downscaling_approach_and_downscaling_of_AOGCM_climate_change_projections

Juneng, Liew, Fredolin T. Tangang, Hongwen Kang, Woo-Jin Lee, Yap Kok Seng, 2010: Statistical Downscaling Forecasts for Winter Monsoon Precipitation in Malaysia Using Multimodel Output Variables. J. Climate, 23, 17–27.

Kang, Hongwen, Chung-Kyu Park, Saji N. Hameed, Karumuri Ashok, 2009: Statistical Downscaling of Precipitation in Korea Using Multimodel Output Variables as Predictors. Mon. Wea. Rev., 137, 1928–1938.

Li, H., J. Sheffield, and E. F. Wood (2010), Bias correction of monthly precipitation and temperature fields from Intergovernmental Panel on Climate Change AR4 models using equidistant quantile matching, J. Geophys. Res., 115, D10101, doi:10.1029/2009JD012882.

Li, Yun, Ian Smith, 2009: A Statistical Downscaling Model for Southern Australia Winter Rainfall. J. Climate, 22, 1142–1158.

McMahon, Thomas A., Anthony S. Kiem, Murray C. Peel, Phillip W. Jordan, Geoffrey G. S. Pegram, 2008: A New Approach to Stochastically Generating Six-Monthly Rainfall Sequences Based on Empirical Mode Decomposition. J. Hydrometeor, 9, 1377–1389.

Page 15: (FIXED) Modul I Decomposition and Smoothing Data Analysis

Peel, M. C., G. E. Amirthanathan, G. G. S. Pegram, T. A. McMahon, and F. H. S. Chiew, 2005: Issues with the application of empirical decomposition analysis. Proc. MODSIM 2005 Int. Congress on Modelling and Simulation, Melbourne, Australia, Modelling and Simulation Society of Australia and New Zealand, 5 pp.

Randall, D.A., R.A. Wood, S. Bony, R. Colman, T. Fichefet, J. Fyfe, V. Kattsov, A. Pitman, J. Shukla, J. Srinivasan, R.J. Stouffer, A. Sumi and K.E. Taylor, 2007: Climate Models and Their Evaluation. In: Climate Change 2007: The Physical Science Basis. Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change [Solomon, S., D. Qin, M. Manning, Z. Chen, M. Marquis, K.B. Averyt, M.Tignor and H.L. Miller (eds.)]. Cambridge University Press, Cambridge, United Kingdom and New York, NY, USA.

Rilling G., P. Flandrin and P. Gonçalves, 2003: On Empirical Mode Decomposition and its algorithms. IEEE-EURASIP Workshop on Nonlinear Signal and Image Processing NSIP-03, Grado (I)

Salathé , Eric P. Jr, 2005: Downscaling Simulations of future Global Climate with Application to Hydrologic Modeling International Journal of Climatology. Int. J. Climatol. 25: 419–436 (2005)

Timbal, B., P. Hope, S. Charles, 2008: Evaluating the Consistency between Statistically Downscaled and Global Dynamical Model Climate Change Projections. J. Climate, 21, 6052–6059.

Widmann, Martin, Christopher S. Bretherton, Eric P. Salathé, 2003: Statistical Precipitation Downscaling over the Northwestern United States Using Numerically Simulated Precipitation as a Predictor*. J. Climate, 16, 799–816.

Wilks, Daniel S.2006. Statistical Methods in The Atmospheric Sciences. Oxford University, United Kingdom