Temel Bileşenler Analizi -...

25
TEMEL BİLEŞENLER ANALİZİ Principal Component Analysis Zafer CÖMERT www.zafercomert.com [email protected] Bitlis Eren Üniversitesi Mühendislik – Mimarlık Fakültesi Bilgisayar Mühendisliği Bölümü Bölüm İçi Seminerler 03.06.2015

Transcript of Temel Bileşenler Analizi -...

TEMEL BİLEŞENLER ANALİZİ Principal Component Analysis

Zafer CÖMERT www.zafercomert.com

[email protected]

Bitlis Eren Üniversitesi Mühendislik – Mimarlık Fakültesi Bilgisayar Mühendisliği Bölümü

Bölüm İçi Seminerler 03.06.2015

Giriş

ww

w.z

afer

com

ert.

com

3

PCA

Yüz Tanıma

Resim Sıkıştırma

Örüntü Tanıma

Gürültü Giderme

• Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut indirgeme amaçları için kullanılmaktadır. Tanıma, sınıflandırma, boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemidir.

Standart Sapma ve Varyans Standart Sapma Varyans

𝑠2 = Σ𝑖=1𝑛 (𝑋𝑖 − 𝑋)

2

𝑛 − 1

ww

w.z

afe

rco

me

rt.c

om

4

𝑠 = Σ𝑖=1𝑛 (𝑋𝑖 − 𝑋)

2

𝑛 − 1

𝑋 = Σ𝑖=1 𝑛 𝑥𝑖𝑛

Standart sapma, verilerin nasıl yayıldığına (saçıldığına) dair ölçümsel olarak bilgi verir. Veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Standart sapma varyansın kareköküdür.

Varyans verinin yayılımı ile ilgili bir başka ölçüm bilgisi veren kavramdır. Genellikle değişimi ölçmek için kullanılır. Varyans, standart sapmanın karesidir.

Kovaryans

𝑣𝑎𝑟(𝑋) = Σ𝑖=1𝑛 𝑋𝑖 − 𝑋 (𝑋𝑖 − 𝑋)

𝑛 − 1

𝑐𝑜𝑣(𝑋, 𝑌) = Σ𝑖=1𝑛 𝑋𝑖 − 𝑋 (𝑌𝑖 − 𝑌)

𝑛 − 1

ww

w.z

afer

com

ert.

com

5 Olasılık teorisi ve istatistikte, kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. Kovaryans, iki rasgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Standart sapma ve varyans tek boyutlu veriler için kullanılmaktadır. Ancak çoğu zaman veri setleri birden fazla boyuta sahiptir. Kovaryans her zaman iki boyut arasında ölçüm yapmak için kullanılmaktadır.

Kovaryans Matrisi

𝐶 =

𝑐𝑜𝑣(𝑥, 𝑥) 𝑐𝑜𝑣(𝑥, 𝑦) 𝑐𝑜𝑣(𝑥, 𝑧)𝑐𝑜𝑣(𝑦, 𝑥) 𝑐𝑜𝑣(𝑦, 𝑦) 𝑐𝑜𝑣(𝑦, 𝑧)𝑐𝑜𝑣(𝑧, 𝑥) 𝑐𝑜𝑣(𝑧, 𝑦) 𝑐𝑜𝑣(𝑧, 𝑧)

İkiden fazla değişkene bakıldığında kovaryans matris kullanılır. Kovaryans matristeki diyagonal değerler değişkenlerin varyans değerlerine eşittir. Kovaryans matris cov(a,b) = cov(b,a) özelliğinden dolayı simetrik bir yapı sergilemektedir.

ww

w.z

afer

com

ert.

com

6

Özdeğeler ve Özvektörler • Bir vektör üzerine uygulanan matris o vektörün hem

büyüklüğünü hem de yönünü değiştirebilir. Buna rağmen, bir matris bazı belirli vektörler üzerinde etkidiğinde onun büyüklüğünü bir çarpan kadar katlar, yani sadece büyüklüğünü değiştirir, doğrultularını değiştirmez. Doğrultusu değişmeyen bu vektörler söz konusu matrisin özvektörleri olarak ifade edilir. Özvektörler ancak kare matrislerden elde edilebilir.

• Bu nedenle bir özdeğer ve özvektör elde etmek için kovaryans matrisler kullanılmaktadır. Ancak her kare matrisin özvektörleri yoktur.

ww

w.z

afer

com

ert.

com

7

PCA’nın Amaçları

Verilerin Boyutunu Azaltma

Tahminleme Yapma Veri Setini Görüntüleme

ww

w.z

afer

com

ert.

com

8

PCA’nın Amaçları

ww

w.z

afer

com

ert.

com

9

PCA uygulandığında p boyutlu uzayın gerçek boyutu belirlenir.

Bu gerçek boyuta temel bileşenler adı verilir. Temel bileşenlerin üç özelliği vardır:

• Kolerasyonsuzlardır.

• Birinci temel bileşen toplam değişkenliği en çok açıklayan değişkendir.

• Bir sonraki temel bileşen kalan değişkenliği en çok açıklayan değişkendir.

Çok boyutlu verilere doğru açıdan bakarak genellikle verideki ilişkiler açıklanabilir. PCA’nın amacı bu “doğru açıyı” bulmaktadır.

PCA’nın Uygulanışı PCA’da, uygun koordinat sistemi aşağıdaki şekilde aranmaktadır:

1. 1. eksen olarak, verilerin en büyük

değişiminde olan yön seçilir.

2. 2. eksen olarak, önceki 1. eksene dikey olan ve verilerin en büyük değişiminde olan yön seçilir.

3. 3. eksen olarak, önceki 1. ve 2. eksene dikey olan ve kalan verilerin en büyük değişiminde olan yön seçilir.

4. Böyle – her zaman yeni eksen olarak verilerindeki en büyük kalan değişimde olan yön seçilmektedir.

ww

w.z

afer

com

ert.

com

10

• PCA, boyut azaltmada çok faydalı bir yöntemdir.

• PCA, çok boyutlu verileri yaklaşık olarak ve daha az boyutlu veriyle temsil eder.

• PCA, orijinal veriler için dik-olan-en-büyük-varyans-yönleri bulup orijinal verileri bu koordinat sisteminde gösterir.

• PCA, çok boyutlu verilerin görsel gösterilmesi ve incelenmesi için kullanılabilir.

• PCA, makine öğrenmesi olarak, verilerin boyutu azaltabilir–az değişen PCA özellikleri modelleme için önemsiz olabilir, bu şekilde modelleme ile ilgili hesaplama hızlandırabilir.

• PCA, veri sıkıştırma için de kullanılabilir.

PCA

ww

w.z

afer

com

ert.

com

11

• Köşegen şeklindeki varyans matrisi, ilişkili verilerindeki farklı yönde değişim ya da genişliği belirtiyor. Temel bileşen analizi matematiksel anlamda, verilerin varyans matrisinin özdeğerleri problemi çözüp, özvektörleri yeni PCA koordinat sistemi olarak kullanır. Bu yeni koordinat sistemine göre, öncelikle önemli olan verilerdeki yönleri daha önce gösterilir, çok boyutlu karmaşık verilerin yapısı grafik şeklinde incelenebilir.

PCA

ww

w.z

afer

com

ert.

com

12

Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının Belirlenmesi

ww

w.z

afer

com

ert.

com

13

Elektrokardiyografi, kardiyovasküler rahatsızlıklara tanı koyma ve değerlendirme amacıyla yaygın olarak kullanılmaktadır. Kalp hızı, ventriküler aksiyon potansiyelinin en önemli belirleyicisidir. Bu nedenle QT aralığı kalp hızıyla ters orantılı olacak şekilde değişmektedir. QT aralığının hesaplanma ve düzeltme gereği bu durumdan kaynaklanmaktadır. Bu çalışmada, sentetik elektrokardiyografi sinyalleri, bir önişleme sürecinden geçirilmiş ve temel bileşenler analizi ile sinyal üzerindeki gürültülerin azaltılması sağlanmıştır. Daha sonra sinyal özellikleri çıkarılıp son olarak QT aralıkları Bazett yöntemiyle ile belirlenmiştir.

Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının Belirlenmesi

ww

w.z

afer

com

ert.

com

14

ECGSYN

Önişleme

PCA

Bazett

ECGSYN, sentetik EKG sinyalleri üretmek için üç boyutlu, dinamik bir modeldir. Zamansal ve spektral parametreler ile gerçeğe yakın EKG sinyalleri üretmek için kullanılmıştır.

Genellikle önişleme adımlarının amacı, daha doğru analiz ve ölçüm için işaretlerin sinyal-gürültü oranını optimize etmektir. Alçak-geçiren filtre kesim frekansı 15-40 Hz, yüksek geçiren filtre kesim frekansı 0.05-0.5 Hz arasında kullanılmıştır.

PCA, veriyi yeniden temsil etmek için en anlamlı tanımlamayı yapmaya çalışır. Amaç kovaryans matrisin büyüklüğünü ölçerek fazlalıkları minimize etmek ve varyans ölçümü ile sinyali maksimum derecede temsil etmektir.

QT aralığı QRS kompleksin başlangıcından T dalgasının sonuna kadar olan uzaklığı kapsar ve kalp hızı ile olan bağımlılığı nedeniyle düzeltilerek bildirilir. Düzeltme için Bazett formülü kullanılmıştır.

15

RR Spektral

Parametreleri

RR Zamansal

Parametreleri

Rastgele Sayı

Çekirdeği

EKG Morfolojik

Parametreleri

Örneklenmiş RR fint

Atımların

oluşturulması RR

aralığı ve ilişkisel

açısal frekanslar

3D Dinamik Sistem

için Hareket

Denklemi

Runge-Kutta

dördüncü dereceden

entegrasyonu

Örneklenmiş EKG fecg

ECGSYN

16

𝑆 𝑓 = 𝜎12

2𝜋𝑐12 𝑒𝑥𝑝

(𝑓 − 𝑓1)2

2𝑐12 +

𝜎22

2𝜋𝑐22 𝑒𝑥𝑝

(𝑓 − 𝑓2)2

2𝑐22 𝑆 𝑓 =

𝜎12

2𝜋𝑐12 𝑒𝑥𝑝

(𝑓 − 𝑓1)2

2𝑐12 +

𝜎22

2𝜋𝑐22 𝑒𝑥𝑝

(𝑓 − 𝑓2)2

2𝑐22

ECGSYN İndeks (i) P Q R S 𝑻− 𝑻+

Zaman (sn) −0.2 𝛼 −0.05𝛼 0 0.05𝛼 0.277 𝛼 0.286 𝛼

𝜃𝑖 (radyan)

−𝜋 𝛼

3

−𝜋𝛼

12

0 𝜋𝛼

12 5𝜋𝛼

9−𝜋 𝛼

60

5𝜋 𝛼

9

𝛼𝑖 0.8 −5.0 30.0 −7.5 0.5𝛼2.5 0.75𝛼2.5

𝑏𝑖 0.2𝛼 0.1𝛼 0.1𝛼 0.1𝛼 0.4𝛼−1 0.2𝛼

17

EKG Modelinin Morfolojik Parametreleri ile Modülasyon Faktörü 𝜶 = 𝒉𝒎𝒆𝒂𝒏/𝟔𝟎

18

Tanımlama Notasyon Varsayımlar

Yaklaşık kalp atım sayısı N 256

EKG örnekleme frekansı 𝑓𝑒𝑐𝑔 256 Hz

İç örnekleme frekansı 𝑓𝑖𝑛𝑡 512 Hz

Tek düze gürültünün genliğe katkısı A 0.1mV

Kalp hızı ortalaması ℎ𝑚𝑒𝑎𝑛 60 bpm

Kalp hızı standart sapması ℎ𝑠𝑡𝑑 1 bpm

Alçak frekans 𝑓1 0.1 Hz

Yüksek frekans 𝑓2 0.25 Hz

Alçak frekans standart sapma 𝑐1 0.1 Hz

Yüksek frekans standart sapma 𝑐2 0.1 Hz

LF/HF oranı 𝛾 0.5

EKG Modelinin Zamansal ve Spektral Parametreleri

ECGSYN

ww

w.z

afer

com

ert.

com

19

Önişleme

ww

w.z

afer

com

ert.

com

20

• Genellikle önişleme adımlarının amacı, daha doğru analiz ve ölçüm için işaretlerin sinyal-gürültü oranını optimize etmektir.

• EKG üzerindeki gürültülerin giderilmesi için alçak-geçiren süzgeçlerin kesim frekansının 15-40 Hz arasında olması güvenli olarak kabul edilir. Taban çizgisi dolaşımının giderilmesi için yüksek-geçiren bir süzgecin kesim frekansı ise genellikle 0.05-0.5 Hz arasında kullanılmaktadır.

Temel Bileşenler Analizi • Temel bileşenler analizi tanıma,

sınıflandırma, boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemdir ve temelinde tekil değer ayrışımı (Singular Value Decomposition, SVD) yer almaktadır.

• SVD bir matrisi, üç matris şeklinde ayrıştırmaktadır. Bu sürecin sonunda taban çizgi dolaşım sorunları giderilmiş ve PCA ile sinyal gürültüsünün azaltılması sağlanmıştır.

ww

w.z

afer

com

ert.

com

21

Temel Bileşenler Analizi •𝑠12+𝑠2

2+𝑠32+𝑠4

2

𝑠𝑖2𝑛

𝑖=1> 0.97

• Denklemde 𝑠𝑖 değerlerinin

her biri 𝑆 matrisinin elemanlarını temsil etmektedir ve tekil değerleri tutmaktadır.

ww

w.z

afer

com

ert.

com

22

• 𝐄𝐊𝐆 = 𝐔𝐒𝑽𝑻

• Denklemde EKG, PCA sonrası elde edilmiş sinyali, S giriş sinyali ile aynı boyutta, elemanların büyükten küçüğe sıralandığı ve pozitif değerler taşıdığı diyagonal matrisi, U ve V ise üniter matrisleri temsil etmektedir. ([𝑺𝟏, 𝑺𝟐, … , 𝑺𝒏]𝒅𝒊𝒂𝒈, 𝑺𝟏 > 𝑺𝟐 > ⋯ > 𝑺𝒏)

ww

w.z

afer

com

ert.

com

23

QT Analizi

Özellik Normal Değer Normal Limit

QTc aralığı 400ms ∓40ms

T genliği 0.3mV ∓0.2mV

24

T P

Q

𝜶 = 𝒉𝒎𝒆𝒂𝒏/𝟔𝟎

𝑸𝑻𝒄 = 𝑸𝑻 + 𝟎. 𝟏𝟓𝟒(𝟏 − 𝑹𝑹)

Bazett’s formülü

His demetinden, sinyal lifleri kalbin bölümlerine giden sol ve sağ dal demetlerine bölünür. EKG’de bu Q dalgası olarak temsil edilir. Sinyal geçtikçe karıncık duvarları dinlenir ve sonraki sinyal için hazırda bekler. EKG’de karıncıkların dinlenmesi T dalgası ile ifade edilir.

QT Aralığı

𝑄𝑇𝑐𝐵𝑎𝑧𝑒𝑡𝑡 = 𝑄𝑇/ 𝑅𝑅

𝑄𝑇𝑐𝐹𝑟𝑖𝑑𝑒𝑟𝑖𝑐𝑖𝑎 = 𝑄𝑇/ 𝑅𝑅3

𝑄𝑇𝑐𝐹𝑟𝑎𝑚𝑖𝑛𝑔ℎ𝑎𝑛 = 𝑄𝑇 + 0.154. (1 − 𝑅𝑅)

𝑄𝑇𝑐𝐻𝑜𝑑𝑔𝑒𝑠 = 𝑄𝑇 + 1.75(HR − 60)

ww

w.z

afer

com

ert.

com

25

Kaynaklar 1. G. D. Clifford, F. Azuaje and P. E. McSharry, Advanced Methods and

Tools for ECG Data Analysis, Boston, London: Artech House, 2006.

2. P. D. B. İlerigelen, Pratik Yaklaşımla EKG, İstanbul: Nobel Tıb Kitabevleri, 2012.

3. J. E. Hall, Guyton Tıbbi Fizyoloji, İstanbul: Nobel Tıp Kitapbevleri, 2014.

4. P. E. McSharry, G. D. Clifford, L. Tarassenko and L. A. Smith, "A Dynamical Model for Generating Synthetic Electrocardiogram Signals," IEEE Transactions on Biomedical Engineering, vol. 50, no. 3, pp. 289-294, 2006.

5. R. Gupta, M. Mitra and J. Bera, ECG Acquisition and Automated Remeto Processing, London: Springer India, 2014.

6. PhysioNet, "ECGSYN: A realistic ECG waveform generator," 05 01 2012. [Online]. Available: http://www.physionet.org/physiotools/ecgsyn/. [Accessed 01 01 2015].

7. A. Seliger and L. B. Hansen, Characterization and Discrimination of Pathological Electrocardiograms using Advanced Machine Learning Methods, Kongens Lyngby: DTU, 2013.

8. S. Chaudhuri, T. D. Pawar and S. Duttagupta,Ambulation Analysis in

Wearable ECG, London: Springer, 2009.

9. Q. Xue and S. Reddy, "Algorithms for Computerized QT Analysis," in Proceedings of the 22nd Annual ISCE Conference, Kyoto, 1998.

10. H. Zhang and L.-Q. Zhang, "ECG analysis based on PCA and Support Vector Machines," in Neural Networks and Brain, 2005. ICNN&B '05. International Conference, Beijing, 2005.

11. G. Akbaş Avcu, Pediatri Asistanlarının ve İntörnlerin EKG Bilgi Düzeyi ve Buna Etki Eden Faktörlerin Belirlenmesi ile EKG Eğitimi Sonrasındaki Değişimin Ortaya Konması, İzmir: Ege Üniversitesi Tıp Fakültesi, 2011.

12. A. H. Jonsdottir, Statistical analysis of ECG signals with focus on QT, Kongens Lyngby: Technical University of Denmark, 2005.

13. S. Wong, G. Kervio, M. Altuve, F. Carre and G. Carrault, "Comparing Six QT Correction Methods in an Athlete Population," in Computing in Cardiology, Krakow, 2012.

ww

w.z

afer

com

ert.

com

26