T.C. TRAKYA ÜN VERS TES FEN B L MLER ENST TÜSÜhaydut.isikun.edu.tr/theses/yildirim08.pdf · T.C....
Transcript of T.C. TRAKYA ÜN VERS TES FEN B L MLER ENST TÜSÜhaydut.isikun.edu.tr/theses/yildirim08.pdf · T.C....
T.C.
TRAKYA ÜN�VERS�TES�
FEN B�L�MLER� ENST�TÜSÜ
Türkçe Derlemlerdeki Artgönderimlerin
Tümdengelimli ve Tümevar�ml�
Yöntemlerle Çözümlenmesi
Sava³ YILDIRIM
Doktora Tezi
Bilgisayar Mühendisli§i Anabilim Dal�
Dan�³man: Yrd. Doç. Dr. Y�lmaz KILIÇASLAN
T.C.
TRAKYA ÜN�VERS�TES�
FEN B�L�MLER� ENST�TÜSÜ
Türkçe Derlemlerdeki Artgönderimlerin Tümdengelimli ve Tümevar�ml�
Yöntemlerle Çözümlenmesi
Sava³ YILDIRIM
Doktora Tezi
Bilgisayar Mühendisli§i Anabilim Dal�
Bu tez ... / ... / 2008 tarihinde a³a§�daki jüri taraf�ndan kabül edilmi³tir.
Jüri
Dan�³man: Yrd. Doç. Dr. Y�lmaz KILIÇASLAN
Yrd. Doç. Dr. Erdem UÇAR Yrd. Doç. Dr. Rafet AKDEN�Z
Yrd. Doç. Dr. Y�lmaz ÇAN Yrd. Doç. Dr. Özlem UÇAR
Özet
Bu tez çal�³mas�nda Türkçe Artgönderim Problemi çe³itli yakla³�mlar �³�§�nda
ele al�nm�³t�r. Bilgi tabanl� tümdengelimli yöntemlerle, ö§renme tabanl� tüme-
var�ml� yöntemler birbirleriyle çe³itli aç�lardan kar³�la³t�r�lm�³t�r. Belirginlik Ta-
banl� yakla³�m ile Merkezleme Algoritmas�, bilgi tabanl� yöntemleri de§erlendir-
mek için ele al�nm�³t�r. Makine Ö§renme algoritmalar�ndan karar a§açlar�, naïve
Bayes algoritmas�, k-en yak�n kom³u algoritmas�, Destek Vektör makineleri ve
alg�lay�c�lar artgönderim problemine uygulanm�³t�r. Baz� Türkçe metinlerdeki
artgönderimsel ili³kiler bilgisayarl� bu modellerle az bilgi kullan�larak çözüm-
lenmi³ ve deney sonuçlar�na dayanarak birçok bulgu sunulmu³tur. Bu alanda
Türkçe için yap�lan çal�³malar�n azl�§� sebebiyle ara³t�rmac�lar taraf�ndan kul-
lan�lan ortak bir derlem bulunamam�³t�r. Bu nedenle 10000 kelime kapasiteli
1114 ad�l içeren bir derlem yarat�lm�³t�r. Çe³itli deneylerle bu derlem üzerin-
deki gönderimsel ili³kilerin davran�³� analiz edilmi³tir. Deney sonuçlar�n� de§er-
lendirebilmek için derlemdeki gönderimsel ili³kiler elle i³aretlenmi³tir. Kapsam
olarak ad�lsal artgönderim, dönü³lü artgönderim, bo³ artgönderim ve kar³l�l�kl�
artgönderim tipleri ele al�nm�³t�r. Bu tezin temel amac� Türkçe Artgönderim
Çözümlemesi için az bilgili ve bilgisayarl� yakla³�mlar sunmak, bu yakla³�m-
lar� birbirleriyle k�yaslamak ve bu problemin bilgisayarl� çözümlenmesi için bir
tart�³ma ba³latmakt�r.
Anahtar Kelimeler: Artgönderim Çözümlemesi, Bilgisayarl� Dilbilim, Ma-
kine Ö§renmesi
Abstract
In this study, the problem of anaphora resolution in Turkish is addressed in
the light of various approaches. Knowledge-based deductive methods and
learning-based inductive methods are compared from various points of view.
The salience-based approach and the centering algorithm are chosen as
examples of knowledge-based methods to evaluate. Of machines learning
algorithms, decision trees, the naïve Bayes algorithm, the k-nearest neighbor
classi�er, support vector machines, and the voted perceptron are chosen and
applied to the problem of anaphora resolution. Anaphoric relations in some
Turkish texts are resolved by means of these computational techniques in a
knowledge-poor framework and numerous �ndings are presented as results of
the experiments.Since there is no publicly released corpus on which we can
conduct our experiment, we needed to create a Turkish corpus- with the
capacity of 10000 tokens and of 1114 pronouns- in which anaphoric relations
are mannually annotated. Pronominal anaphora, re�exive anaphora, null
pronoun, and reciprocals are in the scope of this study. So, main goal of the
study is to provide a computational resolution for the turkish language, to
compare deductive and inductive approaches, and to start a discussion about
the problem.
Keywords: Anaphora Resolution, Computational Lingusitics, Machine
Learning
TE�EKKÜR
Bu tez çal�³mas� süresince her türlü katk�y� sa§layan ve sonsuz enerjisiyle beni
destekleyen dan�³man�m Yrd. Doç. Dr. Y�lmaz K�l�çaslan'a, tez çal�³mas�nda
beraber çal�³t�§�m Edip Serdar Güner'e, Bilgi Üniversitesinde beraber
çal�³t�§�m Tu§ba Y�ld�z'a, Trakya Üniversitesi Bilgisayar Mühendisli§i
Bölümüne ve bu tezi tamamlamam için bana gereken f�rsat� ve motivasyonu
veren Bilgi Üniversitesi ve Bilgi Üniversitesi Bilgisayar Bilimleri Bölümüne
sonsuz te³ekkürlerimi sunar�m.
�çindekiler
1 G�R�� 1
1.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Artgönderim ve Önemi . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Artgönderim Çal�³malar� . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Kapsam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 D�LB�L�MSEL ARKAPLAN 8
2.1 Artgönderim Biçimleri . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Ad�lsal Artgönderim . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Dönü³lü Artgönderim . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Bo³ Artgönderim . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Sözlüksel Ad Öbe§i Artgönderimleri . . . . . . . . . . . . 12
2.1.5 Kar³�l�kl� Artgönderim (Reciprocal) . . . . . . . . . . . . 13
2.1.6 Bo³ Adsal Artgönderim . . . . . . . . . . . . . . . . . . . 13
2.2 Yan Tümcelerde Artgönderim . . . . . . . . . . . . . . . . . . . 14
2.3 Di§er Dilbilimsel Artgönderim Çal�³malar� . . . . . . . . . . . . 15
2.3.1 Ba§lama Kuram� (Binding Theory) . . . . . . . . . . . . 15
2.3.2 Givon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 Fox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.4 Merkezleme Teorisi . . . . . . . . . . . . . . . . . . . . . 19
i
2.4 Türkçe için Dilbilimsel Artgönderim Çal�³malar� . . . . . . . . . 19
3 B�LG�SAYARLI ARTGÖNDER�M ÇALI�MALARI 26
3.1 Artgönderim Çözümleme Süreçleri . . . . . . . . . . . . . . . . . 26
3.2 Bilgi Tabanl� (Knowledge-Based) Artgönderim Çözümleme Ça-
l�³malar� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Hobbs'un Algoritmas�(Hobbs's Naive Algorithm) . . . . . 30
3.2.2 Merkezleme Teorisi ve Algoritmas� (Centering Teory) . . 34
3.2.3 BFP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.4 Lappin ve Leass'in Sözdizim Tabanl� Yakla³�m� . . . . . 37
3.2.5 Kennedy ve Boguraev'in Yöntemi . . . . . . . . . . . . . 38
3.2.6 Baldwin's Cogniac . . . . . . . . . . . . . . . . . . . . . 39
3.2.7 MARS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Ö§renme Tabanl� Artgönderim Çözümleme Çal�³malar� . . . . . 42
3.3.1 Artgönderim �çin Ö§renme Süreçleri . . . . . . . . . . . 42
3.3.2 Di§er Dillerdeki Ö§renme Tabanl� Çal�³malar . . . . . . 44
3.4 Türkçe için Bilgisayarl� Artgönderim Çözümleme Çal�³malar� . . 46
4 TÜRKÇE �Ç�N ARTGÖNDER�M ÇÖZÜM DENEMELER� 48
4.1 Derlem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Gönderimsel �fadelerin Tespiti . . . . . . . . . . . . . . . . . . . 51
4.3 Bilgi Tabanl� Çözüm Önerileri . . . . . . . . . . . . . . . . . . . 53
4.3.1 Merkezleme Tabanl� Çözüm Önerisi . . . . . . . . . . . . 54
4.3.2 Belirginlik Tabanl� Çözüm Önerisi . . . . . . . . . . . . . 62
4.4 Ö§renme Tabanl� Çözümler . . . . . . . . . . . . . . . . . . . . 70
4.4.1 E³le³me . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Kullan�lan Veri Madencili§i Teknikleri . . . . . . . . . . 71
4.4.3 Sonuçlar . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
ii
5 DENEY SONUÇLARININ DE�ERLEND�R�LMES� 92
6 SONUÇ 104
6.1 Amaç . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 Yöntem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 Sonuçlar ve Bulgular . . . . . . . . . . . . . . . . . . . . . . . . 105
iii
�ekil Listesi
3.1 Birinci tümcenin sözdizim a§ac� . . . . . . . . . . . . . . . . . . 31
3.2 �kinci tümcenin sözdizim a§ac� . . . . . . . . . . . . . . . . . . . 32
3.3 Ayr�³t�rma A§ac� . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1 Derlem Girme ve Güncelleme Arayüzü . . . . . . . . . . . . . . 51
4.2 Merkezleme Yakla³�m�n�n Ak�³ Diagram� . . . . . . . . . . . . . 55
4.3 K-en yak�n kom³u algoritmas� . . . . . . . . . . . . . . . . . . . 72
4.4 Karar A§ac� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.5 Destek Vektör Makineleri - KDM . . . . . . . . . . . . . . . . . 75
4.6 Yapay Sinir A§lar� . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.7 A³�r� Uyma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1 Belirginlik Temelli Yakla³�m Gösterimi . . . . . . . . . . . . . . 96
iv
Tablo Listesi
2.1 AÖ S�n�f�land�rma Tablosu . . . . . . . . . . . . . . . . . . . . . 16
3.1 Merkezdeki De§i³iklikler . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Belirgenlik Türleri ve A§�rl�klar� . . . . . . . . . . . . . . . . . . 38
3.3 Ö§renme Veritaban� . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1 Öncüllerdeki �sim Hallerinin Olu³ma S�kl�§� . . . . . . . . . . . . 57
4.2 Senaryolar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Etkenler ve A§�rl�klar� . . . . . . . . . . . . . . . . . . . . . . . 66
4.4 Aday Öncüllerin A§�rl�kland�r�lmalar� . . . . . . . . . . . . . . . 67
4.5 Ba§�l Önem Tablosu . . . . . . . . . . . . . . . . . . . . . . . . 68
4.6 Karar Gücü Tablosu . . . . . . . . . . . . . . . . . . . . . . . . 69
4.7 Algoritma ve Parametreleri . . . . . . . . . . . . . . . . . . . . . 77
4.8 S�n��and�r�c�lar�n Sonuçlar� . . . . . . . . . . . . . . . . . . . . . 77
4.9 Kar�³�kl�k Matrisi . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.10 Özelliklerin Katk� De§eri Ortalamalar� / 10'lu Çapraz Sa§lama . 87
4.11 Özelliklerin Bilgi Kazanc� . . . . . . . . . . . . . . . . . . . . . 87
4.12 Artgönderim Ba³ar� Oran� . . . . . . . . . . . . . . . . . . . . . 89
5.1 Artgönderim Ba³ar� Oran� . . . . . . . . . . . . . . . . . . . . . 95
5.2 Tüm Yakla³�mlar�n Genel Görünümü . . . . . . . . . . . . . . . 99
5.3 Artgönderim Çal�³malar�n Ba³ar� Oranlar� . . . . . . . . . . . . 103
v
Bölüm 1
G�R��
1.1 Problem
Do§al dildeki gönderimlerin yada dildeki ba§lant�lar�n çözümlenmesi Bilgisayarl�
Dilbilim çal�³malar�n�n temel ad�mlar�ndan biridir. Örne§in Türkçe'de
Arda Alin'den onun kitab�n� istedi.
gibi bir tümcede onun ifadesi hangi varl�§a, Alin'e mi yoksa Arda'ya m�
gönderimde bulunur? En az�ndan Türkçe bilen birçok ki³i sezgisel olarak onun
ifadesinin Alin'e gönderimde bulundu§unu ç�karabilir. Yap�sal olarak yukar�daki
tümceye benzeyen fakat farkl� bir çözümü olan bir ba³ka örnek tümce verilebilir.
Örne§in
Arda Alin'den kendi kitab�n� istedi.
gibi bir tümcedeki kendi -ki bu kendi ifadesi "onun" ad�lsal artgönderimi ye-
rine konmu³ dönü³lü bir artgönderimdir- ifadesi Alin yerine Arda'ya gönderimde
1
bulunur. Bu ç�kar�m� yine Türkçe'yi bilen biri rahatl�kla yapabilir. Ancak ilk ör-
nekte oldu§u gibi, ki³i bu ç�kar�m� nas�l yapt�§�n� bize sistematik olarak ifade
edemez. Belki o ki³i "nas�l yapt�n?" sorusu soruldu§u anda dü³ünüp ç�ka-
r�mda bulunabilir. Bu tam olarak insandaki sezgisel ve fark�nda olmad�§� bir
yetenektir diyebiliriz. Peki yukar�daki iki örnek yap�sal olarak birbirlerine ben-
zemelerine kar³�n neden farkl� bir çözüm olu³mu³tur. Bunun için akla gelen ilk
cevap birinci örnekte ad�ls� bir artgönderim, ikinci örnekte dönü³lü bir artgön-
derim kullan�ld�§� olacakt�r. �ki farkl� artgönderim kullan�ld�§� için çözümleme
sistemati§i de farkl� kurallar içermi³tir diyebiliriz. Bu örneklemeden hareketle
³öyle bir noktaya varabiliriz: Artgönderim problemi için birçok kuraldan olu-
³an bir sisteminin olu³turulmas� gerekmektedir. Daha basit bir ifadeyle dilde
kurallar� gizlenmi³ bu ili³kilere bir çözüm modeli olu³turulmas� gerekmektedir.
Belki bu çok say�daki kurallar daha basit bir genellemeden olu³maktad�r. �³te
bu problem ekseninde bu tip sorular�n cevab� aranmaktad�r.
Bu tez kapsam�nda olu³turulacak ve de tart�³�lacak model bilgisayarl� bir
alan içerisinde olacakt�r. Bilgisayarl� birçok yakla³�m çözüm için denenecektir
ve çok deneylerle ortaya at�lan yakla³�mlar k�yaslanacak ve detayl� bir ³ekilde
tart�³�lacakt�r.
1.2 Artgönderim ve Önemi
Yapay Zeka alan�n�n alt ba³l�klar�ndan olan Do§al Dil �³leme (Natural Langu-
age Processing) ve Bilgisayarl� Dilbilim (Computational Linguistics) alanlar�,
do§al dili istatistiksel ve kural tabanl� modellerle ele alarak bilgisayarl� çözüm-
ler üreten, ara³t�rmac�lar�n son zamanlarda yo§unla³t�§� ve önemi giderek artan
disiplinler aras� bilimsel çal�³ma alanlar�d�r. Do§al dil i³leme alan� dilbilim teori
2
ve yakla³�mlar�ndan yapay zeka çal�³malar� yapmak için yararlan�r. Bilgisayarl�
Dilbilim ise bilgisayar bilimlerinden dilbilim alan�ndaki teori ve yakla³�mlar�n
modellenmesi ve do§rulanmas� için yararlan�r. Bu tezde sunulan çal�³ma her iki
alana da katk� sa§lama potansiyeli içermektedir.
Her iki alan�n da teorik olarak beslendi§i dilbilim alan� ise sözdizim (syn-
tax), biçimbilim (morphology), sesbilim (phonology), anlambilim (semantics),
edimbilim (pragmatics), söylem analizi (discourse analysis) gibi birçok önemli
alt ba³l�§� içerir.
Yukar�da bahsedilen alt alanlardan biri ve bu tezin kapsad�§� alt alanlardan
birisi olan söylem analizi (discourse analysis) birçok uygulama için önemini
korumaktad�r. Söylem analizi çerçevesinde metin özetleme, makine çevirisi, bilgi
ç�kar�m�, diyalog sistemi gibi teorik ve pratik çal�³malar yap�lmaktad�r. Söylem
düzeyindeki analiz dilbilim çal�³malar�ndaki en zor problemlerden biridir. Bu
düzeyde yap�lacak çal�³ma alt düzeylerdeki birçok bilgiye ihtiyaç duydu§undan
bu alt düzeylere s�k� s�k�ya ba§l�d�r. Sözdizimsel ya da biçimbilimsel analizlerde
ortaya ç�kan problemler söylem düzeyinde yap�lacak ba³ka bir analizi dolays�z
bir ³ekilde etkiler.
Söylem analizi için çözülmesi gereken problemden biri ve ayn� zamanda bu
tez çal�³mas�n�n da konusu artgönderim (anaphora) problemidir. Artgönderim
söylem içindeki ö§elerin birbirlerine gönderimde bulunmas�d�r. Bir ba³ka de-
yi³le bir dünya varl�§�na çe³itli ³ekillerde e³gönderimde bulunma durumudur.
Örne§in, John isimli birine söylem içinden John, adam, o, çocuk, Mr. John,
John Green, Bay John ³eklinde gönderimler olu³turulabilir. Bu gönderimsel
ili³kilerin söylem içindeki rolü çok güçlüdür. Her söylem kendi içinde çok sa-
y�da gönderimsel ili³ki bar�nd�r�r. Bu gönderimsel ili³kilerin varl�§� bilgisayarl�
dilbilim çal�³malar� için bilgisayarla çözümlenmeleri gereklili§i gibi zor problem-
3
ler olu³turur. Söylem içinde yap�lan herhangi bir gönderimin çözülmesi söylem
analizleri için çok gereklidir. Örnek olarak bir söylemde, o ad�l�n�n Ahmet'e
mi yoksa Ay³e'ye mi gönderimde bulundu§u söylem analizi için önemlidir. Bu
bilgi olmadan söylem üzerinde herhangi bir ç�kar�m yap�lamayacakt�r. Bu gön-
derimsel olguya �ngilizce'de Anaphora denirken Türkçe için s�kl�kla kullan�lan
kar³�l�§� Artgönderimdir. Bu gönderimsel ili³ki için a³a§�daki iki tümcelik ba-
sit söylemi ele alal�m:
Alin çantas�ndaki kitaplar� masaya koydu. � Sonra masaya otu-
rup onlar� okumaya ba³lad�.
Örne§in yukar�daki söylemde ikinci tümce iki artgönderim bar�nd�r�r: �, on-
lar. Bu artgönderimlerin hangi öncüle gönderimde bulundu§u Türkçe bilen biri
taraf�ndan kolayl�kla çözülebilir. � bo³ artgönderimi birinci tümcedeki Alin
ki³isine gönderimde bulunurken, onlar ad�l� kitaplar söylem varl�§�na gönde-
rimde bulunur. Bu çözümlemenin insan taraf�ndan yap�lmas� normal ve ola§an-
d�r. Ancak, bu çözümlemenin bilgisayar taraf�ndan yap�lmaya çal�³�lmas� birçok
güçlü§ü beraberinde getirecektir. Yani hangi ad�l�n hangi öncüle gönderimde
bulundu§unu tespit etmek için bilgisayarl� bir model yaratmak gerekmektedir.
�³te bu problemin çözümü için uygulanacak çözümleme sistemine Bilgisayarl�
Artgönderim Çözümlemesi (Computational Anaphora Resolution) denir.
1.3 Artgönderim Çal�³malar�
Artgönderim probleminin çözümü için çe³itli yöntemler önerilmi³tir. [Hobbs, 1978]
bu problemi çözmek için tümcelerin ayr�³t�rma a§ac�ndan faydalanm�³t�r. Ayr�³-
t�rma a§açlar�n� belli bir sisteme göre tarayarak ad�llar�n öncüllerine ula³maya
4
çal�³m�³ ve bir sistem önermi³tir. [Grosz ve Sidner, 1986] ve [Brennan vd., 1987]
merkezleme teorisini geli³tirmi³lerdir. Bu teoriye göre söylemin merkezindeki de-
§i³iklikler belli bir davran�³ ilkesine göre olu³maktad�r. Söylemin, merkezindeki
ö§eyi mümkün oldukça koruma e§ilimi içinde oldu§u vurgulanm�³t�r. Bilgi ta-
banl� bu teori ba³ar�l� ve önemli oldu§undan birçok çal�³maya ilham vermi³tir.
[Lappin ve Leass, 1994] ise belirginlik tabanl� bir yöntem geli³tirmi³tir. Bu yak-
la³�ma göre aday öncüller puanlanarak bir yar�³ içine sokulur. En yüksek puan�
alan öncül hesaptaki ad�l�n öncülü olur. Basit bir toplama i³lemi çerçevesinde
geli³tirilmi³ bir yakla³�m olmas�na kar³�n çok ba³ar�l� sonuçlar vermi³tir. Ay-
r�ca günümüzdeki birçok artgönderim çözümleme sisteminde kullan�lmaktad�r.
[Chomsky, 1981] taraf�ndan sunulan ba§lama teorisi birçok yöntem taraf�ndan
kullan�lm�³t�r. Ba§lama kuram�nda birçok kural ve k�s�t vard�r. Bu kurallar ve
k�s�tlar artgönderimin davran�³�n� tan�mlar. Bu konudaki detaylar ileriki bö-
lümlerde yer alacakt�r. Gerçek uygulama aç�s�ndan ise en önemli çal�³malardan
biri [Mitkov, 2002] taraf�ndan yap�lm�³t�r. Bu çal�³ma [Lappin ve Leass, 1994]
taraf�ndan uygulanan RAP algoritmas�n�n geli³tirilmi³ bir türüdür. Gerçek uy-
gulamalarda çal�³mas� çal�³man�n önemini art�rmaktad�r.
Yukar�daki teorik yakla³�mlar�n d�³�nda artgönderim problemi için makine
ö§renmesi ve istatistiksel yöntemler de kullan�lm�³ ve bu yöntemler problemin
çözümü aç�s�ndan ba³ar�l� olmu³tur. Makine Ö§renmesi tekniklerinin bilim ala-
n�ndaki öneminin artmas� ve birçok alanda ba³ar�l� bir ³ekilde uygulanmas�,
artgönderim probleminin çözümünde de ba³ar�yla kullan�lmalar� do§rultusunda
umut do§urmu³tur. Makine ö§renme algoritmas�n� artgönderim çözümü için
uygulayan ilk çal�³ma [Aone ve Bennet, 1995.] taraf�ndan yap�lm�³t�r. Bu çal�³-
mada söylemler ö§renme algoritmas� için düzenlenmi³ ve karar a§ac� yöntemi
kullan�larak bir karar verme sistemi olu³turulmu³tur. Japonca için uygulanan bu
yöntem birçok çal�³maya ön ayak olmu³tur. Örnek olarak daha sonra �ngilsizce
5
için yap�lan en önemli ö§renme temelli yakla³�m [Soon vd., 2001.] taraf�ndan
sunulmu³tur. Bir di§er önemli çal�³ma ise [McCarthy ve Lehnert, 1995.] tara-
f�ndan yap�lm�³t�r. Bu çal�³malar�n ayr�nt�lar� izleyen bölümlerde verilecektir.
Tüm bu çal�³malar artgönderim problemi için zengin bir literatür olu³turmu³
ve bu problem çerçevesinde birçok ara³t�rma ve bilimsel tart�³ma yap�lm�³t�r.
Türkçe için yap�lan çal�³malar ise di§er dillerle k�yasland�§�nda oldukça azd�r.
�ngilizce, Almanca, Japonca en çok çal�³�lan diller olurken Türkçe bu anlamda
az çal�³�lan diller kategorisine girmi³tir. Türkçe için bilgisayarl� artgönderim
çözümlemesi ilk olarak
[T�n ve Akman, 1994] taraf�ndan sunulmu³tur. Bunun d�³�nda Türkçe için baz�
çal�³malardan bahsetmek mümkün. Bu çal�³malar ilerleyen bölümlerde detayl�
olarak incelenecektir.
1.4 Kapsam
Bu çal�³man�n amac� Türkçe söylemlerdeki artgönderim çözümü için bilgisa-
yarl� sistemler tasarlamak, çe³itli yakla³�mlar� denemek ve bunlar� tümdengelim
ve tümevar�m ikilili§i üzerinden tart�³makt�r. Bu vesileyle öncelikle çal�³man�n
kapsam�ndan bahsedilmesi gerekiyor. Türkçe'de öne ç�kan gönderim tipleri ad�l-
sal artgönderim, dönü³lü artgönderim, bo³ artgönderim, sözlüksel artgönderim,
kar³�l�kl� artönderim, bo³ adsal artgönderim ³eklinde s�ralanabilir. Bu gönderim
biçimlerinden ad�lsal artgönderim (ben,sen, o vb.), dönü³lü artgönderim (ken-
dim, kendi vb.), bo³ artgönderim (yüzeyde görünmeyen), kar³�l�kl� artgönderim
(birbirleri) bu çal�³man�n kapsam�ndad�r. Bu artgönderimlerin olu³turdu§u ili³-
kilerin çözümü için çe³itli çözümleme yöntemleri tart�³�lacakt�r.
Dünya'da kullan�lan Artgönderim Çözümleme sistemlerini iki yakla³�ma göre
6
ay�rabiliriz:
1. Bilgi Tabanl� Yakla³�mlar
2. Ö§renme Tabanl� Yakla³�mlar
Bu iki yakla³�m�n Türkçe'deki artgönderim problemi için nas�l bir sonuç ve-
rece§i bu çal�³man�n konusudur. Ancak Bilgi tabanl� tüm sistemleri denemek
olanaks�z oldu§undan en önemli iki yöntem olan, belirginlik tabanl� yöntem1 ile
Merkezleme Algoritmas� yöntemi bu çal�³ma kapsam�nda tart�³�lacak yöntem-
lerdir.
Öte yandan ö§renme tabanl� yakla³�mlar yine ayn� derlem üzerinde s�nana-
cakt�r. Makine ö§renme algoritmalar�ndan Karar A§ac�, Destek Vektör Makine-
leri gibi önemli teknikler artgönderim çözümü için kullan�lacakt�r. Ortaya ç�kan
ba³ar� sonuçlar� çerçevesinde tüm yöntemler birbirleriyle k�yaslanacak ve belirli
sonuçlar çerçevesinde tart�³malar aç�lacakt�r. Bilgi tabanl� yöntemlerle, ö§renme
tabanl� yöntemler birbirleriyle çe³itli k�yaslamalar göz önünde bulundurularak
tart�³�lacakt�r. Bu yöntemlerin Türkçe söylem analizi için ne kadar ba³ar�l� ve
uygulanabilir oldu§u ara³t�r�lacakt�r.
1Bu yöntem [Lappin ve Leass, 1994] ve [Mitkov, 2002] taraf�ndan kullan�lan sistemlerdir.
7
Bölüm 2
D�LB�L�MSEL ARKAPLAN
Son otuz y�ld�r giderek artan söylem yap�s� ile ilgili çal�³malar�n merkezinde hep
artgönderim konusu yeralm�³t�r. Söylem gerçek dünyadaki nesnelere gönderimde
bulunurken bir ba§la³�kl�k düzene§i olarak artgönderimlere ba³vurur. Söylemde
odakta bulunan anlat�msal ifadeler artgönderimsel olarak ad�lla³abilir. Söylem
içinde gerçek dünyadaki bir nesneye çe³itli ³ekillerde gönderimlerde bulunabili-
riz: Ali, bardak, adam, o, bu, onlardan biri, ora, masa vb. Söylem içinde önce
öncüller sisteme dahil olurlar. Örnek olarak tümce 2.1'de Ali, Hasan ve Kitap
sisteme dahil olurlar.
Ali Hasan'a kitab� uzatt�. (2.1)
Bu ö§eler herhangi bir anda söylem içinde bir ad�l ile e³gönderim olu³tura-
bilirler. Bu tümcenin hemen ard�ndan geldi§ini varsayarsak, tümce 2.2 buna bir
örnek olu³turur.
8
Ama o almak istemedi. (2.2)
Bu tümcedeki o aç�k ad�l� Hasan'a gönderimde bulunur. 2.1 nolu tümceden
hemen sonra 2.3'deki gibi bir tümce gelseydi bu durumda onu aç�k ad�l� kitaba
gönderimde bulunacakt�.
Ancak Hasan onu almak istemedi. (2.3)
E§er tümce 2.4'teki gibi bir tümce gelseydi, öncelikle gözle görünür aç�k bir
ad�l�n olmad�§� farkedilirdi. Ancak üzgün görünen birinin oldu§u da kesindir.
Çok üzgün görünüyordu. (2.4)
Bu durumda bu tümcede göremedi§imiz ancak dilbilgisel olarak gizli bir öznenin
varl�§�nda bahsedebiliriz. Bu tümcede Ali'ye gizli bir artgönderim söz konusu
oldu§undan buna bo³ artgönderim diyece§iz ve � i³areti ile ifade edece§iz.
Bu örneklerden anla³�ld�§� gibi amaç geriye i³aret etmek ve bunun yap�s�n�
ara³t�rmakt�r. Geriye i³aret eden veya gönderimde bulunan yap�lar için �ngi-
lizce'de Anaphora kelimesi kullan�lmaktad�r. Türkçe için kullan�lan ve kabul
gören kar³�l�§� ise artgönderimdir. Bu artgönderimin (Anaphora) i³aret etti§i,
gönderimde bulundu§u ö§eye ise �ngilizce'de antecedent ya da referent de-
nir. Türkçe dilbilimsel çal�³malarda ço§unlukla öncül kelimesi kullan�l�r. Tümce
2.1'de Ali, Hasan ve kitap aday öncüllerdir. Tümce 2.2'deki o ö§esi ise Ali ön-
9
cülünü i³aret eden bir aç�k ad�ld�r ve bir artgönderim örne§idir.
2.1 Artgönderim Biçimleri
2.1.1 Ad�lsal Artgönderim
Ana ve yan tümcelerde özne pozisyonunda aç�k ad�l ve bo³ artgönderimleri
tümcenin yüklemi ile say�/ki³i uyumu içindedir. Üçüncü tekil ³ah�s uyum tak�s�
bo³tur. Üçüncü ço§ul ki³ide e§er aç�k özne kullan�lm�³sa �ildeki biçimsel tak�
ba§lama ba§l� olarak kullan�labilir ya da kullan�lmayabilir. Aksi halde uyum
gösterir ve aç�kt�r. Artgönderim, söylem içinde çe³itli biçimlerde var olabilir.
Bu biçimin zorunluluk mu yoksa konu³ucunun ya da yazan�n seçimine mi ba§l�
oldu§u de§i³kenlik gösterir. En yayg�n kullan�lan artgönderim tipi ad�lsal art-
gönderimdir (pronominal anaphora). Ben, Sen, O, Biz, Siz ve Onlar ad�lsal
artgönderim örneklerinin yal�n halleridir (Ben yar�n okulda olaca§�m). Bununla
birlikte ismin hallerini de al�rlar:
1. Yal�n Hali (Nominative): Ben, Sen, O ...
2. Belirtme Hali (Accusative): Beni, Seni, Onu ...
3. Yönelme Hali (Dative): Bana, Sana, Ona ...
4. Ayr�lma / �kma Durumu (Dative): Benden, Senden, Ondan ...
5. �lgi / Tamlayan Hali (Genitive): Benim, Senin, Onun ...
6. Bulunma hali (Locative): Bende, Sende, Onda ...
10
2.1.2 Dönü³lü Artgönderim
Bir ba³ka artgönderim tipi ise dönü³lü (re�exive) ad�llard�r. "Jonh admires him-
self" tümcesindeki himself ayn� tümcedeki John varl�§�na gönderimde bulunur.
Tükçede bu tümceyi "John kendini be§enir" ³eklinde söyleriz. Bu tümcedeki
kendi terimi Türkçe dönü³lü ad�llar için bir örnektir. Dönü³lü artgönderim de
ad�lsal artgönderim gibi durum hallerinden etkilenebilir: Kendi, kendini, kendi-
sine, kendinde...
2.1.3 Bo³ Artgönderim
Söylemde yüzeyde görünmeyen fakat dilbilgisi kurallar�nca aç�§a ç�kar�lan art-
gönderim tipidir. A³a§�daki söylemi ele alal�m.
Alini baleye gitmek için haz�rl�k yap�yordu.
[ �i [�i Çantas�na gerekli e³yalar� koyarak] evden ç�kt�.] (2.5)
Bu tümcedeki özne pozisyonundaki ilk ö§e bo³ bir artgönderimdir ve Alin ile
e³gönderime sahiptir. Benzer bir ³ekilde bo³ artgönderim pozisyonunda bulunan
ikinci � gönderimi de bo³ artgönderim'e örnektir. Bu bo³ artgönderimler ad�l
m�d�r yoksa de§i³ken midir sorusu halen tart�³�lmaktad�r. Bu tart�³ma çal�³ma-
m�z�n d�³�nda kald�§�ndan biz yüzeyde görünmeyen bu ö§elere bo³ artgönderim
diyece§iz.
11
2.1.4 Sözlüksel Ad Öbe§i Artgönderimleri
Di§er bir artgönderim tipi ise Sözlüksel Ad Öbe§i Artgönderimleridir. Bu
yap� sözdizimsel olarak tümcelerde belirtili isim öbekleri ³eklinde bulunurlar:
Özel isimler, belirtili tan�mlar vb. Noam Chomsky, bir sepet elma, masadaki
vazo, adam örnek olarak verilebilir.
Artgönderim örneklerimize a³a§�daki al�nt�y� inceleyerek devam edelim.
(1) Evvel zaman içinde bir kentte küçük ve fakir bir k�z ya³arm�³.(2)
Bu k�z kibrit satarak geçinmeye çal�³�rm�³. (3) K�z�n hiçkimsesi yok-
mu³.(4) Y�k�k dökük bir evde ya³arm�³. (5) Bir sabah yine kibrit
satmak için yollara dü³mü³.(6) Kar ya§d�§� için her taraf bembe-
yazm�³.(7) Kibritçi K�z�n aya§�na giyecek ayakkab�s� bile yokmu³.(8)
Yal�n ayak karlara basa basa kibrit satmaya çal�³�yormu³. (9) Üze-
rindeki elbiseler o kadar eskimi³ ki so§uktan korumuyormu³ bile.
(10) Kibritçi k�z so§uktan donmamak için bir kö³eye büzülmü³. (11)
Art�k ak³am olmak üzereymi³. (12) K�zca§�z art�k kibrit satamaya-
ca§�n� anlam�³.
Bu metinde ilk tümceyle birlikte kent ile küçük ve fakir bir k�z ad öbekleri
söylem varl�klar� olarak sisteme girerler. Bir sonraki tümcede (Bu k�z kibrit sa-
tarak geçinmeye çal�³�rm�³), küçük ve fakir bir k�z söylem varl�§�na bu k�z ad
öbe§iyle gönderimde bulunulur. Asl�nda bu iki ad öbe§i gerçek dünyadaki bir
varl�§a e³gönderimde bulunurlar. Bu yap�daki iki ad öbe§i de gönderimde bulun-
duklar�ndan bunlar Sözcüksel Ad Öbe§i Artgönderimi'nin birer örne§idir.
Benzer bir ³ekilde ikinci tümceyle birlikte kibrit varl�§� da sisteme dahil edil-
mi³tir. Bu ad öbe§ine de izleyen bir tümceden göderim yap�labilir. Bu tip ad
12
öbekleri genel anlamda göderimsel ifadeler olarak de§erlendirilir. �imdi yuka-
r�daki al�nt�da küçük k�z için nas�l bir gönderim yap�s� kuruldu§una bakal�m.
Kullan�lan gönderimleri tümce s�ras�yla listeleyelim: Küçük ve fakir bir k�z (1),
Bu k�z (2), K�z�n (3), � (4), � (5), Kibritçi K�z�n (7), �(8), � + GEN ve � +
ACC(9), Kibritçi k�z (10), K�zca§�z(12). Ortaya ç�kan e³gönderimsel bu zincirde
aç�k ad�l, bo³ artgönderim, ve ad öbe§i artgönderimleri kullan�lm�³t�r.
2.1.5 Kar³�l�kl� Artgönderim (Reciprocal)
Bir di§er artgönderim tipi ise kar³�l�kl� artgönderimdir. Söylemde kar³�l�kl� bu-
lanan ö§eler aras�ndaki kar³�l�kl�§� ifade etmek amac�yla kullan�l�r.
They hit each other (2.6)
Yukar�daki tümcede geçen each other ifadesi �ngilizce'deki kar³�l�kl� artgönde-
rim için bir örnektir. Türkçe için kullan�lan kelime ise birbirleridir.
Birbirlerine vurdular. (2.7)
Yukar�daki tümcedeki birbirlerine ifadesi kar³�l�kl� artgönderime bir örnektir.
2.1.6 Bo³ Adsal Artgönderim
Bir ad öbe§inin olmas� gereken yeri bo³ b�rakt�§� durumlarda ortaya ç�kar. Buna
a³a§�daki gibi bir örnek verelim.
13
- Ben [senin gibi bir ayya³a] yol vermem
- Ben � veririm
Yukar�daki söylemde birinci konu³ucu senin gibi bir ayya³ ifadesi ile ikinci
konu³ucuyu tan�ml�yor. �kinci konu³ucu ayn� ifadeyi bo³ kullanarak birinci konu-
³ucuyu tan�ml�yor. �kinci konu³ucunun tümcesinde ad�lsal bo³ bir artgönderim
oldu§unu söyleyemeyiz; bu durumda bu ifade ikinci konu³ucuyu yani kendi-
sini tan�ml�yor olacakt�. Oysa ikinci konu³ucunun birinci konu³ucuyu belirtti§i
aç�kt�r.
2.2 Yan Tümcelerde Artgönderim
Türkçede yan tümce üretmek için eyleme eklenen çekim ekleri ³u ³ekildedir:
1. -mek: Ö§renciler derse girmek istemiyorlar.
2. -me: Ö§rencilerin derse geç gelmesi en ciddi problemimiz.
3. -i³: Hocan�n dersi anlat�³� bence iyi.
4. -ecek: Dersi geçecek ö§renciler belli.
5. -d�k: Ö§renci ald�§� notu be§enmedi.
Yan tümcenin öznesi tamlayan eki al�rken, eylemi iyelik eki al�r. Ve bu iki
birim ki³i say� uyumu gösterir. Ana tümcede oldu§u gibi yan tümcede de üçüncü
ki³i ço§ul uyumu eyleme seçime ba§l� olarak eklenir. Artgönderim ana cümledeki
i³levi yan tümcelerde de aynen devam eder.
Onun dersi anlat�³� bence iyi. (2.8)
14
Bu cümledeki Onun artgönderimi aç�k ad�l olarak gerçekle³mi³tir. Bununla
beraber bo³ artgönderim içeren durumlar da olur. Bo³ artgönderimler benzer
bir ³ekilde yan tümcelerde de görülür. A³a§�daki tümce buna örnektir.
Adami [�i okula gitmek] için otobüse bindi. (2.9)
2.3 Di§er Dilbilimsel Artgönderim Çal�³malar�
2.3.1 Ba§lama Kuram� (Binding Theory)
Artgönderim konusundaki en önemli çal�³malardan biri de [Chomsky, 1981] ta-
raf�ndan sunulan ilkeler ve de§i³tirgenler (principles and parameters) kuram�-
d�r. Bu çal�³man�n içerdi§i Ba§lama Kuram� artgönderimlerin nas�l gönderimde
bulunaca§�na ili³kin önemli sözdizimsel k�s�tlar� vurgular. Bu kuram dönü³lü
ad�llar�, ki³i ad�llar�n� ve sözlüksel ad öbeklerini kapsar. Ba§lama ba§l� ö§e-
nin/öncülün gönderimi ile göndergenin gönderimi ayn�d�r. Ba§lama kural�nda
gönderimi tümce içinde olan ad�llar gönderge olarak adland�r�l�r. Gönderimi
tümce d�³�nda olan ad�llar ad�ls�l (pronominal) ve s�radan adlar ise gönderimsel
ifade (referential expression) olarak tan�mlan�r.
1. He likes himself
2. John likes herself
He ad�l�n�n gönderimi tümce d�³�nda oldu§undan ad�ls�l, herself kurucusu
gönderimi tümce içinde oldu§u için gönderge ve John ise gönderimsel ifadedir.
Kuram dört ifade tipinden bahseder:
15
Tablo 2.1: AÖ S�n�f�land�rma Tablosu
Aç�k Bo³ (Örtük)[+ gönderge, - ad�ls�l] Sözlüksel Gönderge (kendine, birbirleri) Ad Öbe§i �zi[- gönderge, + ad�ls�l] Ad�l (ben, onlar,...) ad�l (pro) (�)[+ gönderge, + ad�ls�l] - ADIL (PRO)[- gönderge, - ad�ls�l] Ad (Ali, Veli) de§i³kenler
Sözlüksel göndergeler [+ gönderge, - ad�ls�l], gönderimleri sadece tümce
içinde olmak durumundad�r. Buna en iyi örnek dönü³lü artgönderimdir. Ad�l
[- gönderge, + ad�ls�l], tümce içine gönderimde bulunamaz. Tümce d�³�na gön-
derimde bulunurlar. Ad�llar buna örnektir. Adlar ise [- gönderge, - ad�ls�l] hiç
bir gönderimsel k�s�ta u§ramazlar. Üçüncü kategorideki ö§e ise denetim ADIL�
(kontrol PRO) olarak bilinir. Bu yap� ya ki³i-d�³� bir yorum ile yap�l�r ya da
özne ile nesne taraf�ndan kontrol edilebilen bir yorum yap�labilir. Örnek olarak
[ADIL(PRO) Okumak] gereklidir. (2.10)
cümlesinde okumak eyleminden önce gizli bir ki³i-d�³� de§i³ken vard�r. PRO
özne taraf�ndan kontrol edilebilir.
Arda [ADIL(PRO) Okumak] istiyor. (2.11)
Yukar�daki cümlede, okumak eyleminin önünde PRO vard�r. A³a§�daki tümcede
ise nesne taraf�ndan kontrol edilen bir PRO söz konusudur.
Herkes[PRO(onun)gitmesini]istiyor. (2.12)
Tüm bu ifadeler Chomsky'nin (Binding Theory) Ba§lama �lkelerine uyar.
16
1. Bir gönderge yerel bir alana ba§l�d�r. (An anaphor is bound in its Gover-
ning Category)
2. Bir ad�ls�l yerel alana ba§l� de§ildir (A pronominal is free in it GC)
3. Gönderimsel ifadeler özgürdür (R-expression is free)
Bu ilkeler için a³a§�daki örnekleri inceleyelim.
Johni likes himselfi (2.13)
John sevmek kendi(gönderge)
John kendini sever
Bu tümcedeki kendi göndergesi ile John ad� Ba§lama Kuram'�n� birinci ilkesine
uygun bir ³ekilde e³göndergelidir.
Hei likes him∗i/j (2.14)
O(ad�ls�) sevmek o(ad�ls�)
O onu sever
Kuram�m�z�n ikinci ilkesine göre ad�ls�lar yerel alanda özgürdürler. Dolay�-
s�yla bu cümledeki he ve him ad�ls�lar� yerel alanda özgürdürler ve e³göndergeli
de§ildirler. Bu nedenle he i ile dizinlenmi³ken him j dizinine ba§l�d�r.
Ba§lama Kuram�n�n üçüncü ilkesi gere§i John gönderimsel ifadesi tamamen
özgürdür ve O(he) ad�l� ile e³dizinlenemez.
17
Hei likes John∗i/j (2.15)
O(ad�ls�) sevmek John(Gönderimsel ifade)
O onu sever
2.3.2 Givon
[Givon, 1983] konusall�k ile artgönderim biçimi aras�nda kar³�l�kl� bir ili³kinin
oldu§una de§inir. Konusall�k de§eri yüksek olan göndergeler ya ad�lla ya da bo³
artgönderimle kodlan�r. Konusall�k de§eri dü³ük olanlar ise tam ad öbekleriyle
(Full NP) ile kodlan�r.
2.3.3 Fox
[Fox, 1987] ise ayn� söylem alan� içinde sisteme dahil edilmi³ öncüllerin ad�lla ya
da bo³ artgönderimlerle kodland�§�n� vurgular. Öte yandan ba³ka bir söylem ala-
n�ndaki öncüller ise Tam Ad Öbe§i ile kodlan�rlar. [Fox, 1987] söylemin a³amal�
olarak s�ralanm�³ önermeler dizisi oldu§unu belirtir. Bu a³amal� yap�n�n artgön-
derim seçimlerinde önemli bir rol oynad�§�n� vurgular. A³amal� modeldeki temel
yakla³�m ³u ³ekildedir: Söylem s�ral� bir ³ekilde okunuyor olsa da anlamland�-
r�lmalar� a³amal� olarak gerçekle³ir. Ku³ku yok ki bunun artgönderim davran�³�
üzerinde çok büyük bir etkisi vard�r.
Metinler a³amal� olarak düzenlenmi³ önerme kümeleridir. Önermelerden olu-
³an kümeler retorik yap�larla gösterilmektedir. Bu Retorik yap�lar çekirdek ve
niteleyici uydu olmak üzere iki bölümden olu³ur. Konu³ucunun ana �kri ya da
amac� çekirdekte yeral�r. Çekirdekteki bilgileri nitelemek için kullan�lan di§er
18
ek bilgiler ise uydu dedi§imiz niteliyici yap�da yer al�rlar.
2.3.4 Merkezleme Teorisi
[Grosz ve Sidner, 1986] ve [Grosz, 1995] söylem yap�s� teorisini geli³tirdiler ve
odak tabanl� artgönderim çözümlemesi ile ilgili birçok çal�³ma sundular. Mer-
kezleme Teorisi olarak bilinen bu çal�³ma yerel ba§da³�kl�§� ele al�r ve merkezin
hareketine ili³kin baz� kurallar� içerir. �³te bu kurallar� içeren ve bu kurallar üze-
rinden olu³turulan artgönderim algoritmalar�na merkezleme algoritmalar� (Cen-
tering Algorithms) denir. Merkezleme Kuram� yerel ba§da³�kl�k ve belirginlik
modeli olarak geli³tirilmi³tir. As�l amac� ba§da³�kl�k örüntülerini olu³turan gön-
derimsel ifadeleri tan�mlamakt�r. Bu kurama göre her söylem bir dizi bölütten
olu³ur ve her bölüt bir tümceden(sözce) olu³ur. [Brennan vd., 1987] bu kuram�
bilgisayarl� bir model olarak sunmu³tur.
2.4 Türkçe için Dilbilimsel Artgönderim Çal�³-
malar�
[Oktar ve Ya§c�o§lu, 1997] yapt�§� çal�³mada [Fox, 1987]'un çal�³mas�n� ör-
nek alarak üçüncü-tekil-ki³i insan göndergelerinde olu³an artgönderim örün-
tülerini saptamaya çal�³m�³lard�r. Veri taban�ndaki metinleri inceleyerek elde
ettikleri bulgularda, artgönderim örüntülerinin tümüyle retorik düzenlemeyle
yönetilmedi§ini, artgönderim seçimlerinde yap�sal olmayan etkenlerin de rol oy-
nad�§�n� gözlemlerler. Ortaya ç�kan bulgular ³u ³ekilde özetlenebilir:
1. E§er aktif göndermede söz konusu ki³i ya da varl�k hakk�nda daha önce
bir aç�klama varsa, bu öncüle yap�lacak bir gönderme ad�l ile gerçekle³ir.
19
Aksi halde ad öbe§i kullan�l�r.
2. Bu çal�³mada verilen bir örnekte öncül ile ad�l aras�nda dört önermeli bir
bo³luk vard�r. Böylelikle tam ad öbe§i kullanma zorunlulu§unun olmad�§�
tespit edilmi³tir.
3. Ad�l kullan�m�n�n uygun olabilece§i retorik birimlerde genellikle tam AÖ'lerinin
kullan�ld�§�na ili³kin bulgular bu tür metinlerde tam AÖ'lere geleneksel
gönderge ba§lant�s�n�n d�³�nda çok daha ba³ka i³levler yüklendi§ini gös-
termektedir.
[Çeltek ve Oktar, 2004] ise yine [Fox, 1987]'un çal�³mas�ndaki Retorik
Yap� Çözümlemesi yöntemini temel alarak metinlerin sadece bir tümceler dizisi
olmad�§�, a³amal� biçimde düzenlenmi³ önermeler dizisi oldu§uyla ilgilenmi³tir.
Bu çal�³mada 5000 önermenin ad�l ve bo³ artgönderim örüntüleri çözümlenmi³-
tir. Bu analizde sadece 3. ki³i göndergeleri için 317 adet bo³ artgönderim ve 144
adet aç�k ad�l oldu§u tespit edilmi³tir. 3. ki³i göndergelerde bo³ art gönderim-
lerin daha a§�rl�kl� oldu§u kesindir. Öte yandan çal�³madaki ilginç bir bulgu ise
1. ve 2. ki³i ile cans�z göndergelerine yöneliktir. Bu göndergeler için tercih edi-
len artgönderimsel biçimin aç�k ad�l oldu§u belirtilmektedir. Öte yandan araya
giren önermelerde söz konusu ki³iye ili³kin bir aç�klama yap�lm�³ ise gönderge
geriye-atlama yap�s�nda ad�l ya da bo³ artgönderim ile kodlanmaktad�r.
Peki ad�l ya da bo³ artgönderim seçime ba§l� olarak m� yap�lmaktad�r ?
[Enç, 1986] aç�k ad�lar�n söylem içinde konu³anlar ve dinleyenler taraf�ndan ö§-
renilmesi gereken edimbilimsel i³levleri oldu§undan, bo³ ulam�n ve aç�k ad�l�n
seçime ba§l� olmad�§�n� söyler.
[Erguvanl�-Taylan, 1986] söylemde öznenin konu de§i³tirme i³levi gör-
dü§ü durumlarda, aç�k ad�llar�n kullan�lmas�n�n zorunlu oldu§unu ve bo³ ula-
20
m�n dilbilgisi d�³� yap�lara neden oldu§u görü³ünü savunur. Ve bo³ ad�l�n söylem
özellikleri aç�s�ndan aç�k ad�llarla örtü³medi§ini gösterir. Çal�³mada gönderimin
olu³tu§u üç durumun alt� çizilir:
1. Bo³ artgönderimlerin zorunlu kullan�m�
2. Aç�k ad�llar�n zorunlu kullan�m�
3. Bo³ artgönderimin ya da Aç�k ad�l�n seçimli kullan�m�
Yan tümcelerdeki tamlayan pozisyonundaki ifadelerin dü³mesi tamlayan du-
rumlu bo³ bir artgönderim olarak yorumlan�r.
Eroli �i kar�s� için her³eyi yapar. (2.16)
2.16 nolu tümcede kar�s� ifadesinden hemen önce bo³ bir artgönderim vard�r.
Bu art gönderimin bo³ kullan�lmas� zorunludur ki Erol ile e³gönderime sahip
olsun. Benzer bir durum a³a§�daki 2.17 nolu tümce için de geçerlidir.
�i kar�s� için Eroli her³eyi yapar. (2.17)
Bo³ art gönderim öncülden önce olsa da farketmez. Bu durumda yine iki
ö§e ayn� e³gönderime sahiptir. Öte yandan 2.18 ve 2.19 nolu tümcelerdeki kar�s�
ö§esi aç�k ad�l ile kullan�lm�³t�r. Bu durumda söz konusu aç�k ad�l (Onun) Erol
ile ayn� e³gönderime sahip olmaz.
Eroli onun∗i/j kar�s� için her³eyi yapar. (2.18)
21
2.19 nolu tümcede aç�k ad�l öncülünden önce yer almas�na ra§men 2.18 nolu
tümceyle ayn� davran�³a sahiptir.
Onun∗i/j kar�s� için Eroli her³eyi yapar. (2.19)
Ancak öncüller birden fazla olduklar�nda, tümce içindeki pozisyonlar� önemli
olur. Örnek olarak a³a§�daki 2.20 nolu tümcede bo³ artgönderimin öncülü be-
lirsizdir.
Ahmeti Erolj'a �i/j kar�s�n� sordu. (2.20)
Ancak kar�s�n� ö§esi de§i³ik pozisyonlar�nda yer ald�§�nda bu belirsizlik ortadan
kalkar. Kar�s�n� ifadesi 2.21 nolu tümcedeki gibi yerle³ti§inde, bo³ artgönderim
Ahmet öncülüne gönderimde bulunur.
Ahmeti �i/∗j kar�s�n� Erolj'a sordu. (2.21)
2.22 nolu tümcedeki gibi bir dizili³ söz konusu oldu§unda bo³ artgönderim
Erol'a gönderimde bulunur.
Erolj'a �∗i/j kar�s�n� Ahmeti sordu. (2.22)
22
Çal�³madaki bir ba³ka bulgu ise ³udur: Ana tümce öznesi ile ayn� e³ gönde-
rime sahip yan tümce öznesi bo³ ad�l olmak zorundad�r.
Eroli bana [ �i/onun∗i/j toplant�ya gelmeyece§ini] söyledi (2.23)
2.23 nolu tümcede görüldü§ü gibi e§er yan tümcenin öznesi aç�k ad�l olursa
gönderimi Erol, yani ana tümcenin öznesi, olmaz. E§er bu özne bo³ artgönderim
olursa Erol'a gönderimde bulunabilir. Dolay�s� ile bu tip örneklerde ad�llar�n aç�k
ve bo³ kullan�lmas� seçime ba§l� de§ildir.
Çal�³mada alt� çizilen bir di§er önemli ba³l�k ise söylemin gönderim çözü-
müne etkisidir.
Eroli yeme§e gelecek miydi ?
Nazan bana [onuni/�i yedide gelece§ini] söyledi (2.24)
2.24 nolu söylemde onuni/�i gönderimleri Erol'a gönderimde bulunur. Oysa
birinci tümce dikkate al�nmaz ise bu durumda söz konusu gönderimler tümce
içindeki özne pozisyonunda yeralan Nazan'a gönderimde bulunurlar.
[Turan, 1996] Türkçe söylemdeki artgönderimsel ili³kilerin karakteristi§ini
ç�karmaya çal�³m�³t�r. Bu çal�³mas�n� Merkezleme Teorisi üzerinden yapm�³t�r.
Buna yönelik olarak üç temel olguyu tart�³m�³t�r.
• Hangi ifadeler gönderimler için öncül olma potansiyeline sahiptir. Baz�
ifadeler gönderimseldir, baz�lar� de§ildir.
23
• Ayr�ca potansiyel öncüller belli bir belirginlik de§erine sahiptir. Bu belir-
ginlik de§eri nas�l hesapland�§� çal�³man�n ikinci olgusudur.
• Üçüncü amaç, bo³artgönderim, aç�k ad�l ve özne pozisyonundaki tam ad
öbe§inin i³levini ortaya ç�karmakt�r.
Bu çal�³madaki bulgular çal�³mam�z�n ileriki a³amalar�nda kullan�laca§�ndan
detaylar�n� daha sonra tart�³aca§�z.
[Enç, 1986] Türkçe'deki bo³ artgönderim ve aç�k ad�llar�n serbest olmad�-
§�n� söyler.
Ben çar³�ya gidiyorum
� çar³�ya gidiyorum (2.25)
2.25 nolu örnekteki ilk tümcede özne aç�k ad�lla ifade edilmi³.�kinci örnekte
ise bo³ artgönderim kullan�lm�³t�r. [Enç, 1986] ilk cümledeki aç�k ad�l�n söyle-
min konusunu belirledi§ini söyler. �kinci tümce "Neden ceketini giydin" gibi bir
soruya cevap olarak verilmi³tir. Bu durumda ceketin neden giyildi§i söylemin
konusudur. Bu konuya yorum yapmak için ikinci tümce kullan�l�r. Bu tümcede
bo³artgönderim kullan�lmas�n�n sebebi, söylemin konusunun özne olarak belir-
lenmesinden kaç�nmakt�r. Ayr�ca [Enç, 1986] özne pozisyonundaki aç�k ad�l�n
konu de§i³tirmek için kullan�ld�§�n� söyler. Ayr�ca iki ad öbe§i aras�nda bir ay-
k�r�l�k (contrast) yaratmak için aç�k ad�l kullan�lanilir.
Arabay� Ahmet y�kamad�. Ben y�kad�m
Bu havada kimse top oynamaz. Ben Oynar�m (2.26)
24
Aç�k ad�l kullanman�n bu iki i³levi - konu de§i³tirme ve ayk�r�l�k yaratma- bir-
birlerine ba§l� kavramlard�r.
25
Bölüm 3
B�LG�SAYARLI ARTGÖNDER�M
ÇALI�MALARI
Bu bölümde artgönderim çözümlemesi için ne tip bilgisayarl� tekniklerin kul-
lan�ld�§�na bakaca§�z. Bu nedenle öncelikle bilgisayarl� artgönderim çözümleme
süreçlerinin nelerden olu³tu§unu inceleyip Türkçe ve di§er Dünya dilleri için
hangi tekniklerin ve çözümlerin önerildi§ine bakaca§�z. Basitle³tirilmi³ çözüm-
leme süreçleriyle ba³layal�m.
3.1 Artgönderim Çözümleme Süreçleri
Bu k�s�mda artgönderim çözümlemesi için yap�lmas� gereken temel ad�mlardan
bahsedece§iz. Bu ad�mlar bugüne kadar artgönderimle ilgili yap�lan çal�³malarda
uygulanan temel ad�mlard�r. Bir çok çal�³ma a³a§� yukar� benzer a³amalardan
geçerek artgönderim için bir çözüm olu³turmaya çal�³m�³t�r. Bu a³amalar� ³u
³ekilde s�ralayal�m:
1. Söylem Varl�klar�n�n Bulunmas�: Bu a³amada söylemde mevcut olan ö§e-
26
lerden hangilerinin söylem için bir varl�k oldu§u saptan�r. Bu varl�klar çö-
züm sistemine söylem varl�§� olarak dahil edilirler. Varl�klar, gönderimde
bulunabilenler ve bulunamayanlar olarak ikiye ayr�l�r. Ve yine gönderimde
bulunamayanlar ise öncül potansiyeli§ine sahip ve sahip olmayanlar ola-
rak ikiye ayr�l�r. Ya da bir ba³ka ifade ile gönderimsel ifade (referring
expression) s�n�f�nda olanlar ya da olmayanlar ³eklinde ikiye ayr�labilirler.
Dolay�s�yla söylemdeki ö§eler üç ³ekilde s�n��and�r�l�r.
(a) Gönderimsel Varl�klar: Aç�k Ad�llar(Ad�lsal, Dönü³lü, Kar³�l�kl�), Bo³
Artgönderimler, Sözlüksel Ad Öbekleri.
(b) Öncül Potansiyeline Sahip Varl�klar (Referring Expressions): Gönde-
rimsel varl�klar da yine bu s�n�fa dahil olurlar. Yani bir ad�l bir di§er
ad�la gönderimde bulunabilir. Hatta bu Türkçe metinlerde çok s�k
olan bir durumdur. Bunun d�³�ndaki ad öbekleri ya da tümceler bu
s�n�fa dahil olabilir.
(c) Öncül Potansiyeline Sahip Olmayan Ö§eler: Eylemler (ço§u zaman),
Say�lar, S�fatlar vb. Bu ö§eler baz� ko³ullarda gönderimsel ili³ki içinde
olabilirler. Ama ço§unlukla bu ili³kilerin d�³�ndad�rlar.
Bu s�n��and�rma, olu³turulacak bir modelin h�z�n� ve performans�n� ar-
t�racakt�r. Çünkü bu s�n��and�rma ve de eleme sayesinde Artgönderim
Çözümleme Algoritmas� gereksiz ö§eler ile u§ra³mayaca§�ndan mode-
lin ba³ar�s�n� olumlu yönde etkileyecektir. Bir artgönderimin olas� öncül
adaylar�n�n azalmas�, gönderim potansiyeli ta³�mayan söylem varl�klar�
için aday öncül aranmamas� gibi durumlar sistemin ve de algoritmas�n
ba³ar�s�n� ve h�z�n� art�racakt�r.
2. Olas� Aday Öncüllerin Olu³turulmas�:
Bu a³ama bi önceki a³aman�n devam�d�r. Bu ve sonraki a³amalar�n or-
27
tak özelli§i herbir gönderge için tekrarlanmas�d�r. Yani tüm göndergeler
çözümlenene ya da i³lenene kadar bu a³amalar sürekli tekrarlan�r. Sözko-
nusu gönderge/ad�l için olas� öncül adaylar�n�n olu³turulmas� için dikkate
al�nan temel noktalar ³unlard�r:
(a) Aday öncüllerin, ele al�nan gönderge ya da ad�l ile ayn� söylem s�n�r-
lar� içinde olmas�
(b) Aday öncüllerin ele al�nan ad�ldan önce gelmesi 1
3. Öncüllerin Süzülmesi:
Süzme a³amas� söz konusu ad�l için mant�ks�z öncüllerin elenmesidir. Bir
ad�l bir önceki a³amadan geçmi³ olas� öncüllerden sadece belli kurallara
uyanlar ile gönderimsel bir ili³ki içinde olabilir. Örnek olarak say�, ki³i,
cinsiyet uyumu bu kurallar aras�ndad�r. Ama sözkonusu dilin bu bilgileri
kodlamas� gerekmektedir. Türkçe bunlardan sadece say� ve ki³i bilgisini
kodlamaktad�r. Dolay�s�yla bu a³amada bizim çal�³mam�zda kullanaca-
§�m�z süzme tekni§i sadece say� ve ki³i bilgilerini içerecektir. Bunun d�-
³�nda ba³ka süzme yöntemleri de vard�r. Anlambilimsel süzme bunlardan
en önemlisidir. Bir varl�§�n ve eylemin anlam�ndan yola ç�karak belli ku-
rallar sisteme dahil edilebilir. Örne§in sistem ³u tip anlamsal kurallar içe-
rebilir; A§açlar yürüyemez, Kediler konu³amaz, �nsan nefessiz ya³ayamaz.
Ama bunlar gerçek dünyada, belli bir ba§lamda kabul görecek anlamsal
olgulard�r. Ba³ka bir evrende bu kurallar de§i³ebilir.
4. Kalan Öncüllerin S�ralanmas� Bu a³amada herbir gönderge için bir aday
öncül listesi vard�r. Böylelikle aday öncüller aras�ndan en uygunu seçi-1Ad�l her zaman gönderimde bulundu§u söylem varl�§�ndan önce gelir. Ama bu kurala
istisna olu³turan durumlar da vard�r. Mesele �ngilizce'de "He's the biggest slob I know. He'sreally stupid. He's so cruel. He's my boyfriend, Steve." cümlesi dilbilgisel olarak do§rudurve kullan�lan bir yap�d�r. Burada He ad�l� gönderimde bulundu§u Steve söylem varl�§�ndanönce gelir. Bu yap�lara �ngilizce'de Cataphora denir. Türkçe için s�k kullan�lan kar³�l�§� iseÖngönderimdir.
28
lebilecektir. E§er bu liste bo³ gelirse, ya di§er a³amalardan baz�lar� iptal
edilir ya da bu gönderge çözümsüz b�rak�l�r. Baz� sistemlerde bu çözümsüz
durum için özgün yöntemler kullan�rlar. Örne§in ad�la en yak�n öncül bu
ad�l�n öncülü olur. Bu yöntemi deneyimizin bir k�sm�nda kullanaca§�z. Bu
tamamen sistemin gereksinimlerine ba§l�d�r. E§er liste bo³ de§ilse aday ön-
cüllerin s�ralanmas� ya da belli puanlarla a§�rl�kland�r�lmas� gerekir. Buna
yönelik kullan�lan iki önemli bilgi tabanl� kuramdan bahsedebiliriz: Mer-
kezleme Teorisi ve Belirginlik Tabanl�(Salient-based: RAP, MARS, etc...)
algoritmalar. Bilgi tabanl� yöntemlerin d�³�nda makine ö§renmesi algorit-
malar� da kullan�lmaktad�r. Bu iki yakla³�m - yani bilgi tabanl� yakla³�m-
lar ve makine ö§renmesi yakla³�mlar�- sonraki bölümlerde ayr�nt�l� olarak
incelenecektir.
3.2 Bilgi Tabanl� (Knowledge-Based) Artgönde-
rim Çözümleme Çal�³malar�
Bir önceki bölümde de bahsetti§imiz gibi artgönderim çözümlemesinin baz� a³a-
malar� vard�r. Bu a³amalardan sonuncusu hariç di§erleri hemen hemen tüm yak-
la³�mlar için ayn�d�r ve çok büyük bir de§i³iklik göstermezler. Son a³ama hangi
öncülün hangi s�ralamadan geçeçe§ine ili³kin bir yöntemini içerir. Son a³ama için
birçok yakla³�mdan bahsedilebilir. Bu bölümde bilgi tabanl� (knowledge-based)
yakla³�mla ilgili ne tür çal�³malar yap�ld�§� incelenecektir. Bu yakla³�mlar daha
çok dilbilimsel teorilerden elde edilir ve öne sürülen model bu teorik arkaplan
üzerine oturur. Bu yakla³�mlardan öne ç�kanlar tek tek inceleyelim.
29
3.2.1 Hobbs'un Algoritmas�(Hobbs's Naive Algorithm)
En eski bilgi tabanl� artgönderim çal�³mas� [Hobbs, 1978] taraf�ndan sunulan
sözdizim tabanl� bir çözümdür. Her bir gönderge için aday öncüllerin bulun-
mas� ve tespiti sözdizim a§ac�n�n taranmas� ile yap�l�r. Öncül arama i³i metnin
yönünün tersinedir. Öncül arama sözkonusu göndergenin ya da ad�l�n içinde bu-
lundu§u tümceden ba³lar ve geriye do§ru gider. Bu aramada a§aç soldan-sa§a ve
yay�lma öncelikli arama (breadth-�rst) yöntemiyle taran�r. Tarama sonucunda
uyum ve ba§lama ko³ullar�na uyan ilk aday gönderge ya da ad�l için önerilir.
Bu kadar basit olmas�na kar³�n tam ayr�³t�r�lm�³ bir sözdizim a§ac�na ba§�ml�
olmas� bir dezavantaj olarak görülür.
Bu algoritma sözkonusu ad�l�n bulundu§u tümce ile önceki tümcelerin söz-
dizim a§açlar�n� girdi olarak al�p bu a§açlar üzerinde uygun bir öncül arar.
A§aç tarama algoritmas�nda belirlenmi³ bir Söylem Modeli vard�r. Bundan do-
lay� a§ac� tarayacak olan algoritma bir dilbilgisi belirlemek zorundad�r. Çünkü
sözdizimsel olarak a§ac�n yap�s�na ili³kin kabuller sonuçlar� etkileyecektir. Bu
yakla³�mda Ad Öbe§inin (NP) her zaman için bir A-Bar (N-Bar) içerdi§i kabul
edilir. A³a§�daki iki tümceyi inceleyelim:
1. Mr. Smith saw a driver in his truck.
2. Mr. Smith saw a driver of his truck. (3.1)
�lk tümcede his ad�l� a driver aday öncüle gönderimde bulunabilir. Ama
ikinci tümcede bu gönderim mümkün de§ildir. Bu iki tümcenin sözdizim a§aç-
lar�na bir gözatal�m.
Birinci tümcenin sözdizim a§ac� �ekil 3.1 'deki gibi olur. Benzer bir ³ekilde
30
�ekil 3.1: Birinci tümcenin sözdizim a§ac�
ikinci tümcenin sözdizim agac� �ekil 3.2'deki gibi olur.
Hobbs algoritmas� bu sözdizim a§açlar�n� belli bir yöntem ile tarayarak he-
saptaki ad�l ile say�-ki³i uyumu gösteren öncülleri arar. Bu arama i³lemi belli
kurallarlardan olu³ur. Bu kurallar� ³u ³ekilde s�ralayal�m:
1. Sözkonusu gönderimi içeren Ad Öbe§i ile ba³la.
2. Üst seviyede ilk kar³�la³�lan AÖ veya S 2 dü§ümüne ç�k. Bu dü§ümü X,
bu dü§üme ula³mak için izledi§in yolu ise p (PATH) olarak kaydet.
3. Bu X dü§ümünün alt�nda ve bu p yolunun solunda kalan a§ac� soldan
sa§a (left-to-rigth) ve yay�lma öncelikli arama (breadth-�rst) biçimiyle
tara. Kar³�la³�lan herhangi bir NP'yi öncül olarak öner.
4. Bu X dü§ümü tümcedeki en üst S dü§ümü ise, bir önceki tümceye geç
ve bu a§ac� sa§dan sola (letf-to-right) biçimiyle ile tara. Kar³�la³�lan Ad
2Buradaki S dü§ümü ana tümceyi ifade eder. Örne§in S->NP VP gibi bir tekrar yazmakurallar� içeren bir sistem dü³ünülebilir. Burada NP(Noun Phrase) Ad Öbe§ini, VP (VerbPhrase) Eylem Öbe§ini ifade eder. Burada S dü§ümünü tümce ayr�³t�rma a§ac�n�n en tepe-sindeki dü§üm olarak kabül ediyoruz. Çünkü ba³ka sistemlerde bu tepe dü§üm daha farkl�olabilir.
31
�ekil 3.2: �kinci tümcenin sözdizim a§ac�
Öbeklerini öncül olarak öner. E§er bu X dü§ümü en yüksek S dü§ümü
de§il ise 5. ad�mdan devam et.
5. X dü§ümünden üst seviyede ilk kar³�la³�lan Ad Öbe§i veya S dü§ümüne
ç�k. Bu dü§ümü X de ve bu dü§üme giden yolu p olarak kaydet.
6. E§er X dü§ümü AÖ ise ve p yolu X'in yönetti§i 3 herhangi bir N-bar'dan
geçmiyor ise, bu dü§ümü öncül olarak öner.
7. Bu X dü§ümünün alt�nda ve bu p yolunun solunda kalan a§ac� sa§dan
sola, yay�lma öncelikli biçimle tara. Kar³�la³�lan herhangi bir AÖ'yü öncül
olarak öner.
8. E§er X bir S dü§ümü ise, p yolunun sa§�nda, X'in alt�nda kalan tüm
dallar� tara. Ancak Kar³�la³�lan bir AÖ (NP) veya S dü§ümünün alt�na
inme. Kar³�la³�lan AÖ'leri öner.
3Bu yönetme olgusu (c-command) sözdizim a§ac�ndaki dü§ümlerin birbriletiyle olan ili³ki-sidir. Örne§in A dü§ümü B dü§ümünden yüksekte ise, ayn� zamanda A dü§ümü B'den kökegiden yol üzerinde de§ilse ve A dü§ümü B dü§ümünün solunda ise A dü§ümü B dü§ümünüyönetir (c-command) eder
32
9. 4. Ad�ma geri dön.
Bu algoritmadaki 2. ve 3. ad�mlar dönü³lü ad�llar�n seviyeleriyle ilgilenirler.
Bununla birlikte 5 ile 9 aras�ndaki döngü S ve NP dü§ümleri ile ilgilenir. 4 ad�m
ise daha önceki tümcelere geçi³i sa§lar.
Görüldü§ü üzere Bu algoritma bir dilgilgisine ihtiyaç duyar. Bu algoritma
için ilk kullan�lan dilbilgisi a³a§�daki gibidir.
S → NP VP (3.2)
NP → (Det) N-bar (PP)*
NP → pronoun
Det → article
Det → NP's
N-bar → noun (PP)*
PP → preposition NP
VP → verb NP (PP)*
Buradaki * karakterleri s�f�r (0) ve sonsuz tekrar anlam�na gelir.
[Tüfekci ve K�l�çaslan, 2007] Türkçe bir tümce üzerinde bu algoritmaya aç�kl�k
getirmi³. A³a§�daki tümceyi bu algoritma üzerinden aç�klam�³.
Mr. Smith kendi kamyonunda bir adam gördü (3.3)
Bu tümcenin ayr�³t�rma a§ac� �ekil 3.3 'deki gibidir.
33
�ekil 3.3: Ayr�³t�rma A§ac�
Bu örnekte görüldü§ü gibi kendi dönü³lü ad�l�ndan, onu yöneten NP1_loc
dü§ümüne geçiliyor. Ardindan VP1 ve S1 dü§ümleri takip edilerek Mr. Smith
öncülüne ula³�l�yor. Bu a³amada program do§ru çal�³�yor. Ancak bu tümcedeki
kendi dönü³lü ad�l� yerine, onun aç�k ad�l� olsayd� bu algoritman�n çözümü
yanl�³ olacakt�. Bunu için ba³ka bir kural olu³turmak gerekiyor. Bu konu bah-
setti§imiz çal�³malarda ayr�nt�l� bir ³ekilde tart�³�lm�³t�r.
3.2.2 Merkezleme Teorisi ve Algoritmas� (Centering Te-
ory)
Bu kuram�n arkaplan� bölüm 2.3.4'de verilmi³tir. Bu bölümde de belirtildi§i
gibi her söylem bir dizi tümceden olu³ur. Her tümce daha sonraki ad�llar için
öncül olabilecek bir dizi söylem varl�§�na sahiptir. Bu söylem varl�klar� belli
bir s�ralama yöntemine göre s�ralan�r ve ileriye dönük merkez (Mi) listesini
olu³turur. Bu ileriye dönük merkez listesi söylem boyunca sürekli güncellenir
ve s�ralama de§i³ir. Bu liste yeni bir listeyle de§i³ecektir. Dolay�s�yla Mi ba³ka
bir liste olacakt�r. Eski Mi listesi ise bu a³amadan sonra geriye dönük liste Mg
34
olacakt�r. Mi listesindeki en belirgin ö§e ya da ilk ad�l�n olas� öncülü olabilecek
söylem varl�§� o listenin oda§� olacak ve Mo olarak ifade edilecektir.
3.2.3 BFP
Merkezleme Algoritmalar�ndan en önemlisi [Brennan vd., 1987] taraf�ndan ta-
sarlanan BFP algoritmas�d�r. Algoritma, verili bir ad�l�n çözümlenmesi için,
süzme a³amas�nda aday öncülleri biçimbilgisel k�s�tlarla (cinsiyet, say�, ki³i uyumu
gibi) sözdizimsel k�s�tlar�(ba§lama k�s�tlar� gibi) kullanarak eler. Ard�ndan aday
öncüllerin s�ralanmas� merkezleme teorisi ilkeleriyle yap�l�r.
Ancak daha sonra yap�lan çal�³malar Merkezleme Algoritmas�n�n aç�klar�n�
ya da eksiklerini tamamlamaya çal�³m�³t�r. Merkezleme Teorisi sadece yerel söy-
lem alan�nda bir çözüm arar ve verilen bir gönderge ya da ad�l için yerel söylemin
d�³�na ç�kmaz. Ama gerçek uygulamalarda yerel söylem d�³�na gönderimde bulu-
nan göndergeler mevcut oldu§undan bu aç�§� kapamaya yönelik ba³ka çal�³malar
da olmu³tur. Bir di§er problem ise her bir göndergenin gönderimi için bir önceki
tümce analiz edilir. Bu da teorik olarak sorun olmasa da pratik uygulamalarda
bir sorun olarak görülmektedir. Çünkü bir ad�l iki tümce öncesine gönderimde
bulunabilir. Ayn� zamanda s�ralama yöntemi de yeterince belirgin olmad�§�ndan
baz� varl�klar ayn� s�raya sahip olabilmektedir.
Merkezleme Kuram� dikkat oda§�ndaki de§i³imleri ve dönü³ümleri de ince-
lemektedir. Söylemdeki merkezde meydana gelen de§i³iklikler devam, içerme,
yumu³ak-dönü³ ve sert-dönü³ olmak üzere dört ³ekilde ifade edilmektedir.
[Brennan vd., 1987] bu geçi³leri 3.1 nolu tablodaki gibi aç�klam�³t�r.
Bu merkezleme geçi³leri söylem varl�klar�n�n belirginlik derecelerine göre s�-
ralan�r. Merkezdeki her türlü de§i³iklik bu geçi³lerle ifade edilmi³tir. Merkezleme
35
Tablo 3.1: Merkezdeki De§i³iklikler
Mg(Tn)=Mg(Tn-1) Mg(Tn)!=Mg(Tn-1)Mg(Tn)=Mo(Tn) Devam Yumu³ak Dönü³Mg(Tn)!=Mo(Tn) �çerme Sert Dönü³
Teorisine göre söylem bu geçi³lerden baz�lar�n� daha çok tercih eder. Mesele De-
vam geçi³i ilk tercihtir. Devam geçi³i iki önceki ve bir önceki tümcede merkezde
yer alan ö§renin yine merkezde olmas� durumudur. Yani merkezin de§i³memesi
söylem yap�s�n�n ilk tercihidir. Bu anlamda teoriye göre söylemler merkezleri-
nin fazla de§i³memesini tercih eder. Dolay�s�yla bu geçi³leri belli bir öncelikle
s�ralamak gerekiyor.
Devam >�çerme > Yumu³ak-dönü³ > Sert-Dönü³ (3.4)
Söylemdeki ad�llar�n gönderimsel ili³kileri çözümlenirken bu s�ralamadan ya-
rarlan�l�r. Tümcedeki ad�llar aday öncüllerle birçok biçimde e³le³ebilir. Bu e³le³-
meler farkl� senaryolar olu³turur. Bu farkl� senaryolar ise farkl� geçi³ durumla-
r�na denk gelir. Bu a³amada hangi geçi³in seçilece§i i³te yukar�daki s�ralamaya
göre seçilir. Yani Devam geçi³i �çerme geçi³ine tercih edilir. Benzer bir ³ekilde
�çerme Yumu³ak Dönü³e, Yumu³ak Dönü³ Sert-dönü³e tercih edilir. Bu
tercih yap�ld�ktan sonra hangi ad�l�n hangi öncüle gönderimde bulundu§u ortaya
ç�kar. Bu da Merkezleme Algoritmas�n�n çözümü olmu³ olur. Bu algoritman�n
ad�m ad�m bir örne§i izleyen bölümlerde verilecektir.
36
3.2.4 Lappin ve Leass'in Sözdizim Tabanl� Yakla³�m�
[Lappin ve Leass, 1994] belirginlik temelli ve sözdizimsel k�s�tlar ve kurallar içe-
ren bir yöntem sunar. Bu yöntemde herhangi anlambilimsel ve edimsel k�s�t bu-
lunmaz. Sunulan yakla³�m sadece biçimbilimsel ve sözdizimsel k�s�tlar uygular.
Yöntemin temel yakla³�m� aday öncüllere biçimbilimsel ve sözdizimsel özellik-
lerine bakarak belli puanlar(scoring) vermesidir. Her bir öncül toplad�§� puana
göre s�ralan�r ve en çok puan� toplayan öncül verilen ad�l�n ya da göndergenin
öncülü olarak sisteme önerilir. Toplanan bu puan o öncülünün söylem içindeki
belirginli§ini (salient) ifade eder. Dolay�s�yla bu teorinin sadece do§rusal bir
yakla³�m� vard�r.
Tüm söylem varl�klar�na ya da gönderimsel ifadelere bu belirginlik a§�rl�k-
land�r�lmas� uygulan�r. Ve her söylem varl�§�n�n puan� hesaplan�r. Ancak bu
puan ele al�nan ad�la göre belirlenir. Her söylem varl�§�n�n ad�ldan ba§�ms�z pu-
an� olmaz. Ele al�nan ad�l ile olan uyumu en büyük etkendir. Örnek olarak ad�l
ile öncülün tümce yak�nl�§� önemli bir etkendir. Ayn� zamanda ad�l ile say�/ki³i
ve cinsiyet uyumu da bir di§er önemli etkendir. Ancak yine de her ö§enin ele
al�nan ad�ldan ba§�ms�z özellikleri bulunur. Örne§in ele al�nan öncülün dilbigisel
görevi (özne, nesne vb.) a§�rl�kland�rmay� etkileyen güçlü bir bilgidir ve bu bilgi
ad�ldan ba§�ms�zd�r.
�imdi hangi etken için ne gibi bir a§�rl�kland�rma yap�laca§�na bak�lacak.
[Lappin ve Leass, 1994] Tablo 3.2 içindeki a§�rl�k de§erlerini kendi modelle-
rinde uygulam�³t�r.
Gönderimi çözümlenecek ad�l ile aday öncül aras�ndaki uzakl�k en çok bir
tümce kadarsa, öncülün belirginlik de§erine 100 puan eklenir. E§er öncül özne
pozisyonundaysa 80 puan eklenir. Öncül varolu³sal pozisyonunda 4 ise 70, be-4Buradaki Existential ifadesi �ngilizce'de there kal�b�yla ilgilidir. Bu yap� içinde bulunan ad
37
Tablo 3.2: Belirgenlik Türleri ve A§�rl�klar�
Etkenin Türü A§�rl�§�Tümce Yak�nl�§� 100Özne Olma Durumu 80Varolu³sal Vurgusu (Exis-tential Nominal)
70
Belirtme Durumu (Accusa-tive Case)
50
Dolayl� Nesneler (IndirectObject)
40
Ba³ Ad Öbe§i Vurgusu(Head Noun Emphasis)
80
Belirteç Öbe§inde olmamavurgusu (Non-adverbialEmphasis)
50
lirtme durumuna sahipse 50, dolayl� nesne ise 40, ba³ ad öbe§i 5 ise 80 ve Belirteç
öbe§inde ise 50 puan eklenir. Bu a§�rl�kland�rma tablosu kullan�larak rastgele
seçilen yakla³�k 360 ad�l üzerinde algoritma s�nand�. Bu s�nama sonucunda %
86 oran�nda bir ba³ar� kaydedildi.
3.2.5 Kennedy ve Boguraev'in Yöntemi
[Kennedy ve Boguraev, 1996] RAP alogritmas�n�n de§i³tirilmi³ bir versiyonunu
sundular. Bu çal�³mada kulland�klar� sistem, ayr�³t�rma a§ac�na (parse tree) ih-
tiyaç duymuyor. Bu yöntemde dilbilgisel görevler (Grammatical Role) yerine
sadece sözdizimsel bilgiye göre, verilen bir ad�l�n aday öncülleri puanlan�r ve s�-
ralan�r. Bu özelli§i ile RAP algoritmas�ndan daha avantajl� bir noktada duruyor.
Çünkü gerçek sistemlerde mümkün oldu§u kadar az bilgi kullanarak tasarlanan
öbekleri için ayr�ca bir a§�rl�k de§eri eklenir. Çünkü bu yap�da bulunan ad öbekleri söylemdevurgulan�rlar. Örnek olarak "There are some books on the table" ifadesindeki some booksad öbe§i varolu³sal vurgusu içerir.
5Öncül söyleme ilk ad öbe§i olarak dahil olmu³sa o öncülü ödüllendiriyoruz. Örne§in "Ah-met birden uyand�..." ile ba³layan bir söylemde daha sonra her Ahmet öncülü için ba³ adöbe§i vurgusu yap�lacakt�r.
38
modeller her zaman çok daha etkili ve pratik oluyorlar. Bilgiye ba§�ml�l�§�n en
aza indirilmesi son zamanlardaki çal�³malar için önem verilen bir noktad�r. Bi-
çimbirimsel analiz yapan LINGSOFT isimli modelden gelen bilgileri kullanan
bu yakla³�m, RAP alogritmas�nda oldu§u gibi belirginlik a§�rl�kland�rmas� içerir.
Magazin dergilerinden, ürün tan�t�mlar�ndan ve gazete haberlerinden olu³turu-
lan derlem üzerinde test edilen algoritma 306 ad�l için uyguland� ve % 75 gibi
bir ba³ar� elde etti.
3.2.6 Baldwin's Cogniac
[Baldwin, 1997] az bilgili ve bir tak�m kurallardan olu³an bir model sundu. Bu
kurallar s�rayla ad�llar üzerinde uygulan�r. Bu kurallar önemleri ve artgönderim
çözümüyle olan ili³kilerine bak�larak s�ralan�r. Ad�la ili³kin uygun bir kural sa§-
land�§�nda süreç tamamlan�r ve sonuca var�l�r. Dolay�s�yla kurallar�n s�ras� çok
önemlidir.
Bu yöntemde uygulanan kurallar� ve bu kurallar�n ne gibi bir ba³ar� sa§la-
d�§�n� a³a§�daki ³ekilde s�ralayal�m:
1. Söylemde Teklik (Unique in Discourse): E§er sadece bir aday öncül varsa
onu ad�l�n öncülü olarak seç. Bu kural 8 kere do§ru sonuç verdi.
2. Dönü³lü (Re�exive): E§er ad�l dönü³lü ise tümcedeki en yak�n aday� öncül
olarak kabul et. Bu kural 16 kere do§ru, bir kere yanl�³ çal�³t�.
3. Önceki ve mevcut tümcedeki tekillik (Unique in current and prior): E§er
bir önceki tümce ya da mevcut tümcede tek bir ad�l varsa onu öncül olarak
seç. Bu kural 114 kere do§ru, 2 kere yanl�³ cevap verdi.
39
4. �yelik durumundaki ad�llar (Possessive Pronoun): E§er ad�l iyelik halinde
ise (my, your, his, her vb.) ve bir önceki cümlede iyelik halinde olan bir
öncül var ise onu ad�l�n öncülü olarak kaydet. Bu kural 4 kere do§ru, 1
kere yanl�³ çal�³m�³t�r.
5. Mevcut Tümcede Teklik (Unique current sentence): E§er mevcut tümcede
sadece bir aday öncül varsa, onu ad�l�n öncülü olarak kaydet. Bu kural 21
kere do§ru ve 1 kere yanl�³ sonuç vermi³tir.
6. Tekil Özne / Ad�ls� Özne (Unique Subject / Subject Pronoun): E§er bir
önceki tümcenin özne Ad Öbe§i sadece bir aday öncül içeriyorsa ve mevcut
tümcenin öznesi ad�l ise, bir önceki tümcenin ad öbe§ini öncül olarak
kaydet. Bu kurallar 11 kere do§ru çal�³m�³ ve hiç yanl�³ sonuç vermemi³tir.
S�ras�yla uygulanan bu kurallar d�³�na ç�kan durumlar için daha sonra iki
ek kural daha eklenmi³tir. Bu çal�³ma The Wall Street Dergisi'nden elde edilen
derlem üzerinde 200 ad�l için uyguland� ve % 92 kesinlik (precision), % 64 anma
(recall) oran�nda bir ba³ar� elde etti.
3.2.7 MARS
[Mitkov, 2002] taraf�ndan geli³tirilen MARS (Mitkov's Anaphora Resolution
System) isimli sistem tam otomatik çal�³abilme 6 yetene§ine sahiptir. Yani hiç-
bir i³aret koyulmam�³ serbest metinler sistem taraf�ndan analiz edilir. Ve içerdi§i
artgönderimsel ili³kiler otomatik olarak belirlenir ve belli bir ba³ar� oran�yla çö-
zülür. MARS02 kodlu ilk versiyonda toplam be³ a³amada i³lemler tamamlan�r.
6Bu sistemin ilk versiyonu yar�-otomatik olarak çal�³�yordu. Daha sonraki denemelerde tamotomatik bir sistem kuruldu. Ancak do§al olarak tam otomatik sistem yar�-otomatik sistemegöre daha az ba³ar�l� olmu³tur.
40
Birinci a³amada de§erlendirilecek i³lenmemi³ metin sözdizimsel olarak ayr�³t�-
r�l�r. Bu a³amada ayr�³t�r�lm�³ her bir parçan�n biçimbilimsel, sözdizimsel, dil-
bilgisel analizi yap�l�r. Ad Öbekleri bu süreçte belirlenmi³ olur. �kinci a³amada
artgönderimsel ad�llar, gönderimsel olmayan ö§eler makine ö§renmesi algorit-
malar� arac�l�§� ile ay�klan�r. Üçüncü a³amada her bir ad�l için, ad�l�n bulundu§u
tümce ile iki tümce öncesine kadar olan metin parças�ndaki olas� adaylar belir-
lenir. Bu a³amada mevcut adaylar belli k�s�tlar çerçevesinde yar�³�rlar. Yar�³ta
sözdizimsel k�s�tlar uygulan�r. Öncelikle her bir aday öncül ad�l ile say�, ki³i
ve cinsiyet uyumu içinde olmal�d�r. Dördüncü a³amada RAP algoritmas�nda
oldu§u gibi her bir aday öncülün puan� hesaplan�r. Bunun için etkenlere ba§l�
olarak adaylar de§erlendirilir ve puanlan�r. Be³inci a³amada ise en yüksek puana
sahip aday ad�l�n öncülü olur. MARS'�n en son versiyonunda baz� güncellemeler
yap�lm�³t�r. MARS06 olarak nitelendirilen yeni versiyonda daha kat� ve kesin
uyum yöntemleri uygulan�r. MARS sistemin en önemli özelli§i dünyadaki en iyi
sistem olmas� ve bu sistemin metin özetleme (text summarization), bilgi ç�ka-
r�m (information extraction) ve metin s�n��and�r�lmas�nda (text categorisation)
kullan�lmas�d�r.
MARS bilgisayar kullan�m klavuzlar�ndan olu³an 8 farkl� döküman üzerinde
çal�³t�r�lm�³t�r. Bu derlem 247.000 kelimeden ve 2263 ad�ldan olu³ur. MARS'�n
tam otomatik versiyonundaki deneyler sonunda ortaya ç�kan ba³ar� oran� %61.55
olarak ölçülmü³tür. Bu oran do§ru çözümlenmi³ ad�l say�s�n�n sistemde bulunan
ad�l say�s�na oran�d�r. Öte yandan yar� otomatik versiyonundaki sonuçlar %85-
90 aras�nda ç�km�³t�r. Bu yöntemin Bulgarca dili adaptasyonu % 72.6, Japonca
dili adaptasyonu % 75.8 ba³ar� elde etmi³tir.
41
3.3 Ö§renme Tabanl� Artgönderim Çözümleme
Çal�³malar�
Makine ö§renmesi yapaz zeka alan�n�n en önemli alt alanlar�ndan biridir. Bu
disiplin içinde üretilen teoriler di§er disiplinlerdeki hemen hemen tüm alanlara,
özellikle de yapay zeka alt alanlar�na uygulanabilmektedir. Bu anlamda bilgi
tabanl� yöntemlere bir alternatif olu³turur. Ö§renme tabanl� algoritmalar daha
önceki deneyim durumlar�ndan bir model olu³turur. Olu³turulan modeller, da-
yand�§� veriyi iyi bir ³ekilde ifade etmeye çal�³�r ve bu verinin içindeki özellikle
gizli olan kurallar� ç�karmaya çal�³�r. K�sacas�, veri madencili§inin bir parças�
olan makine ö§renme algoritmalar� insan�n bulamayaca§� kurallar� ç�karmak
için kullan�l�r. En önemlisi ele ald�§� veriyi analiz ederek gelecekte olu³acak
durumlara tahminde bulunmas�d�r. Bu gücü sebebiyle ö§renme algoritmalar�
bilgisayarl� dilbilim çal�³malar�n�n hemen hemen tüm alt ba³l�klar� için uygu-
lanmaktad�r. Bu alt görevlerden biri olan Artgönderim Çözümlemesi için de
uygulanmaktad�r. Bu uygulamalar�n ne tür süreçlerden geçti§ine bakal�m.
3.3.1 Artgönderim �çin Ö§renme Süreçleri
Ö§renme algoritmalar� bir veritaban�ndaki veriye dayanarak bir model ortaya
ç�kar�r. Bu veritaban� birçok özellik ve tek bir hedef özellik (ya da sonuç) içeriyor
ise bu ö§renme yöntemine kontrollü (supervised), e§er sonuç alan� içermiyorsa
kontrolsüz (unsupervised) ö§renme denir. Kontrollü ö§renmede amaç, ba§�ms�z
özelliklerin hedef özellik ile olan ili³kisini bulmak. Buradaki Hedef ya da sonuç
di§er özellik ö§elerinden hangilerine daha çok ba§l�ysa o özellik ön plana ç�kar.
Bu özellikler birbirinden ne kadar ba§�ms�z olurlarsa ve hedef s�n�fa ne kadar
ba§�ml� olurlarsa model o kadar ba³ar�l� olur.
42
Peki Artgönderim çal�³malar� bu sürece nas�l ba§lanacak ? Söylemdeki her-
bir artgönderimsel ad�l ya da ö§e kendisinden önce gelen tüm söylem varl�kla-
r�yla e³le³ir. Bu e³le³melerin her biri bir kay�da denk dü³er. Bu kay�tlar�n hedef
s�n�f�, sözkonusu artgönderim ile e³le³di§i varl�§�n ya da gönderimsel ifadenin
gönderimsel bir ili³ki içinde olup olmad�§�na bak�larak belirlenir. E§er iki ö§e
aras�nda gönderimsel bir ili³ki var ise hedef s�n�f (sonuç) EVET olarak imlenir,
aksi durumda ise HAYIR olarak imlenir. Bu duruma basit bir örnekle aç�kl�k
getirelim. Diyelim ki
e1...e2...a1(�> e1 )...e3...e4...e5...a2(�>e4) (3.5)
söylem 3.5' deki gibi bir söylem üzerinde çal�³�yoruz. Bu söylemde e1,e2,e3,e4
ve e5 ö§elerinin gönderimsel ifade ve p1 ve p2 ö§elerinin ise ad�l oldu§unu kabul
edelim. Ad�l a1'in e1'e ve ad�l a2'nin e4'e gönderimde bulundu§unu varsayal�m.
Bu durumda olu³turulacak veri kay�t listesi Tablo 3.3'deki gibi olacakt�r.
Tablo 3.3: Ö§renme Veritaban�
Ad�l Gönderimsel �fade Sonuça1 e1 EVETa1 e2 HAYIRa2 e1 HAYIRa2 e2 HAYIRa2 e3 HAYIRa2 e4 EVETa2 e5 HAYIR
Bu tablodan da görüldü§ü gibi herbir ad�l ile ondan önce gelen her bir gönde-
rimsel ifade e³le³iyor. Bu e³le³meler iki ³ekilde yap�lmaktad�r. Birincisi olumsuz
e³le³me, ikincisi ise olumlu e³le³me. Bu tablo makine ö§renme algoritmas� için
bir e§itim kümesini temsil eder. Ancak bu a³amada belirtilmesi gereken bir
43
nokta ³udur: a ve e ile ifade etti§imiz ad�l ve gönderimsel ifadeler yerine bu
ö§elerin ya da varl�klar�n özellikleri koyulmal�d�r. Yani ad�la ait özellikleri ve
aday öncüle ait özellikler bu sat�rlarda bulunmal�d�r. Ayr�ca ad�l ile aday öncül
aras�ndaki yak�nl�k, uyum gibi ili³kisel bilgiler de bu özelliklere eklenmelidir.
Böylelikle ortaya ç�kan model, çözümü belli olmayan bir söylem üzerine uygula-
n�r ve bir çözüm sunar. Makine ö§renmesi tekni§ini Türkçe artgönderim çözüm-
lemesi için uygulayan henüz yoktur. Bu nedenle bir sonraki bölümde ö§renme
yakla³�m� içeren bu tekni§i di§er diller için kullanan çal�³malara bakaca§�z.
3.3.2 Di§er Dillerdeki Ö§renme Tabanl� Çal�³malar
[Aone ve Bennet, 1995.] Japonca metinlerde geçen farkl� türdeki artgönderim-
ler için makine ö§renme tabanl� bir sistem geli³tirdiler. Bu çal�³ma artgönderim
problemine makine ö§renmesi yakla³�m�n� sunan ilk çal�³mad�r. Bu çal�³madan
sonra birçok makale bu çal�³maya at�fta bulunmu³tur. Ö§renme algoritmas� için
gereken özellik vektörü için toplam 66 özellik kullanm�³lard�r. Bu özellikler söz-
lüksel bilgiler, sözdizim bilgileri, anlamsal bilgiler ve ad�l ile öncül aras�ndaki
mesafe bilgisinden olu³ur. Çal�³mada iki olumlu örnek yaratma metodu kullan�l-
m�³t�r: Geçi³li ve geçi³siz. Geçi³li olumlu örnekler, herbir artgönderim ile dahil
oldu§u artgönderimsel zincir üzerindeki onlardan önce gelen tüm ad öbekleriyle
olu³turulan örneklerden olu³ur. Geçi³siz örnekler ise, herbir artgönderim ile da-
hil olduklar� artgönderimsel zincir üzerindeki onlardan önce gelen ilk (en yak�n)
ad öbekleriyle olu³turulan örneklerden olu³ur. Olumsuz örnekler ise benzer bir
³ekilde her bir artgönderimsel ifade ile ondan önce gelen ve artgönderimsel zin-
cir üzerinde olmayan gönderimsel ifade e³le³melerinden yarat�l�r. Bu ³ekildeki
e³le³meler e§itim ve sa§lama kümesini olu³turur. Bu deney [Quinlan, 1993.] -
C4.5 karar a§ac� algoritmas�n� kullanm�³ ve çal�³man�n sonunda ö§renme ta-
44
banl� sistemin bilgi tabanl� sisteme oranla daha ba³ar�l� oldu§u vurgulanm�³t�r.
Bu çal�³madaki model 1971 ad�l kapasiteli e§itim kümesi ile e§itilmi³ 1359 ad�l
kapasiteli sa§lama kümesi ile s�nanm�³t�r. Bu test sonucunda al�nan en iyi anma
sonucu (recall) % 70.20, kesinlik sonucu (precision) % 88.55 ve f-ölçütü ise %
77.27 olarak ölçülmü³tür.
C4.5 karar a§ac�n� kullanan bir ba³ka çal�³ma [McCarthy ve Lehnert, 1995.]
taraf�ndan uygulanm�³t�r. Ad öbekleri aras�ndaki gönderimsel ili³kiler (corefe-
rence resolution) gibi tüm ili³kileri kapsayan bir sistem kurulmu³tur. Kullan-
d�klar� 1230 örnek durumun % 26's� olumlu ve %74'ü olumsuzdur. RESOLVE
ismini verdikleri sistem MUC-5 isimli �ngilizce metinlerden olu³an bir derlem
üzerinde denenmi³ ve ba³ar�l� sonuç al�nm�³t�r. Bu çal�³mada da yine ö§renme
tabanl� yöntemlerin bilgi tabanl� yöntemlere göre daha ba³ar�l� oldu§u vurgu-
lanm�³t�r. Çal�³mada kullan�nan a§aç budamas�z oldu§unda anma, kesinlik ve
f-ölçütü s�ras�yla % 85.4, % 87.6 ve % 86.5 ç�km�³t�r. Budamal� bir a§aç kulla-
n�ld�§�nda ise s�ras�yla %80.1, % 92.4 ve % 85.8 sonucu elde edilmi³tir.
[Soon vd., 2001.] yine karar a§ac� ö§renme algoritmas� kullanarak az bilgili
7 bir yakla³�m sunmu³tur. Toplam 12 adet özellik kullan�lm�³t�r. Sistem bir söz-
lüksel özellik (e³sesli), sekiz dilbilgisel özelliksel (cinsiyet, say�, ek, ad öbe§i türü
vb.), iki anlamsal özellik ve bir pozisyon özelli§i (ad öbekleri ve ad�llar aras�ndaki
uzakl�k bilgisi) içerir. Bu çal�³mada olumlu örnekler ile olumsuz örnekler aras�n-
daki denegesizli§i 8 gidermek için olumsuz örneklerin sadece baz�lar� al�nm�³t�r.
Olumsuz örnekler ³u ³ekilde olu³turulmu³tur: Her bir ad�l ya da gönderimsel ad
7Az bilgili yakla³�mlar bilgiye ba§l�l�§� azaltmak ve böylelikle daha pratik, daha h�zl�, dahaaz ba§�ml� bir sistem olu³turmak isterler. Özellikle gerçek uygulamalarda az bilgiyle çal�³makçok önemlidir
8Olumlu örnekler olumsuz örnekler göre daha az oldu§undan bu oran baz� uygulamalardayüzde 10 seviyesinin altina dü³er. Bu seviye makine ö§renmesi algoritmalar� için oldukçazararl�d�r. Çünkü ö§renme algoritmalar� her iki s�n�f de§eri -yani evet ve hayir ya da 1 ve0- için mümkün oldu§unca dengeli bir veritaban� olmas�n� ister. Bu dengesizlik ve bunungiderilmesi ö§renme tabanl� artgönderim çözümlemelerinin en ciddi problemlerindendir.
45
öbe§i ile onun en yak�n öncülü aras�nda kalan ve gönderimsel bir ili³ki içinde
olmayan ad öbekleri ya da gönderimsel ifadeler ile olu³an küme olumsuz küme
olarak belirlenir. Olu³turulan sistem, gönderimsel ili³kileri önceden belirlenmi³
iki veri kümesi (MUC-6, MUC-7) üzerinde denenmi³ ve ba³ar�l� bir sonuç elde
etmi³tir. 13.000 kapasiteli bir derlem üzerinde gerçekle³tirilen deneylerden ç�kan
sonuçlar % 52 /anma, % 68 /kesinlik ve % 58.9 /f-ölçütü ³eklindedir.
3.4 Türkçe için Bilgisayarl� Artgönderim Çözüm-
leme Çal�³malar�
Türkçe'ye yönelik dilbilimsel çal�³malar�n bollu§una kar³�n bilgisayarl� dilbilim-
sel çal�³malar� çok fazla de§ildir. Artgönderim çözümlemesi için de bu durum
geçerlidir. Türkçe için yap�lan ilk bilgisayarl� çal�³malardan biri
[T�n ve Akman, 1994] taraf�ndan yap�lm�³t�r. Durum Anlambilimini (Situ-
ation Semantic) temel alan bir çerçeve sunulmu³tur. Bilgisayarl� bir çerçeve
içinde çözüm sunan bu yap� BABY-SIT olarak adland�r�lm�³t�r. Bu durum te-
orisine göre bir söylem yap�s�n� bireyler, onlar�n özellikleri, birbirleri aras�ndaki
ili³kileri ve durumlar� belirler. Ancak bu teorik çerçevede sunulan bilgisayarl�
model deneysel bir sonuç sunmam�³t�r. Dolay�s�yla bir ba³ar� oran� belirtilme-
mi³tir.
[Turhan-Yöndem ve �ehito§lu, 1997] tümce içi bo³ artgönderimler için
öbek-yap� dilbigisi çerçevesinde bir çal�³ma sundular. Bu çal�³mada bo³ art-
gönderimlerin çözümünün tümce bile³enlerinin s�ras�na ba§l� oldu§unu belirtil-
mi³tir. HPSG (Head-Driven Phrase Structure Grammar) dilbilgisi tabanl� bir
ayr�³t�r�c� kullan�lm�³t�r. Çal�³mada vurgulanan bir ba³ka nokta ise çözümleme-
nin anlambilimsel ba§lant�lara ba§l� oldu§udur. Konu³ucular ve dinleyicilerin
46
artgönderimlerin çözümü için anlambilimsel ba§lant�lar� kulland�klar� belirtil-
mi³tir.
[Yüksel ve Boz³ahin, 2002] önerdikleri sistemde ba§lama teorisi ve mer-
kezleme teorisi için baz� kurallar kullanarak yerel ve yerel olmayan gönderimleri
modellemi³lerdir. Yerel gönderimler ba§lama kuram�n�n temel kurallar�na göre
yap�land�r�lm�³t�r. Yerel olmayanlar tümce d�³� bir gönderim çerçevesinde ele
al�nm�³t�r. Çal�³man�n içerdi§i bir di§er konu ise Türkçe'nin ad�l dü³ürme yap�s�
ile ilgildir. Bu ba³l�k alt�nda ad�llar�n nas�l dü³tü§ü ya da nas�l bo³ artgönde-
rime dönü³tü§ü tart�³�lm�³t�r. Bu bilgisayarl� yakla³�m deneyi makine çevirisi
sisteminde test edilmi³tir ve ba³ar� oran� %70 olarak kaydedilmi³tir.
[Tüfekci ve K�l�çaslan, 2005] Hobbs Algoritmas�n� Türkçe metinler üze-
rinde uygulam�³t�r. Bu uygulamada kendi olu³turudu§u derlem üzerinde deney-
lerini gerçekle³tirmi³tir. Kullan�lan model tümcelerin ayr�³t�rma a§açlar� üzerin-
den bir analiz yapar. Dolay�s�yla her bir tümcenin ayr�³t�rma a§ac� da derleme
girilmi³tir. Bu çal�³mada elde edilen ba³ar� oran� % 84 olarak belirtilmi³tir.
[Küçük, 2005] ve [Küçük ve Turhan, 2007] az bilgili ad�l çözümleme
modeli sunmu³tur. Sistem s�n�rl� dilbilimsel ve anlamsal bilgi kulland�§� için az
bilgili bir model olarak ifade edilmi³tir. Kural tabanlu bu çal�³mada ise % 85.3
anma ve % 88 kesinlik sonuçlar�na ula³�lm�³t�r.
47
Bölüm 4
TÜRKÇE �Ç�N ARTGÖNDER�M
ÇÖZÜM DENEMELER�
Bu bölümde Türkçe için artgönderim çözümünün nas�l uyguland�§� anlat�lacak-
t�r. Bir çok farkl� algoritma s�nanarak, ortaya ç�kan sonuçlar üzerinden bir tar-
t�³ma olu³turulacakt�r. As�l amac�m�z farkl� yakla³�mlar� Türkçe metinler üze-
rinde ne gibi tepkiler verdi§ini incelemektir. Bu deneyler daha sonraki deneylerin
için yol gösterici oldu§una inanmaktay�z.
Di§er diller için, özellikle �ngilizce için son yirmi y�lda birçok hesaplamal�
model ve yakla³�m sunulmu³tur. Oldukça fazla say�da olan bu çal�³malar�n ön
plana ç�kanlar� önceki bölümlerde tart�³�ld�. Bu a³amadaki amaç bu yakla³�m-
lardan baz�lar�n� ele alarak Türkçe için uygulanabilirli§ini, nas�l uygulanaca-
§�n� ve sonuçlar�n� tart�³makt�r. Tart�³madaki en önemli vurgu Bilgi Tabanl�
(Knowledge-Based) yakla³�mlarla Ö§renme Tabanl� yakla³�mlar�n kar³�la³t�r�l-
mas�d�r. �ki ayr� yakla³�m�n Türkçe derlem üzerindeki etkisi sonuçlar� ekseninde
de§erlendirilecektir.
48
4.1 Derlem
Bu çal�³ma kapsam�ndaki en önemli unsurlardan biri, üzerinde deneylerimizi
gerçekle³tirece§imiz Türkçe derlemdir. Türkçe için bir kaç derlem çal�³mas� ya-
p�lm�³t�r. Ancak bu derlemlerden ara³t�rmac�lara aç�k olanlar eksik bilgiler içer-
mektedir. Özellikle söylem analizleri için çok uygun de§ildir. Çünkü derlemin
içerdi§i söylemler s�ral� ve tutarl� tümcelerden olu³mamaktad�r. Tümce düze-
yindeki çal�³malar için uygun olmas�na kar³�n, söylem düzeyi için çok uygun-
de§illerdir. Bir ba³ka olumsuzluk ise artgönderimsel ili³kilerin bu derlemlerde
belirtilmemi³ olmas�d�r. Bu çal�³mada ihtiyaç duyulan ve üzerinde deneyler ya-
p�lacak olan derlemin artgönderimsel ili³kilerinin belli olmas� gerekir. Bu neden-
den dolay� 20 farkl� çocuk hikayesinden olu³an bir örnek derlem olu³turulmu³tur.
Bu derlemin toplam 10165 kelimeden olu³ur ve içindeki ad�l say�s� ise 1114'tür.
Bu ad�llar tiplerine ve derlemdeki oranlar�na göre ³u ³ekilde s�ralan�r;
1. %82.3 ki³isel ad�l (personal pronoun)
2. %6.6 yerel ad�l (locative pronoun)
3. %10.7 dönü³lü ad�l (re�exive pronoun )
4. %0.4 kar³�l�kl� ad�l (reciprocal pronoun).
Derlem özellik-de§er ³eklinde bir veritaban� tablosu olarak kaydedilmi³tir.
Bu derlemin özelliklerini ³u ³ekilde s�ralayal�m.
• Durum Eki: Ad�l�n ya da aday öncülün dilbilgisel durum eki; Yal�n hali,
Belirtme Hali, Yönelme Hali, Ayr�lma Hali, �lgi Hali, Bulunma Hali
• Dilbilgisel �³lev: Bir ö§enin Özne ya da Konu olma durumu
49
• Aç�kl�k : Bir ad�l�n aç�k ya da bo³ olup olmad�§�
• Ad�l Tipi : Olas� ad�l tipleri ki³isel, yerel, dönü³lü ve kar³�l�kl�.
• Anlamsal Tip : Bir ö§enin olas� anlamsal tipleri insan, hayvan, bitki,
yer, cans�z varl�k ve soyut varl�k olabilir.
• Ki³i Say�: Ki³i say� bilgisi bir ö§enin tekil-ço§ul olma durumu ile 1., 2.
ve 3. ki³i olma durumu.
• Pozisyon: Ö§enin hangi söylemde, hangi tümcede ve hangi s�rada ol-
du§u
• Öncül Pozisyonu Bir ad�l�n i³aret etti§i öncülün pozisyonu
• Gönderimsel �fade: Bir söylem varl�§�n�n gönderimsel ifade olup ol-
mad�§�
Yap�lan tüm artgönderim çal�³malar�nda kullan�lan özellik say�s�
([McCarthy ve Lehnert, 1995.]) 8'den ([Aone ve Bennet, 1995.] )66'a kadar de-
§i³ebilmektedir. Sistemimiz yar� otomatik oldu§u için bu özelliklerin bir k�sm�
elle bir k�sm� yard�mc� kütüphaneler ile otomatik olarak gerçekle³tirilmi³tir.
Özelliklerin elle girilmesi için java ile yaz�lm�³ bir arayüz tasarlad�k. �ekil 4.1'de
de görülen arayüz ile derleme yeni söylemler girebiliyoruz ve onlar� güncelle-
yebiliyoruz. Kullan�lan bu arayüz ayn� zamanda web tabanl� bir versiyona da
sahiptir. Bu web arayüzü ile birçok ki³i ayn� anda sisteme ba§lan�p söylem dahil
edebiliyor.
Derlemdeki bu özelliklerin baz�lar� yard�mc� kütüphaneler kullan�larak oto-
matik girilmi³tir. Bu aç�dan olu³turulan sisteme yar�-otomatik artgönderim çö-
50
�ekil 4.1: Derlem Girme ve Güncelleme Arayüzü
zümleme sistemi denebilir. Bu yard�mc� kütüphanelerden biri biçimbilimsel ana-
liz yapan Zemberek Kütüphanesidir 1
Girilen söylemlerin geni³li§i içerdi§i ad�llar�n gönderimde bulundu§u öncül-
leri kapsayacak ³ekilde belirlenmi³tir. Yani gereksiz tümceler söylemden ç�kar�-
l�m�³t�r. Bu nedenden ad�llar�n oran� çokmu³ gibi durmaktad�r. Her bir ad�l�n
öncülü mutlaka söylem içerisinde bulunmaktad�r. Derlemdeki en büyük söylem
26 tümceden olu³ur.
4.2 Gönderimsel �fadelerin Tespiti
En önemli a³amalardan biri söylemdeki ö§elerin birer söylem varl�§� olup olma-
d�§�na karar vermektir. E§er bir ö§e söylemde gönderimsel varl�k olam�yorsa,
daha sonraki tümcelerden ona bir gönderimde bulunulamaz. Bu anlamda, bir
söylem ö§esi söylem varl�§� olam�yorsa bir ad�l�n olas� öncülü de olamaz ve öncül
aday listesinden ç�kar�l�r. [Turan, 1996] bu olgu için a³a§�daki kurallar� tan�mla-
m�³t�r. Bu kurallar�n baz�lar� çal�³mada olu³turulan derlemin i³aretlenmesi için
kullan�lm�³t�r. Kullan�lan kurallar ³u ³ekilde s�ralanabilir.
1Zemberek biçimbilimsel analiz yapmak için kullan�lan aç�k kaynak bir yard�mc� JavaAPI'sidir. Kelimelerin kökünü bulma, eklerini belirleme gibi sözlük düzeyi i³lemleri yapa-bilmektedir.
51
1. Belirtisiz yüklemsel nominaller (inde�nite predicative nominal ) söylem
varl�§� olu³turamazlar.
Her ³ey sonsuz bir yar�³.
Ben sevmem yar�³lar�/*onlar� (4.1)
Yukar�daki söylemde birinci tümcedeki yar�³ (inde�nite predicative nomi-
nal) belirtisiz yüklemsel oldu§undan onlar� ad�l� ile gönderimsel bir ili³ki
içinde olamaz.
2. Bir i³aret ile kullan�lan ad bir söylem varl�§� olu³turur.
�u elbise çok güzel görünüyor. Onu denemek istiyorum. (4.2)
Yukar�daki söylemde elbise bir isimdir ve ³u i³areti ile kullan�lm�³t�r. Bu
kullan�m bir söylem varl�§� olu³turdu§undan elbise söylem varl�§�na Onu
ad�l� ile ula³�labilir.
3. (Accusative case) Belirtme durum eki genel anlamda kullan�lan isimleri
söylem varl�§� yapabilir.
Ben hayvanlar� severim. (4.3)
Onlar�n ac� çekmelerini istemem.
Bu söylem örne§inde, hayvanlar bir söylem varl�§�d�r. Çünkü belirtme du-
rum eki ile kullan�lm�³t�r. Dolay�s� ile bir ad�l ile ula³�labilirler.
52
4. Belirtme tak�s� içindeki generic kullan�lan isimler söylem varl�§� olu³turu-
lar. Fakat belirtme eki yoksa bir söylem varl�§� olu³turamazlar.
Ben eti severim. (4.4)
Onu her zaman yerim.
Yukar�daki söylemde et ad� belirtme durum eki ile kullan�lm�³t�r. Dolay�s�
ile ula³�labilir. Ancak a³a§�daki söylemde et ad� hiçbir durum eki tak�s�
almam�³t�r. Sonuç olarak bir söylem varl�§� olu³turamaz ve bir sonraki
tümceden yap�lacak ad�lsal gönderme hatal� olur.
Kasap iyi et satar. (4.5)
Ben hep eti *ondan al�r�m.
4.3 Bilgi Tabanl� Çözüm Önerileri
Bu bölümde artgönderim çözümü için uygulanacak bilgi tabanl� yöntemlerden
bahsedilecektir. Bu yöntemler dilbilim çal�³malar�ndan olu³turulan teoriler üze-
rine kurulur ve baz� kurallardan olu³ur. Bu yöntemlerden baz�lar� daha önce
tart�³�ld�. Bu bölümde bu yakla³�mlardan ikisi ele al�narak Türkçe derlem için
baz� denemeler yap�lacak ve sonuçlar� tart�³�lacakt�r.
53
4.3.1 Merkezleme Tabanl� Çözüm Önerisi
Merkezleme Tabanl� yakla³�mlardaki süreç daha önceki bölümlerde bahsedilmi³-
tir. Bu çal�³mada uygulanan Merkezleme Teorisine dayanan yöntem ayr�nt�l� bir
³ekilde ele al�nacakt�r. Sistemin bir ak�³� �ekil 4.2'de gösterilmi³tir. Bu ³ekilde
sistem dokuz a³ama ile ifade edilse de her a³ama kendi içersinde ba³ka a³amalar
içerebilmektedir.
(1) nolu ö§e, i³lenmi³ metin (Annnotated Text), daha önceki süreçlerden
(sözdizimsel, anlambilimsel, biçimbilimsel analizlerden) geçti§inden, bu analiz-
lere ili³kin i³aretleri ve bilgileri içermektedir. (2) nolu a³amada gönderimsel
ifadeler, (3) nolu a³amada ad�lsal ö§eler belirlenir. (4) nolu a³ama her bir ad�l
için bir iterasyon ba³lang�c�n� ifade eder. Sistem her seferinde bu noktaya geri
döner. (5) nolu a³ama ise ad�ldan önce gelen tüm öncüllerin listesini içerir.
Merkezleme Kuram� gere§ince her bir ad�l hep bir önceki tümcedeki öncüllerle
ba§lant� olu³turur. Dolay�s� ile bu a³amada bir önceki tümcede yer alan öncüller
listelenir.
Aday Öncüllerin Ay�klanmas�
(6) nolu a³ama ay�klama a³amas�d�r. Her bir gönderge ya da ad�l için onu ön-
celeyen bir aday öncül listesi olu³turduktan sonra bu listenin ay�klanmas� ve
gereksiz öncüllerin listeden ç�kar�lmas� gerekir. Bunun için önce gereksiz ön-
cüllerin belirlenmesi gerekiyor. Uygulanan yöntemler sözdizimsel ve anlamsal
olabilir. Sözdizimsel ay�klamada ad�l�n say� ki³i bilgisiyle ona aday olacak öncü-
lün say� ki³i bilgisinin ayn� ya da tutarl� olmas� gerekiyor. �ngilizce için geçerli
olan cinsiyet (gender) uyumu Türkçe için geçerli de§ildir. Öte yandan ad�l, ana
tümcenin ya da yan tümcenin öznesi pozisyonunda ise o tümcenin yüklemiyle
ki³i-say� uyumu içinde olmal�d�r. Bu ko³ullara uymayan aday öncüller listeden
54
ç�kar�l�r. Benzer bir ³ekilde anlamsal k�s�tlamalar ya da ay�klamalar da yap�-
labilmektedir. Örne§in "bir ev ba§�ramaz", "bir köpek kitap okuyamaz" gibi
anlamsal k�s�tlar uygulanabilir. Ama edebiyatta bir evin ba§�rmas� ya da bir
çocuk hikayesinde bir köpe§in kitap okumas� ola§an bir durum olabilir. Dolay�-
s�yla, çal�³ma alan�na göre bir anlamsal kurallar olu³turulmal�d�r.
Bu çal�³ma için uygulanacak ay�klama yöntemi sadece say�-ki³i uyumu ola-
cakt�r. Çünkü di§er ay�klama teknikleri bilgiye çok fazla ihtiyaç duyarlar. Az
bilgili bir yakla³�m için sadece sözdizimsel bilgi ile bu ay�klaman�n iyi sonuçlar
verdi§i gözlemlenmi³tir.
S�ralama
Bir sonraki a³ama (7) numaral� s�ralama a³amas�d�r. Merkezleme Teorisi yakla³�-
m�ndaki en önemli a³ama gönderimsel ifadelerin ya da aday öncüllerin nas�l s�ra-
lanaca§� a³amas�d�r. Daha önce yap�lan çal�³mada, ([Y�ld�r�m ve K�l�çaslan, 2005])
bu s�ralama hiyerar³isini a³a§�daki ³ekilde tan�mlam�³t�r.
Agent > Time > Duration > Location >
Instrument > Manner > Benefactive >
Theme(orPatient) > Source−Goal (4.6)
Konu ili³kili (Thematic relation) bu s�ralaman�n bilgiye ba§�ml�l�§� fazla ol-
du§undan ve ayn� zamanda bu tez çal�³mas�nda az bilgili bir yakla³�m denendi-
§inden ba³ka bir s�ralama önerilmesi gerekmi³tir. Bu s�ralamay�, tespit edilmesi
basit olan ad öbeklerinin isim halleri (case) üzerinden yap�lmas� uygun bulun-
mu³tur. 4.1 nolu bölümde bahsedilen derlem üzerinden elde edilen istatistiksel
sonuç Tablo 4.1'de gösterilmi³tir. Bu tablo gönderimde bulunulan söylem varl�k-
56
lar�n�n alm�³ oldu§u isim hallerinin s�kl�§�n� (case frequency) ifade etmektedir.
Bu istatistiksel tablo isim hallerinin söylem varl�klar�n�n belirginlikleri üzerin-
deki etkisini gösterir. Daha çok hangi isim haline sahip söylem varl�klar� sonra-
dan ad�lsalla³t�r�larak ifade edilmi³tir? Bu sorunun tek bir cevab�n�n olmad�§�n�
bu tablo aç�kl�yor.
Tablo 4.1: Öncüllerdeki �sim Hallerinin Olu³ma S�kl�§�
Öncüllerin Durum Eki S�kl�§�Yal�n Hal (NOM) 0.69Belirtme Hali 0.12Yönelme Hali 0.06Ayr�lma Hali 0.02Bulunma Hali 0.01
�lgi Hali 0.10
En çok vurgu alan isim hali Yal�n Haldir (Nominal). Bu durum bekle-
nilen bir sonuçtur. Çünkü Yal�n Hal tümcenin öznesinin sahip oldu§u haldir.
Di§er isim halleri ise nesne ö§elerinin sahip oldu§u hallerdir. Dilbilgisel rolün
belirginlik üzerindeki etkisi daha önce ifade edilmi³ti. Özne nesneden belirgin
oldu§undan bu tablodan bir hiyerar³i ç�karmak çok mant�ks�z olmayacakt�r. Bu
istatistiksel tabloyu temel alarak a³a§�daki s�ralama olu³turulabilir.
Yal�n Hal > Belirtme Hali > �lgi Hali >
Yönelme Hali> Ayr�lma Hali > Bulunma Hali (4.7)
Görüldü§ü gibi olu³turulan sistem az bilgili bir çerçeve içindedir. Sadece
ismin hallerine bak�lm�³t�r. Bu anlamda Merkezleme Teorisi temelinde yap�lan
çal�³ma di§er çal�³malara göre en az bilgi kullanan sistemdir. Bu s�ralamada
yal�n hale sahip söylem varl�klar� daha belirgin ya da daha önemli oluyor. S�ra-
lamada sa§a do§ru gidildikçe önem de§erleri azalmaktad�r.
57
(8) nolu a³amada, (7) nolu s�ralamaya göre s�ralanan öncüllerden ilki ele al�-
nan ad�l�n seçili öncülü haline gelir. Ancak bir tümcede birden fazla ad�l varsa
hangi ad�l en belirgin öncül ile e³le³ecektir ? Bu sorunun çözümü yine Merz-
kezleme algoritmas� yan�tlamaktad�r. Birden fazla ad�l oldu§u durumdlarda bu
ad�llar yukar�daki s�ralamaya göre s�ralan�r. Bu s�ra göz önüne al�narak adaylar
e³le³tirilir. Yani asl�nda burada en iyi birle³imleri seçmemiz gerekiyor. �imdi
ilerleyen bölümlerde bu ifadelere biraz daha aç�kl�k getirelim.
En �yi Birle³imin Seçimi
Verili bir tümcedeki tüm ad�llar için bir önceki tümcedeki tüm gönderimsel
ifadelerden olu³an ad�l-aday çiftleri üzerinden birden fazla ili³ki senaryosu olu³-
turulur. Bu birle³imlerden hangisinin seçilece§i Merkezleme Teorisi yard�m�yla
belirlenir. Bu senaryolar�n veya birle³imlerin yol açt�§� geçi³ dikkate al�n�r. Her
bir birle³imin geçi³i 3.4 nolu s�ralamaya göre belirlenir. En iyi geçi³e sahip birle-
³im bu a³aman�n ç�kt�s� olur. Daha öncede belirtildi§i gibi Merkezleme Teorisine
göre söylemler merkez var olan varl�klar�n yine merkezde kalmas� e§iliminde-
dirler. Yani bir ö§e bir önceki tümcede merkezde ise, bir sonraki tümcede de
merkezde kalmas� tercih edilir. Bunun için Merkezleme Teorisi Bölümüne bak�-
labilir.
Son a³amada, yani (9) nolu a³amada ise tüm karar verilen bu e³le³meler
sisteme kaydedilir. Ve bir sonraki tümceye geçilir. Bu geçi³ten sonra tüm listeler
tekrar güncellenir.
Basit Bir Örnek
Basit bir örnek ile bu uygulamaya aç�kl�k getirilebilir. A³a§�daki üç tümceli
söylem ele al�nd�§�nda yöntem ³u ³ekilde uygulanabilir.
58
T1 :Ay³e Ali'yi yolda gördü
T2 : Ona elindeki kitaplar� gösterdi
T3 :Ve onlar� eve götürmesini rica etti (4.8)
T1 için olu³turulacak ileriye dönük liste, Mi(T1), Ay³e, Ali ve yol söylem
varl�klar�n� içerir.
1. Ay³e (Yal�n Hal)
2. Ali (Belirtme Hali)
3. Yol (Bulunma Hali)
Bu söylem varl�klar�ndan Yol ö§esinin gönderimsel ifade elemesinden geçemedi§i
varsay�ls�n. Bu liste 4.7 nolu hiyerar³iye göre s�raland�§�nda
Ay³e > Ali (4.9)
gibi bir s�ralama olu³ur.
T2 için olu³turulacak ileriye dönük liste, Mi(T2) ise, � (bo³ artgönderim),
Ona ve Kitap söylem varl�klar�n� içerir. Bu söylem varl�klar�n�n elemeden ba-
³ar�l� bir ³ekilde geçti§i varsay�ls�n.
1. � (bo³ artgönderim), Üçüncü Tekil Ki³i
2. Ona, Aç�k ad�l, Yönelme Hali (Dative)
59
3. Kitap, Ço§ul, Belirtme Hali
Bu liste s�raland�§�nda ise
� > Ona >Kitaplar� (4.10)
gibi bir s�ralama olu³ur. Bu listedeki ad�llar�n her biri için aday öncül belirlen-
mesi gerekiyor. Her iki ad�l için {Ay³e, Ali} listesi olas� öncül listesidir.
Öncül Listesi( � ) : ( Ali, Ay³e)
Öncül Listesi (Ona) :(Ali, Ay³e) (4.11)
Bu a³amada 4.2 nolu tabloda gösterildi§i gibi iki seçenekli senaryo olu³ur.
Tablo 4.2: Senaryolar
� OnaSenaryo 1 Ali Ay³eSenaryo 2 Ay³e Ali
Bu a³amada hangi senaryonun Merkezleme Kuram� aç�s�ndan en iyi geçi³i
verdi§ine bak�lmal�d�r. Birinci senaryo seçildi§inde 3.1 nolu tabloda belirtilen
geçi³lerden DEVAM geçi³i seçilmi³ olacakt�r. E§er ikinci senaryo seçilirse bu du-
rumda geçi³in ismi YUMU�AK-GEÇ�� olacakt�r. DEVAM geçi³i YUMU�AK-
GEÇ��'e tercih edildi§inden bu a³amada birinci senaryo tercih edilecektir. Sonuç
olarak � bo³ artgönderimi Ay³e'ye, ona aç�k ad�l� Ali'ye gönderimde buluna-
cakt�r.
60
T3 için bu algoritma tekrar çal�³t�r�ld�nda bu tümcedeki onlar� artgönderimi
Ali ve Ay³e ö§eleriyle say�/ki³i uyumu sebebiyle e³le³emez. Ard�ndan bir tek
kitaplar söylem varl�§� kal�r ve bu ö§e onlar ad�l�n�n öncülü olarak seçilir.
Merkezleme Yakla³�m�n Sonuçlar�
Yukar�da tan�mlanan algortimay� tüm a³amalar�yla Java diliyle yaz�lm�³ ve der-
lem bölümünde bahsedilen 10.000 kapasiteli derlem üzerinde denenmi³tir. Uy-
gulama sonucunda derlemdeki 1114 ad�l�n 792'si do§ru bir ³ekilde çözümlendi.
[Mitkov, 2002]'un tan�mlad�§� 4.12 nolu formulü kullan�rsak
Ba³ar� Oran�= Do§ru Çözülmü³ Ad�l Say�s�Toplam Ad�l Say�s� (4.12)
Ba³ar� Oran�= 7921114 = .711 (4.13)
gibi bir ba³ar� oran� elde edilir. Bilgisayarl� Artgönderim için yap�lan ça-
l�³malar�n say�s� çok az oldu§undan ve ortak bir derlem olmad�§�ndan ortaya
ç�kan sonuçlar�n do§ru bir ³ekilde kar³�la³t�r�lmas�n�n imkan� yoktur. Ama yine
de Türkçe için yap�lan di§er bilgisayarl� çal�³malarla basit anlamda bir kar³�la³-
t�rma yap�labilir. Bununla ilgili son çal�³malardan iki tanesi ile bir kar³�la³t�rma
yap�labilir. [Tüfekci ve K�l�çaslan, 2007] Hobbs'un algoritmas�n� kullanarak %84
gibi bir ba³ar� yakalad�§�n� belirmi³tir. Öte yandan [Küçük ve Turhan, 2007] az
bilgili sistemleri üzerinde iki farkl� deney yapm�³t�r. Ve bu deneylerin sonucunda
%85.3 ve %73.7 gibi iki farkl� sonuç elde etmi³lerdir. Bu sonuçlara bakmaktaki
61
temel amaç say�sal bir kar³�la³t�rma de§ildir. Türkçe için genel resmi görmek
içindir. Zaten bu tez çal�³mas�n�n sonunda tüm diller için yap�lan çal�³malar�n
sonuçlar�na bak�lacakt�r.
Merkezleme Algoritmas� çercevesinde yap�lan bir di§er de§i³iklik ise 4.7 nolu
formüldeki de§i³ikliktir. Çok iyi bilinen bir gerçek vard�r ki ad�ls� ö§eler söylem
içinde di§er söylem varl�klar�na göre daha belirgindir. Bu nedenden 4.7 nolu
s�ralamay� sadece bu bilgiyi ekleyerek 4.14 nolu formül halinde yeniden ifade
edildi ve uyguland�.
Yalin[ adil] > Belirtme[+ad�l] > �lgi[+ad�l] >
Yönelme[+ad�l] > Ç�kma [+ad�l] > Bulunma[+ad�l] >
Belirtme[-ad�l] > �lgi[-ad�l] >Yönelme[-ad�l] >
Ç�kma[-ad�l] > Yönelme[-ad�l] (4.14)
Bunun ard�ndan ba³ar� oran�nda yüzde 1 oran�nda küçük bir art�³� oldu. Bu
sonuçtan sonra ad�ls� söylem varl�klar�n�n çok az da olsa daha belirgin oldu§u
Türkçe içinde sözkonusu oldu§u söylenebilir. Bu bilgi daha sonra yap�lacak ça-
l�³malar aç�s�ndan önemlidir.
4.3.2 Belirginlik Tabanl� Çözüm Önerisi
Artgönderim çal�³malar�n�n en önemli yakla³�mlar�ndan biri [Lappin ve Leass, 1994]
taraf�ndan önerilmi³ RAP algoritmas�d�r. Bu yakla³�ma benzer bir sistem ise
[Mitkov, 2002]'un sundu§u MARS sistemidir. Bu yöntemler sadece �ngilizce için
de§il Lehçe, Arapça, ve Norveççe için de ba³ar�l� bir ³ekilde uygulanm�³t�r. �n-
62
gilizce d�³�ndaki di§er diller için, bu yöntemler basit bir de§i³iklik ile uygula-
nabilmi³tir. Türkçe için de basit bir de§i³iklikle bu yöntem bu tez kapsam�nda
uygulanm�³t�r. Bu yöntem belirginlik temmellidir ve sözdizimsel bilgi kullanmas�
aç�s�ndan az bilgili sistemdir. Yöntem aday öncüllere, özelliklerine bakarak belli
puanlar verir. En çok puan� alan öncül as�l öncül olarak seçilir.
Dolay�s�yla bu noktadaki en temel soru puanlaman�n nas�l belirlenece§idir.
Örne§in �ngilizce için dü³ünüldü§ünde dilbilgisel i³lev özelli§i, en önemli özel-
liktir ve bu yüzden en çok puan� bu özellik al�r. Ancak her dilde bu böyle
olmayabilir. Örnek olarak [Holen, 2007] Norveççe için yapt�§� çal�³mada özne
pozisyonunun belirginlik için önemli olmad�§�n� vurgulam�³t�r. Türkçe için ba-
k�ld�§�nda bu özelli§in önemli oldu§u söylenebilir. Dolay�s�yla bu tez için olu³-
turulan sistemde Özne dilbilgisel görevine sahip ö§eler nesne konumunda olan
ö§elere göre daha çok puan alacaklard�r. Say�, ki³i ve cinsiyet ise di§er sözdizim-
sel özelliklerdir. Söz konusu ad�l ile o ad�lla say� ve ki³i uyumu gösteren öncüller
di§er öncüllere göre daha çok puan al�r. Öte yandan �ngilizce için kullan�lan
cinsiyet kodlamas� Türkçe'de olmad�§�ndan bu bilgi kullan�lmayacakt�r. Tüm
bu belirginlik etkenleri a³a§�daki ³ekilde s�ralanabilir:
• Özne Etkeni: Bu etken daha önce de bahsedildi§i gibi en önemli un-
surlardan biridir ve Türkçe için bu durum geçerlidir. Merkezleme Teorisi
tabanl� yakla³�mda da görüldü§ü gibi, özne pozisyonunda bulunan mer-
kezin de§i³meme e§ilimi vard�r. Özne pozisyonundaki ö§eler ço§u zaman
bo³artgönderim halinde sürekli kendilerini var ederler.
Ali sabah okula gitmek için evden ayr�ld�.
�lk olarak kalabal�k bir yoldan kar³�ya geçti.
Okula vard�§�nda arkada³lar�n�n onu bekledi§ini gördü... (4.15)
63
Yukar�daki söylemde görüldü§ü gibi özne pozisyonundaki söylem varl�§�
Ali, özne pozisyonundaki bo³artgönderimlerle sürekli tekrarlan�r. Bazen
uzun hikayelerde bu durum çok daha uzun olur ve artgönderim çözümü de
o derece basit olabilir. Bu anlamda özne pozisyonundaki ö§elerin bo³art-
gönderimlerle sürekli tekrarlanmas� ya da gönderimsel ili³ki içinde olmalar�
Türkçe için oldukça s�k görülen bir durumdur.
Türkçe metinlerde özne de§i³ikli§i ba³ka bir söylem olu³turmak için kul-
lan�l�r. Her zaman bu kural geçerli olmasa da ço§unlukla yeni bir söylemin
s�n�rlar�n�n i³areti oldu§u söylenebilir.
• Nesne Etkeni: E§er öncül dolays�z nesne pozisyonunda ise belli bir puan
alabilir. Ancak Özne Etkenine oranla daha az puanlan�r.
• Ki³i/Say� Uyumu: Bu özellik en önemli özelliklerden biridir. Çünkü
bu uyum içinde olmayanlar genellikle gönderimsel bir ili³ki içinde bulun-
mazlar. Genellikle demek zorunday�z çünkü bunun kurald�³� durumlar� da
vard�r. Örnek olarak aile, tak�m, gurup gibi ço§ul eki almayan sözcükler
biz, siz, onlar ço§ul artgönderimlerle ifade edilebilirler. Ya da iki söylem
varl�§� sisteme dahil olmu³³a bunlar daha sonra ço§ul bir artgönderimle
ifade edilebilirler.
Ali ve Ay³e sabah erken kalkarlar.
Çünkü onlar günlerini daha iyi geçirmek isterler. (4.16)
Bu örnek görüldü§ü gibi Ali ve Ay³e söylem varl�klar� iki ayr� ve tekil
ifadelerdir. Ard�ndan ikisine ortak bir ço§ul artgönderim olan onlar gön-
derimde bulunur.
64
• Ad�ls� Vurgusu: E§er öncülün kelime tipi ad�l ise bu öncül ad�l olmayan-
lara göre daha çok vurgu al�r. Bu durum birçok çal�³mada vurgulanm�³t�r.
Ali gazete okumay� sever.
�1 Sabah erkenden g azete almak için kalkar.
�2 Kahvalt�da gazete okumak onun için zevktir. (4.17)
Üçüncü tümcedeki �2 bo³artgönderimi için bir önceki tümcede yine bir
(�1) bo³artgönderim ile gazete aday öncüldür. (�1) bo³artgönderimi hem
özne hem de ad�ls� oldu§undan gazeteye göre daha belirgindir.
• �lk Ad Öbe§i Vurgusu: E§er bir ö§e söyleme ilk ad öbe§i olarak girmi³
ise sonraki her tekrarlan�³�nda ilk ad öbe§i vurgusu al�r ve puanlan�r.
Örnek olarak 4.17 nolu söylemde Ali söylem varl�§� sonra tekrarlan�rsa ya
da bir artgönderimle gönderimsel ili³ki içinde olursa o artgönderim ilk ad
öbe§i vurgusu al�r. Bu etken [Mitkov, 2002], [Lappin ve Leass, 1994] ve
[Holen, 2007] taraf�ndan kullan�lm�³ ve önerilmi³tir. Söylemin davran�³�na
ili³kin bir ipucundan haraket ile bu �lk Ad Öbe§i etkisi vurgulanm�³t�r.
Söylemler ilk ad öbe§ini sürekli vurgulamak isterler. Bu özellikten dolay�
bu ad öbekleri sürekli ad�lsalla³t�r�l�rlar.
• Bahsedilme Say�s�: Bir ö§e söylem içinde ne kadar tekrarlan�rsa o ö§e-
nin belirginli§i o kadar artar. Bu özellik birçok çal�³ma taraf�ndan da
kullan�lm�³t�r. Bir önceki �lk Ad Öbe§i etkeni gibi bu etken de benzer
bir söylem özelli§inden gelmektedir. Sürekli tekrarlanan ö§eler daha fazla
vurgu al�rlar.
• Uzakl�k: Bu etken sözkonusu ad�l ile söz konusu aday öncül aras�ndaki
uzakl�§�n tümce baz�ndaki kar³�l�§�d�r. Uzakl�k artt�kça ö§eler aras�nda
65
gönderimsel ili³ki olma olas�l�§� azal�r. Bu çal�³madaki derlem analiz edil-
di§inde bu özelli§in çok önemli oldu§u tesbit edildi. Çünkü ad�llar�n ön-
cülleri daha çok bir önceki ve iki önceki tümce içerisinde yer alm�³t�r.
Dolay�s� ile uzakl�§�n bu çal�³ma için önemli oldu§u aç�kt�r.
Tüm bu etkenler belli bir a§�rl�k ile a§�rl�kland�r�ld�. Bu a³amada deneme
yan�lma yöntemiyle birçok de§er tahmini olarak atand�.
Tablo 4.3: Etkenler ve A§�rl�klar�
Etken A§�rl�§�Özne Vurgusu 100
Ki³i Say� Uyumu 150Ad�l Olma Vurgusu 50
Dolays�z Nesne Vurgusu 30�lk Ad Öbe§i Olma Vurgusu 20Bahsedilme Say�s� Vurgusu 2 kere için 10 daha fazlas� için 20
Yap�lan bu denemelerde en iyi a§�rl�kland�rma de§erleri tablo 4.3.2'deki gibi
olmu³tur. Söylemdeki herbir ad�l ondan önce gelen herbir öncül ile e³le³ir ve
yukar�daki a§�rl�klar tüm bu öncüllere uygulan�r. Uygulama sonunda a§�rl�klar
toplan�r ve ad�la aday her bir öncül için bir puan olu³ur. En iyi a§�rl�§a sahip
öncül ba³ar�l� aday olarak belirlenir ve söz konusu ad�l�n gönderimde bulundu§u
öncül olur.
Basit Bir Örnek
Bu algoritmay� basit bir örnekle aç�klayal�m. Kabul edelimki a³a§�daki gibi iki
tümcelik basit bir söylem ile çal�³�yoruz.
Ali çantas�ndaki kalemleri ar�yordu.
66
� Ama kalemleri bir türlü bulam�yordu. (4.18)
�kinci tümcedeki � bo³ artgönderimi için olas� öncüller kümesi { Ali, çanta-
s�daki , kalemleri} gibidir. Tüm bu aday öncüller yukar�daki tablo kullan�larak
a§�rl�kland�r�l�r. A§�rl�kland�rma sonuçlar� 4.3.2 nolu tablodaki gibidir.
Tablo 4.4: Aday Öncüllerin A§�rl�kland�r�lmalar�
Etken A§�rl�§� Ali Çantas�ndaki KalemleriÖzne Vurgusu 100 100 0 0Ki³i Say� Uyumu 150 150 150 0Ad�l Olma Vurgusu 50 0 0 0Dolays�z Nesne Vurgusu 30 0 30 30�lk Ad Öbe§i Olma Vurgusu 20 20 0 0Bahsedilme Say�s� Vurgusu 10 / 20 0 0 0Toplam 270 180 30
Ali öncülü 270 puanla en çok oy alarak ikinci tümcedeki � bo³ artgönde-
rimin öncülü olarak kabül edilir. Bu örnek iki tümceden olu³tu§u için birçok
farkl� durumu içinde bar�nd�ram�yor. Örnek olarak bashedilme say�s� özelli§ini
örnekleyemedik.
Bu algoritmay� derlem üzerinde uygulad�§�m�zda, 1114 ad�l�n 598'i do§ru bir
³ekilde çözümlendi. [Mitkov, 2002] artgönderim sisteminin ba³ar� oran�n� 4.12
nolu formüldeki gibi tan�mlam�³t�r.
Bu formüle göre bizim modelin ba³ar� oran� 5981114
= 0.53'e e³ittir. Bu orana ba-
k�ld�§�nda ve de di§er artgönderim çal�³malar�yla kar³�la³t�r�ld�§�nda normal bir
çözüm yönteminden daha dü³ük performansa sahip oldu§u söylenebilir. Bu yak-
la³�mMerkezleme Teorisine göre daha fazla bilgiye ihtiyaç duyar ve bu bak�mdan
yöntem bilgiye fazla ba§�ml�d�r. Yöntemde kullan�lan özelliklerin sisteme ne ka-
dar katk�s� oldu§u her zaman tart�³ma konusudur. Seçilen özelliklerin bir ço§u
gereksiz ve yarars�z olabilir. Bu bak�mdan sistemin bu gereksiz özellikleri çözüm-
67
leme öncesi (pre-processing) süreçlerde bo³u bo³una aramamas� için bir eleme
i³lemine tabi tutulabilir. Bu noktadaki sorulacak soru ³u: Çal�³ma alan� içinde
bu özelliklerin yarar� nas�l say�salla³t�r�labilir ? Ya da say�salla³t�r�labilir mi ?
Bunun için [Mitkov, 2002] (Relative Importance) Ba§�l Önem isimli bir formül
önermi³tir. Ba§�l Önem K etkeni için 4.19 nolu formüldeki gibi hesaplan�r.
RIK =SR− SRK
SR(4.19)
Bu formüldeki SR k�saltmas� tüm sistemin ba³ar� oran�d�r. Öte yandan SRK
k�saltmas� ise K etkeni olmad�§�nda sistemin göstermi³ oldu§u ba³ar� oran�n�
ifade eder. Görüldü§ü gibi RIK formülü K etkeni olmad�§� durumda sistemin
bundan nas�l etkilenece§ini ba§�l bir ³ekilde hesap eder. Bu formül buradaki
etkenler için uyguland�§�nda 4.5 nolu tablodaki sonuçlar elde edilir.
Tablo 4.5: Ba§�l Önem Tablosu
Etken RISay� / Ki³i 0.07Ad�ls� Vurgusu 0.01Özne Vurgusu 0.28Nesne Vurgusu 0.01�lk Ad Öbe§i Vurgusu 0.01Tekrar Vurgusu 0.01
Görüldü§ü gibi say�/ki³i uyumu etkeni ile özne vurgusu Türkçe'de önemli
bir yere sahip. Bu etkenleri sistemden ç�kard�§�m�zda neredeyse artgönderim
çözümlemesi imkans�z hale gelecektir. Bu Ba§�l Önem ölçütüne benzer ba³ka
ölçüm yöntemleri de mevcuttur. Çal�³man�n sonuç k�sm�nda tüm bu ölçüm so-
nuçlar�n� kar³�la³t�raca§�z.
68
Bir ba³ka ölçüm tekni§i yine [Mitkov, 2002] taraf�ndan önerilen Karar Gü-
cüdür (Decision Power). Bir etkenin karar gücü hesab� (K), onu sa§layan öncül
adaylar�n as�l öncül olarak seçilip seçilmemesine bak�larak yap�l�r. O etkenin
as�l öncül olmas�ndaki rolüne bak�lmaks�z�n yap�lan bu de§erlendirmede sadece
o aday öncüllerin as�l aday olup olmad�klar�na bak�l�r. K etkeninin Karar gücü,
bu etkenin destekledi§i ve do§ru ³ekilde as�l öncül olmu³ durumlar�n say�s�n�n
(SK) K etkeni taraf�ndan desteklenmi³ tüm öncüllerin say�s�na (AK) oran�na
e³ittir.
DPK =SK
AK
(4.20)
Sistemdeki etkenlerin Karar Gücüne bak�ld�§�nda 4.6 nolu tablodaki gibi bir
sonuç elde edilir.
Tablo 4.6: Karar Gücü Tablosu
Etken DPSay� / Ki³i 0.107Ad�ls� Vurgusu 0.09Özne Vurgusu 0.16Nesne Vurgusu 0.03�lk Ad Öbe§i Vurgusu 0.17Tekrar Vurgusu 0.06
Yukar�daki tabloda en önemli üç etken; say�/ki³i uyumu, özne vurgusu
ve ilk ad öbe§i vurgusu. Bu özellikler di§er algoritmalar içinde önemli oldu-
§unu izleyen bölümlerde görece§iz.
69
4.4 Ö§renme Tabanl� Çözümler
Bu bölümde Türkçe için ö§renme tabanl� bir çözüm tart�³�lacakt�r. Artgönderim
sorununu makine ö§renmesi teknikleriyle nas�l çözülece§i bölüm 3.3.1'te k�saca
bahsedilmi³tir. Türkçe için benzer bir yöntem uygulanacakt�r.
4.4.1 E³le³me
Makine ö§renmesindeki en önemli unsur kullan�lan verinin niteli§idir. Artgönde-
rim çözümlemesi için olu³turulacak olan çiftlerin seçimi bu anlamda önemlidir.
Tablo 3.3 basit anlamda bu çiftlerin nas�l olu³turuldu§unu göstermektedir. Her
bir gönderge ile o göndergenin öncülü olabilecek, ondan önce gelen tüm gönde-
rimsel ifadeler bir çift-e³le³me kümesi olu³turur. Bu e³le³me kümesindeki ö§e-
ler olumlu(EVET) ve olumsuz(HAYIR) olarak i³aretlenir. Ve böylelikle makine
ö§renme algoritmas� e³le³menin kurallar�n� ç�karmaya çal�³�r. Bizim veritaban�-
m�zdaki en geni³ söylem 26 cümleden olu³ur. Fakat söylem listemizdeki ad�llar
en çok 10 tümce öncesine gönderimde buludu§undan sadece söz konusu ad�l ile
ondan önceki 10 tümce aras�ndaki ö§elerle bir e³le³me olu³turulmaktad�r.
Bu a³amadaki en büyük sorun olumsuz örnek say�s�n�n olumlu örnek say�s�n-
dan oldukça fazla olmas�d�r. Çünkü hedef s�n�ftaki bu de§erler birbirlerine say�ca
ne kadar yak�n olursa, makine ö§renme algoritmalar� o kadar ba³ar�l� olur. Bu
anlamda olumsuz örneklerin bir ³ekilde azalt�lmas� ve olumlu örneklerle den-
gelenmesi gerekmektedir. Bunun için çe³itli eleme yöntemleri kullan�labilir. Bu
çal�³mada ki³i ve say� uyumu süzgeçi kullan�larak bir eleme gerçekle³tirildi. Bu
ay�klama a³amas�ndan hemen sonra makine ö§renme algoritmalar� uygulanabi-
lir. Bu deneyde kullan�lan algoritmalar bi sonraki bölümde anlat�lacakt�r.
70
4.4.2 Kullan�lan Veri Madencili§i Teknikleri
Makine ö§renmesi ile bu çal�³mada yap�lan tüm deneyler Weka Yaz�l�m� 2 ile
gerçekle³tirilmi³tir. Bu deneyde de§erlendirme yöntemi için 10'lu çapraz geçer-
leme (10-fold cross validation) yöntemi kullan�larak 5 farkl� makine ö§renme
algoritmas� derlem üzerinde s�nand�. Bu algoritmalar ³unlard�r: Naïve Bayes
Algoritmas�, Örnek tabanl� yöntem ya da bellek tabanl� yöntem (K-en yak�n
kom³u yöntemi), Karar A§açlar�, Destek Vektör Sistemleri ve Yapay Sinir A§-
lar�(Alg�lay�c�lar).
Naïve Bayes Algoritmas�
Her özellik birbirinden ba§�ms�zd�r kabülüne dayanan bir yöntemdir. (x1, ..., xn)
özelliklerine sahip bir X örne§i verildi§inde bu algoritma, bu örnek için P(X |
C) olas�l�§�n� en yüksek yapan C s�n�f�n� seçer.
P (X|C) = P (x1, ..., xn|C) (4.21)
Bu algoritma hesaplama maliyetini azalt�yor. Çünkü sadece s�n�f da§�l�m-
lar�na bak�yor. Gerçek uygulamalarda özelliklerin birbirlerine ba§l� olmas� bu
algoritman�n bir eksi§i olarak görülmektedir.
2Weka (Waikato Environment for Knowledge Analysis) Java programlama dili ile yaz�lm�³en yayg�n veri madencili§i arac�d�r. Waikato Üniversitesi taraf�ndan olu³turulan WEKA aç�kkaynak bir yaz�l�md�r ve GPL (GNU General Public License) lisans�na sahiptir.
71
K-En Yak�n Kom³u S�n��and�r�c�s�
Bu algoritma örnekleme tabanl� yöntemlerden biridir. Bu tip bir algoritman�n
en belirgin özelli§i kulland�§� veriden bir model olu³turmamas� ve bu veriyi sak-
lamas�d�r. Her bir yeni örnek saklanan verideki örneklerle k�yaslan�r. Ve yeni
örne§e benzeyen k adet eski örneklerin s�n��ar�na bak�larak bir karara var�l�r.
Bu nedenle algoritman�n ö§renme sürecinden bahsedilemez. Karar verme süreci
ise di§er algoritmalara göre daha uzundur. Temel yakla³�mda s�n��and�r�lacak
örne§e en yak�n k adet örnek bulunur. Bu k adet örnekteki bask�n s�n�f o örne-
§in s�n�f� olarak atan�r. Bütün örnekler n-boyutlu bir uzayda bir noktaya kar³�
dü³ürülür. Örnek olarak 4.3 nolu ³ekilde ortadaki daire yeni bir örne§i temsil
eder. Bu örnek ya kare ya da üçgen olarak s�n��and�r�lacakt�r. Peki bu dairenin
asl�nda kare mi yoksa üçgen mi oldu§u nas�l tespit edilecek ? E§er knn algo-
ritmas�nda k de§eri 3 seçilirse ³ekilde de görüldü§ü gibi içteki çember içinde
kalan örneklere bak�l�r. Çünkü içteki çember 3 eski örne§i çevreliyor. Bu örnek-
lerden ikisi üçgen biri kare oldu§undan knn algoritmas�n�n karar� üçgen olur.
E§er k de§eri 5 seçilirse 5 eski örne§i çevreleyen d�³taki çembere bak�l�r. Bu
çember içinde kalan örneklerin üç tanesi kare iki tanesi üçgen oldu§undan knn
algoritmas�n�n karar� bask�n s�n�f olan kare olur.
�ekil 4.3: K-en yak�n kom³u algoritmas�
Nesneler aras�ndali uzakl�k belli bir uzakl�k formulüne (Euclidean, Manhat-
72
tan, ... ) göre hesaplan�r. Örnek olarak X(x1, ..., xn) ve Y (y1, ..., yn) iki noktay�
ele alal�m. Bu iki nokta aras�ndaki uzakl�k 4.22 nolu formül ile hesaplan�r.
D =√
(x1 − y1)2 + ... + (xn − yn)2 (4.22)
Daha öncede bahsesildi§i gibi makine ö§renmesi deneylerinin ö§renme a³a-
malar�ndaWEKA yard�mc� kütüphanesini kulland�. Knn algoritmas� için WEKA'daki
IBk isimli algoritma kullan�lm�³t�r.
Karar A§açlar�
Karar a§ac� algoritmalar� veriden bir a§aç modeli ortaya ç�kar. Bu a§aç modeli
veriyi do§ru bir ³ekilde ifade etmeye çal�³�r. Karar a§açlar�n�n en önemli özelli§i
kurallar�n�n insanlar taraf�ndan rahatl�kla okunabilmesi ve yorumlanabilmesi-
dir. Peki bu a§açtaki dü§ümler, dallar ve yapraklar ne anlama gelir ? Karar
A§açlar�nda dü§ümler özelliklere ili³kin sorular� ifade eder. 4.4 nolu ³ekilde
görüldü§ü dallar ise o özelli§in de§erlerine kar³�l�k gelir. Bir anlamda dü§üm
özelli§e ili³kin soru ve dal ise bu sorunun cevab�d�r. Soru-cevap ³eklinde a§aç
üzerinde gezindikten sonra bir yapra§a ula³�l�r. Bu yaprak ise modelin karar�d�r.
Ya da hangi s�n�f�n seçildi§ini ifade eder.
�ekildeki a§ac bir maddenin iyi olup olmad�§�na karar veren bir karar a§ac�
olarak dü³ünülebilir. Bu a§aç e§er ³ekil maviyse ba³ka bir soru sormadan olumlu
cevap veriyor. E§er ³ekil mavi de§ilse bu durumda ba³ka bir soru sorma ihti-
yac� duyuyor. E§er maddenin boyu büyük ise olumlu, küçük ise olumsuz karar
üretiyor.
Karar a§ac� algoritmalar�nda en önemli ilerleme [Quinlan, 1993.] taraf�ndan
73
�ekil 4.4: Karar A§ac�
kaydedilmi³tir. Entropi formülü sayesinde a§aç olu³turulurken özellikler önem
s�ras�na göre dizilir. En önemli yada bilgi kazanc� (information-gain) en yük-
sek olan özellik ilk dü§üme yerle³tirilir. Böylelikle a§aç hem daha küçük hem
de daha ba³ar�l� bir model olu³turur. �lk olarak ayr�k özellikler için geli³tirilen
ID3 isimli bu algoritma ard�ndan sürekli (reel) özellikler içinde uygulanabil-
mi³ ve C4.5 ismini alm�³t�r. WEKA yaz�l�m� içersinde bu algoritmaya J4.8 ismi
verilmi³tir. Bu çal�³mada karar a§ac� için ayr�ca toplu ö§renme (boosting) kul-
lan�lm�³t�r. Bu yöntemde tek bir model olu³turmak yerine çe³itli ayar de§i³ikli§i
ve yöntem yard�m�yla birden fazla a§aç modeli olu³turulur. Ve ard�ndan yeni
bir örnek sisteme geldi§inde, bu örnek tek bir s�n��and�r�c� yerine birden fazla
s�nf�land�r�c� taraf�ndan i³leme tabi tutulur. Modellerden gelen bask�n s�n�f yeni
örne§in s�n�f� olur. Buradaki amaç toplu ö§renmedeki ba³ar� oran�n� art�rmakt�r.
Ancak bu yap�n�n her zaman için ba³ar�l� oldu§u söz konusu de§ildir.
Destek Vektör Makineleri
Destek Vektör Makineleri (Support Vector Machines) veriyi do§rusal olarak
ay�rarak bir karar vermeye çal�³�r. Bir çok hiper düzlem kullanarak olumlu ve
74
olumsuz örnekleri birbirlerinden ay�rmaya çal�³�r. Olumlu, olumsuz örnekleri
birbirinden en iyi ay�ran hiper düzlem sonraki kararlar için kullan�l�r.
�ekil 4.5: Destek Vektör Makineleri - KDM
Örnek olarak 4.5 nolu ³ekilde B1 ve B2 isimli iki do§ru, s�n��ar� birbirinden
ay�rmaya çal�³�yor. En uygun hiper-düzlem algoritmas� [Vapnik ve Lerner, 1963]
taraf�ndak önerilmi³ olan do§rusal s�n��and�r�c�d�r. Öte yandan KDM sadece
do§rusal de§il do§rusal olmayan bir s�nf�land�rma da uygulayabilmektedir.
[Boser vd., 1992] tara�ndan sunulan bu yöntem do§rusal olmayan bir çekirdek
fonksiyonu K(xi, yi) içermektedir.
Bu tez çal�³mas�nda do§rusal ve radyal temelli çekirdek fonksiyonu kulla-
n�ld�. Bu algoritmalar WEKA yaz�l�mda LIBSVM kütüphanesiyle gelen C-SVC
olarak yeral�rlar.
Alg�lay�c�lar (Voted Perceptron)
Alg�lay�c�lar (Voted Perceptron) bir yapay sinir a§� uygulamas�d�r. Bu yöntem
orjinal yöntemin a§�rl�kland�rma sürecinde bir de§i³iklik yapar. Orjinal yöntem
w.x + b > 0 formülünü kullan�r. Bu formülde w a§�rl�kland�rma vektörü ve
x ise giri³ vektörüdür ya da bir ba³ka ifade ile özellik vektörüdür. b ise sabit
75
�ekil 4.6: Yapay Sinir A§lar�
bir katsay�d�r. Bu formül do§ru olursa ç�kt� 1, yanl�³ ise ç�kt� 0 olur. Orjinal
alg�lay�c� e§itim sürecinde, bir s�n��and�rma e§itimi için, özellik vektörü pe³
pe³e i³leme sokulur. E§er belli bir e³ik de§erinin üzerinde bir hata olu³ursa,
a§�rl�klar güncellenir. Yapay Sinir A§lar� 4.6 nolu ³ekilde görüldü§ü gibi birden
çok alg�lay�c�lar� iç içe kullan�r.
Ancak orjinal algoritma e§er veri do§rusal bir ³ekilde ayr�lmaya uygunsa
ba³ar�l� bir sonuca ula³�r. E§er verinin do§rusal olmayan bir karakteri var ise,
di§er bir alg�lay�c� olan voted perceptron kullan�labilir. Bu algoritma orjinal
süreçte olu³an tüm a§�rl�kland�rmalar� kullanarak tahminde bulunmaya çal�³�r.
Bunu herbir a§�rl�kland�rma vektörünün kaç e§itim örne§ini do§ru bir ³ekilde
s�n��and�rd�§�n� bellekte tutarak ba³arabilir.
4.4.3 Sonuçlar
Ele al�nan bu be³ algoritma, önceki bölümlerde bahsedildi§i gibi derlem üzerine
uygulanm�³t�r. Her bir algoritman�n farkl� ifade gücüne sahip iki farkl� s�n��and�-
r�c�s� kullan�ld�. Bu deneyde kullan�lan parametreler 4.7 nolu tablodaki gibidir.
Bu tablodaki ayar isimleri WEKA program�nda kullan�ld�§� gibi verilmi³tir.
Bu be³ algoritman�n iki farkl� s�n��and�r�c�s�n uygulanmas� sonucu ortaya
ç�kan sonuçlar 4.8 nolu tablodaki gibidir.
�imdi bu tablolarda kullan�lan performance ölçüm teknik ifadelerden k�saca
76
Tablo 4.7: Algoritma ve Parametreleri
Algoritma ParametrelerIBk No Distance Weighting
Use Euclidean DistanceNaïve Bayes No Supervised Discretization
J48 Con�dence Factor: 0.25No Reduced Error PrunningUse Subtree Raising On PruningNo Laplace-based SmoothingDo not Force Binary Split on Nominal Attributes
Voted Perceptron Maximum Number of Alternation:10000C-SVC Cost: 1.0
Gamma: 1/maxindexNo Normalization
Tablo 4.8: S�n��and�r�c�lar�n Sonuçlar�
No S�n��and�r�c� Parametre De§i³ikli§i S�n��and�rma Sonuçlar�Do§ruluk Precision Recall F-Ölçütü Kappa
Baseline / Dayanak-1 Ço§unluk tabanl� 67.3 - - - 0Baseline / Dayanak-2 S�n�f Da§�l�m tabanl� 55.2 31.5 31.5 31.5 0Baseline / Dayanak-3 En Yak�n Aday - - 46.7 - -
1 IBk k=1 0.75 0.60 0.76 0.67 0.47922 C-SVC Do§rusal Çekirdek 0.77 0.66 0.62 0.64 0.47363 Naïve Bayes Normal Da§�l�m 0.78 0.65 0.71 0.68 0.52024 J48 boosted ve budamas�z 0.77 0.64 0.70 0.67 0.49685 Voted Perceptron üs= 1 0.79 0.71 0.65 0.68 0.5155
6 Naïve Bayes kernel estimator 0.80 0.69 0.71 0.70 0.54027 IBk k=11 0.80 0.67 0.76 0.72 0.55348 J48 Budamal� 0.81 0.71 0.71 0.71 0.57129 Voted Perceptron Üst= 2 0.81 0.72 0.70 0.71 0.573910 C-SVC Radyal Tabanl� Çekirdek 0.82 0.73 0.74 0.74 0.6017
bahsedilebilir. Tablodaki Do§ruluk oran� (Accuracy)
(TP + TN)
(TP + TN + FN + FP )(4.23)
formülüyle, kesinlik (precision)
77
TP
(TP + FP )(4.24)
formülüyle, anma (recall)
TP
(TP + FN)(4.25)
formülüyle ve F-ölçütü
(2 ∗ kesinlik ∗ anma)
kesinlik + anma(4.26)
formülüyle hesaplan�r. Bu formüllerde geçen TP, TN, FP, ve FN ifadeleri
4.9 nolu tabloya göre aç�klanabilir.
Tablo 4.9: Kar�³�kl�k Matrisi
TahminPozitif Negatif
Gerçek pozitif TP FNNegatif FP TN
Çal�³ma alan�nda varolan bir ö§eye var dendi§inde ya da gerçekte do§ru
olan bir ³eyi tasarlanan sistem de do§ru olarak tahmin etmi³ ise bu durum
TP (True Pozitif) olarak ifade edilir. Gerçekte do§ru olan bir ³ey yanl�³ olarak
tahmin edilirse bu FN (False Negative) olarak ifade edilir. Gerçekte yanl�³ olan
bir ³eyin do§ru oldu§u söylenirse, bu durum FP (False Pozitive) olarak ifade
78
edilir. Son olarak gerçekte yanl�³ olan bir duruma sistem yanl�³ derse, bu durum
TN (True Negative) olarak isimlendirilir.
�imdi bu performans de§erlendirme ölçümlerinin artgönderim çözümlemesi
için ne ifade etti§ine bak�lacak.
Do§ruluk (Accuracy),
Sistem taraf�ndan do§ru tahmin edilmi³ tüm durumlarSistemdeki tüm durumlar
(4.27)
formülüyle, kesinlik (Precision)
Sistem taraf�ndan do§ru ³ekilde çözülmü³ artgönderim ili³kileriSistem taraf�ndan ifade dilmi³ toplam artgönderim ili³kiler
(4.28)
formülüyle ve anma (Recall) ise
Sistem taraf�ndan do§ru ³ekilde çözülmü³ artgönderim ili³kileriDerlemde bulunan toplan artgönderimsel ili³kiler
(4.29)
formülüyle hesaplan�r edilebilir.
4.8 nolu tablodaki de§erlere bak�ld�§�nda, tüm sonuçlar belli bir aral�kta ve
birbirine yak�nd�r. Çok net bir ³ekilde belli algoritmalar�n di§erlerine göre daha
ba³ar�l� oldu§u söylenemez. Ancak yine de s�n��and�r�clar�, genel performanslar�
aç�s�ndan de§erlendirildi§inde olumlu bir sonuç oldu§u söylenebilir. En az�ndan
bu alanda yap�lm�³ di§er çal�³malarla k�yasland�§�nda bu daha net söylenebilir.
Bunun söylenmesindeki en önemli dayanak ise, tabloda da gösterilen ilk üç daya-
nak algoritmalar�d�r. Dayanak (baseline) algoritmalar� elde edilen sonuç için bir
temel olu³turur. Bu algoritmalar ile önerilen algoritma k�yaslan�r ve ortaya bir
ba³ar� oran� ç�kar. Bu çal�³madaki deneyde üç dayanak algoritmas� kullan�ld�:
Ço§unluk tabanl�, S�n�f da§�l�m tabal� ve en yak�n aday. Birinci dayanak algorit-
79
mas�, ço§unluk tabanl� algoritma, tüm yeni örneklere e§itim kümesinde bask�n
olan s�n�f� atar. Bu tez çal�³mas� alan�nda bask�n s�n�f de§eri hay�r etiketlidir.
Yani iki ö§e aras�nda bir ili³ki var m� sorusunun cevab� hep hay�rd�r. �kinci
dayanak algoritmas� S�n�f Da§�l�m� üzerine kuruludur. Test kümesindeki s�n�f-
land�r�lacak yeni örneklere yap�lacak rastgele s�n�f etiketlerinin da§�l�m� e§itim
kümesindeki da§�l�mla ayn� tutulur. Üçüncü dayanak algoritmas� söz konusu
ad�ldan önceki en yak�n aday� öncül olarak kabul eder. Buradaki yöntem ba-
sit bir ilkeyi temel al�r. Artgönderimler onlardan önce gelen ve en yak�n ö§eye
gönderimde bulunmaya e§ilimlidirler. Yap�lan çal�³malar�n bu dayanak algo-
ritmalar�ndan ne kadar ba³ar�l� oldu§u önemlidir. Bunlardan birine yak�n bir
sonuç veren sistemin bir yatar�c�l�§� yoktur. Çünkü basit bir bilgi ile kurulmu³
dayanak algoritmalar�yla ayn� sonucu vermesi istenilen bir durum de§ildir.
Bu noktada rahatl�kla belirtilmesi gereken bir nokta ³udur: Bu çal�³mada
sununal modeller ve kullan�lan makine ö§renme algoritmalar�, bu dayanak al-
goritmalardan çok daha iyi bir performans göstermi³tir. Bu performans� daha
iyi ifade etmek için makine ö§renmesi modeliyle dayanak algoritmas� aras�ndaki
farka bak�labilir.
Ele al�nan ve uygulanan di§er bir yöntem Kappa �statisti§idir. Tablo
4.8'de sunulan sonuçlarda bu istatistiksel bilgi mevcuttur. Kappa istatisti§i,
s�n��and�r�c�lar�n performans�n� bir temel çerçevesinde ölçmek için kullan�lan
alternatif bir yöntemdir. Ölçüm formülü
K =P0 − Pc
(1− Pc)(4.30)
³eklinde ifade edilir. Buradaki P0 ifadesi s�n��and�r�c�n�n do§ruluk oran�, Pc
80
ifadesi karar�n rastgele verilmesiyle ortaya ç�kan ba³ar� oran�d�r. Bu formül-
den de anla³�ld�§� gibi bu istatistiksel ölçüm de§eri -1 ile 1 aras�nda yer al�r.
-1 tümüyle kötü bir sistemi, +1 ise tamamen ba³ar�l� bir sistemi ifade eder.
[Landis ve Koch, 1977]'e göre Kappa de§erinin 0.4'ten büyük olmas� o sitemin
³ans�n ötesinde makul bir ba³ar� gösterdi§ini anlam�na gelir. 4.8 nolu tablodaki
Kappa sonuçlar� çal�³mada denenen yakla³�mlar�n rastgele s�n��and�r�c�lardan
çok daha iyi oldu§unu ifade ediyor.
Her ne kadar ö§renme algoritmalar�n�n sonuçlar� rastgele s�n��and�r�c�lar�n-
dan ba³ar� olsa da, problemin çözümüne ili³kin de§erlendirmede tam anlam�yla
ba³ar�l� say�lmaz. [Ho vd., 2006] bunun sebebine ili³kin üç olas� etkenden bah-
seder:
1. Algoritmadan kaynakl� eksiklik
2. Verideki içkin zorluklar
3. Metod ile problemin uyu³mamas�
�imdi bu üç ba³l�kl� çerçevede problem tart�³�lacak. Tablo 4.8'de sunulan
sonuçlara bak�ld�§�nda belli bir algoritman�n daha ba³ar�l� oldu§u söylenemez.
Ayn� algoritma de§i³ik parametrelerle de§i³ik sonuçlar üretebiliyor. �lk be³ s�ra-
lamada do§rusal çekirdekli C-SVC neredeyse en kötü ba³ar�ya sahip olmas�na
kar³�n, ikinci be³lide radyal çekirdekli C-SVC en iyi ba³ar�ya sahiptir. Sonuç
olarak artgönderim problemi için ba³ar�l� olabilecek evrensel bir algoritmadan
bahsedilmesi mümkün de§il. Bu de§erlendirme kural tabanl� yöntemler içinde
söylenebilir.
Bir di§er zorluk ise verideki ya da derlemdeki zorluklard�r. Artgönderim
problemi için bakt�§�m�zda bu durumu a³a§�daki söylemle örneklemek müm-
kündür.
81
Ayse Hasan'a yard�m etti. Çünkü Onun yard�ma ihtiyac� vard�. (4.31)
Yukar�daki örnekte Onun ifadesi Ayse'ye mi yoksa Hasan öncülüne mi gönde-
rimde bulunacak ? Merkezleme kuram�n�n yakla³�m� ele al�nd�§�nda Özne nes-
neye tercih edilecektir. Dolay�s� ile Ayse öncülü seçilecektir. Ancak normal bir
okumada Hasan öncülü daha do§ru gözükmektedir. Bu ç�kar�ma ula³mak için
belki de anlambilimsel yöntemler kullan�lmas� gerekiyor. �³te Artgönderim prob-
lemine dair buna benzer birçok örnek vard�r. Bu tip örnekler mu§lakl�k (ambi-
guity) olarak niteleniyor Tüm bu örnekler burada s�ralanmayacak. Öte yandan
Türkçe için cinsiyet kodu bir dezavantaj ol³turmaktad�r. Yukar�daki örnek �n-
gilizce için mu§lakl�k yaratmazd�. Çünkü Ayse ve Hasan farkl� ³ekilde cinsiyet
kodlamal� ad�llarla ifade edileceklerdi. Örne§in his ya da her ad�l� kullan�l�rd�
ve bir mu§lakl�ktan bahsedilmezdi.
Artgönderim problemindeki bir di§er önemli husus ad�llar için elemeler so-
nunda kalan öncül say�s�d�r. E§er eleme sonucu sadece bir aday kalm�³sa bu
problemin çözümü kolayd�r. Dolay�s�yla veritaban�nda ya da derlemde kaç ad�-
l�n elemeler sonunda tek bir aday�n�n kald�§� çok önemlidir. Bu oran yüksekse
söz konusu verinin karma³�kl�§� oldukça dü³üktür. Bu tez çal�³mas�ndaki der-
lemde bu oran % 3.1'dir ve bu anlamda çal�³�lan derlem karma³�kt�r.
S�n��and�r�c�lar�n performans�n� etkilyecek bir di§er ö§e ise verinin da§�n�k-
l�§� veya yetersizli§idir (sparsity). Veri e§er yeterli miktarda örne§e sahip de§ilse,
s�n��and�r�c�lar genel bir kural olu³turma yeteneklerini kaybederler. Yani bir ge-
nelleme yapmak için belli say�da örne§e ihtiyac duyarlar. Bu hassasiyeti ölçmek
için yap�lan deneyde, veri 1100 örnek kal�ncaya kadar de§i³tirildi§inde f-ölçütü
%60 de§erinden %73'e ç�k�yor. Ve bundan sonra bir doyum yakal�yor ve doyum
82
noktas�nda sabit kal�yor.
Bir di§er etken ise problem ile bu probleme uygulanan metod aras�ndaki
uyu³mazl�kt�r. Bu tez çal�³mas�na yönelik olarak 4.8 nolu tabloda gösterilen C-
SVC, Voted Perceptron ve Naïve Bayes s�n��and�r�c�lar� ele al�nabilir. Bu algo-
ritmalar için uygulanan parametrelerdeki do§rusal ve do§rusal olmayan seçimler
üzerinden bir yorum yap�labilir. C-SVC ile al�nan en kötü sonuç bu yöntem için
uygulanan do§rusal formüldür. Bu formül a³a§�daki 4.32 nolu formüldür.
f(x) = (wT x) + b (4.32)
En iyi sonuç ise radyal tabanl� kullan�lan a³a§�daki 4.33 nolu formüldür.
k(x, x) = exp(‖ x− x ‖)2
2σ2(4.33)
Weka yaz�l�m�ndaki Voted Perceptron için kullan�lan a³a§�daki 4.34 nolu
formüldeki
k(x, x′) = (x.x′ + 1)d (4.34)
d de§eri 1 seçildi§inde do§rusal bir çekirdek, daha büyük seçildi§inde do§-
rusal olmayan bir çekirdek kullanm�³ oluruz. Bu algoritmada yine do§rusal ol-
mayan çekirdek kullan�ld�§�nda ba³ar� oran� artm�³t�r. Benzer bir özelli§i Naïve
Bayes için söyleyebiliriz. Bu algoritma normal da§�l�m ile uyguland�§�nda do§-
83
rusal bir s�n��and�r�c� ve çekirdek yo§unluk tahmini (kernel density estimator)
kullan�ld�§�nda do§rusal olmayan bir s�n��and�r�c� s�n�f�na dahil olur. Bu örnekte
de di§er örneklerde oldu§u gibi do§rusal olmayan ayarlar çerçevesinde artgön-
derim sistemi biraz daha ba³ar�l� olmu³tur. Yukar�daki gözlemler veritaban�n�n
ya da derlemdeki gönderimsel ili³kilerin do§rusal bir ³ekilde de§ilde do§rusal
olmayan bir biçimde olu³tu§u sonucunu verir. Ve bu nedenle do§rusal olmayan
yöntemlerin daha iyi sonuç vermesi ola§and�r.
A³�r� Uyum (Over�tting) ve Yetersiz Uyum (Under�tting)
Makine Ö§renmesi ve istatistik alan�ndaki en önemli sorulardan biri A³�r� Uyum
ve Yetersiz Uyum ikili§idir. Üretilen modelin kendisini olu³turan veriye a³�r� bir
³ekilde ba§�ml� olmas� ve genellikten uzakla³mas� A³�r� Uyuma yol açar. Veri
içinde birçok istisna bar�nd�r�r ve ayn� ³ekilde çe³itli gürültüler içerebilir. Yani
ele al�nan veri birçok tutars�zl�§�n� birlikte getirir. �çinde hatal� veriler bar�nd�r�r.
Verinin bütününe ula³maya ve onu modellemeye çal�³mak yeni olu³acak verileri
anlamay� zorla³t�r�r. Bu olguya veri madencili§i alan�nda �ngilizce'de over�t-
ting denir. Tükçe için yayg�n bir kar³�l�§� olmasa da bu kavram a³�r� uyum
olarak çevrilebilir. 4.7 nolu ³ekildeki e§riler ö§renme sürecindeki hata e§rileridir.
Üstteki e§ri sa§lama ya da test kümesinin hata durumunu ifade ederken, alttaki
e§ri e§itim kümesine ili³kindir. Bu gra�kteki e§itim kümesinde hatan�n belli bir
etkene göre azald�§� görülür. Bu etkenin ne oldu§u bu tart�³ma aç�s�ndan ³imdi-
lik önemli de§ildir. Sadece yarat�lan modelin e§itim kümesi üzerindeki hatas�n�n
belli bir etken sebebiyle azald�§�n� dü³ünülsün. Bu azalmaya sa§lama/test kü-
mesi de belli bir noktaya kadar e³lik eder ve bu noktadan itibaren sa§lama
kümesindeki azalma durur ve artmaya ba³lar. �³te bu durma ve artma noktas�-
n�n sonras� çal�³man�n A³�r� Uyum (over�tting) oldu§u bölgeyi ifade eder.
84
�ekil 4.7: A³�r� Uyma
Bu etkenlere örnek vermek için Karar A§açlar�n�n budama i³leminden bahsedi-
lebilir. Karar A§ac� ne kadar az budan�rsa e§itim kümesi üzerindeki ba³ar�s� o
kadar artar. Sa§lama kümesinde belli bir noktaya kadar budama yap�lmas� iyi
sonuç verir. Yani a§ac budama onun veriye a³�r� ba§�ml� olmas�n� engeller ve
sa§lama kümesi için daha iyi sonuç verir.
Çal�³mada kullan�lan veri dokuz de§i³ken içerdi§inden do§rusal yöntemleri
kullanan s�n��and�c�lar için uygun de§ildir. Do§rusal yöntemler uyguland�§�nda
veri ile yarat�lan model aras�nda büyük bir sapma / kutup (bias) olu³ur.
K-en yak�n kom³u s�n��and�r�c�s� ile Karar A§ac� algoritmas� ele al�nd�§�nda,
dikkat edilmesi gereken noktalardan biri de bu bu a³�r� uyum sorunudur. Çünkü
bu iki algortiman�n veriyi ifade etme gücü (expressive power) yüksektir. Çünkü
e§er veri de herhangi bir mu§lakl�k yok ise verinin miktar�na bakmaks�z�n e§itim
verisini %100'e varan bir kesinlikle ifade edebilirler. Bu durumda gürültülü ve
hatal� veriler içerdi§inden a³�r� uymaya (over�tting) yatk�nd�rlar. KNN algorit-
mas�n� K de§erinin 1 yap�lmas�, Karar A§ac� algoritmas�n�n boosting özelli§inin
85
kullan�m� ve budama yap�lmamas� bu algoritmalar�n ifade güçlerini (expressive
power) art�r�r. Bu da gürültülü ve hatal� bilgilerin yaratt�§� a³�r� uyma sorununu
ortaya ç�kar�r. Bu nedenle 4.8 nolu tabloda bu iki algoritmalar�n bu ayarlar� için
olu³an sonuç di§erlerine oranla daha dü³ük ç�km�³t�r. Hatta bu sonuçlar do§-
rusal s�n�and�rc�lar�n performans� kadar dü³üktür. Bu a³�r� uyumun çözümü
için a§ac�n�n budanmas� ve K de§erinin art�r�lmas� gerekiyor. Biraz önce bah-
sedildi§i gibi ve 4.7 nolu ³ekilde gösterildi§i gibi hata oran�n� azaltmak uygun
bir nokta belirlemek gerekiyor. A§ac için bu budama oran� genelde %25 olarak
kabul edilir. K de§eri 11 yap�ld�§�nda bu algoritma daha ba³ar�l� sonuç vermek-
tedir. Ve bu sonuç ilginç bir ³ekilde do§rusal olmayan yöntemlerin sonuçlar�na
yakla³maktad�r. Karma³�kl�k ile a³�r� sadelik performans anlam�nda birbirleriyle
ayn� kusurlara sahip. Karma³�kl�§�n a³�r� uyuma yol açt�§�, sadeli§in ise yetersiz
uyum yaratt�§�n� bu deneylerde gözlemledik.
Özelliklerin Katk�lar�
Kullan�lan özelliklerin artgönderim için ne kadar katk� sa§lad�§� en önemli nok-
talardan biridir. Dolay�s�yla her bir özelli§in katk�s�n� kullan�lan teknik aç�s�n-
dan de§erlendirmek gerekiyor. Bu de§erlendirmeyi bilgi tabanl� yakla³�mlar için
yap�lm�³t�. �imdi ö§renme tabanl� yakla³�mlar aç�s�ndan ne gibi bir sonuç elde
edilecek ? Makine ö§renme algoritmalar� kullan�ld�§�nda bu de§erlendirme 10'lu
çapraz sa§lama de§erlendirmesi içinde birçok s�n��and�r�c� kullan�larak yap�la-
bilir. 4.10 nolu tabloda herbir özelli§in katk�s�n�n ortalamas� bulunur.
Bir di§er özellik gücü ölçme yöntemi bilgi kazanc� (information gain) for-
mülüdür. Bu formül Karar A§ac� olu³turma gibi s�n��and�r�c�lar�n içerdi§i for-
müldür. Özelliklerin güçleri hedef s�n��a olan ba§lar�ndan ortaya ç�kar. Hede�n
belirlenmesinde etkili olan özellikler daha fazla kazanca sahip olurlar. Bu formül
86
Tablo 4.10: Özelliklerin Katk� De§eri Ortalamalar� / 10'lu Çapraz Sa§lama
Özellik Ortalama Katk�s�Ad�l�n Durum Eki 85Ad�l�n DilbilgiselGörevi
82
Ad�l�n Aç�kl�§� 62Ad�l�n SözdizimTipi
93
Gönderimsel �fade-lerin Durum Eki
77
Göderimsel �fadele-rin AnlambilimselTipi
94
Gönderimsel �fa-delerin DilbilgiselRolü
81
Uzakl�k 100Ki³i-Say� Uyumu 0 3
ile olu³turulan 4.11 nolu tablo büyükten küçü§e s�ralanm�³t�r.
Tablo 4.11: Özelliklerin Bilgi Kazanc�
Özellik Bilgi Kazanc� / bitsUzakl�k 0.1844Gönderimsel �fadenin Anlambilimsel Tipi 0.1040Gönderimsel �fadenin Dilbilgisel Rolü 0.0918Gönderimsel �fadenin Durum Eki 0.0767Ad�l�n Durum Eki 0.0191Ad�l�n Dilbilgisel Rolü 0.0173Ad�l�n Sözdizimsel Tipi 0.013Ad�l�n Aç�kl�§� (overtness) 0.0001Ki³i-Say� Uyumu 0
Bu iki tablodan ç�kar�lacak iki net sonuç var. Bunlardan biri ad�l ile aday
öncüller aras�ndaki uzakl�k önemli bir unsurdur. Bu sonuç di§er diller içinde ge-
çerlidir. Giri³ k�sm�nda bahsedilen yakla³�mlar�n ço§unda uzakl�§�n gönderimsel
ili³ki üzerindeki etkisinden bahsedilir. Bir ikinci sonuç ise say�/ki³i uyumunun
87
gücünün 0 (s�f�r) ç�kmas�d�r. Bu durum esas�nda bu özelli§in önemsiz oldu§u
anlam�na gelmez. Çünkü eleme sürecinde say�/ki³i uyumu göstermeyen adaylar
sistemden elenir ve söz konusu ad�l için olu³an adaylar�n hepsi zaten ad�l için
say�/ki³i uyumunu sa§lar. Bu bak�mdan say�/ki³i uyumu özelli§i bu a³amada bir
i³e yaram�yormu³ gibi görünse de as�l görevi bir önceki eleme a³amas�ndad�r ve
di§er özelliklere göre çok önemlidir. Bu anlamda en önemli özelliktir diyebiliriz.
Di§er özelliklerin katk�s� da önemsiz de§ildir. Anlambilimsel durum her zaman
gönderimsel ili³kilerde etkisi vurgulanm�³ bir etkendir. Benzer bir ³ekilde Dil-
bigisel Görevde t�pk� Merkezleme kuram�nda oldu§u gibi çok önemli bir i³leve
sahiptir.
Artgönderim Çözümü Aç�s�ndan Performans De§erleri
Artgönderim Çözümlemesi için makine ö§renmesi yakla³�mlar� kullan�ld�§�nda
söylemdeki ad�llar ve öncüller ikili bir kay�t halinde ifade edilir ve ard�ndan her
bir kayd�n do§ru veya yanl�³ oldu§u kaydedilir. Bu ³ekilde yap�lmas�n�n temel
sebebi ö§renme algoritmalar�n�n kay�tlar üzerinden ikili s�n��and�rma yapabilme
gücüdür. Her kayd�n bir hedef s�n�f� vard�r bu s�n�f ikili veya çoklu olabilir. Bu
yöntem kullan�ld�§�nda makine ö§renme algoritmas� yeni gelen derlemi yine bu
kay�tlar ³ekilde ifade eder ve do§ru yanl�³ ³ekinde s�n��and�rma yapar. �³te bu
a³amada tekrar iki kay�tlardan eski derleme geri dönmek gerekiyor.
Bu noktadaki iki temel problem var:
1. Ad�l�n e³le³ti§i öncüller ile olu³turdu§u tüm kay�tlar� algoritman�n yanl�³
olarak etiketlemesi. Bu durumda söz konusu ad�l için algoritma bir öncül
önermemi³ oluyor.
2. Ad�l�n e³le³ti§i öncüllerden birden fazlas� için do§ru i³aretin verilmesi. Bu
88
durumda algoritma ad�l için birden fazla öncül önermi³ oluyor. Ve bu
durumda yine bir mu§lakl�k (ambiguity) olu³maktad�r.
�³te bu mu§lakl�§� çözmek için model a³a§�daki ³ekilde güncellendi ve sonuç-
lar bu aç�dan de§erlendirildi.
1. E§er hiçbir aday önerilmemi³se tüm aday öncüllerin en yak�n� o ad�l�n
öncülü olarak atan�r.
2. E§er birden fazla aday önerilmi³se o adaylar�n ad�la en yak�n olan� öncül
olur.
Algoritma bu ³ekilde güncelledi§inde 4.12 nolu tablo olu³tu.
Tablo 4.12: Artgönderim Ba³ar� Oran�
Model Ayarlar� Ba³ar� Oran�Voted Perceptron - Üst=1 0.52C-SVC - Do§rusal Çekirdek 0.54Naïve Bayes- Normal Da§�l�m 0.61J48 - Budamal� 0.62Voted Perceptron - Üst= 2 0.63Naïve Bayes - Çekirdek Tahim 0.63IBk - k=11 0.66J48 - Boosted ve Budamal� 0.69C-SVC - Radyal Tabanl� Çekirdek 0.70IBk - k=1 0.75
Bu tabloki sonuç ³u ³ekilde özetlenebilir: Bir modelin ifade gücü (expressive
power) ne kadar yüksekse, artgönderim çözümlemesinde o kadar ba³ar�l�d�r.
Tabloda göze çarpan bir di§er unsur kötü sonuca sahip alan do§rusal modeller-
dir:
1. Voted Perceptron - üs= 1
89
2. Do§rusal çekirdekli C-SVC
3. Normal Da§�l�ml� Naïve Bayes
Bunula beraber ifade gücü yüksek ayaralara sahip olan modeller ³unlard�r:
1. J48 - Budamal�
2. KNN - k=1
Yukar�daki modeller daha ba³ar�l� olmu³tur. Bu gözlem s�n��and�r�c�lar�n
performans�na tezat olu³turur. Çünkü ifade gücü çok artt�kça sistem a³�r� uyum-
dan zarar görmekteydi ve ba³ar� oran� belli bir noktadan sonra dü³mekteydi.
Bu farkl� duruma ³u ³ekilde aç�kl�k getirmeye çal�³al�m.
Kullan�lan Türkçe derlemde aday öncüller ad�ldan uzakla³t�kça gerçek öncül
olma olas�l�klar�n� kaybediyorlar. Ad�l�n öncülü genelde ona en yak�n öncüllerde
yeral�r. Bu çerçevede, mu§lakl�k oldu§unda ve adaylardan en yak�n� seçildi§inde
ifade gücü yüksek olan modellerin a³�r� uyum riski azalm�³ olur.
Kritik Ba³ar� Oran� (Critical Success Rate)
Mitkov artgönderim için dikkat edilmesi gereken bir performans ölçüm yakla-
³�m� önermi³tir. Bu yakla³�ma göre e§er bir ad�l için eleme i³leminden sonra
tek bir aday kalm�³sa çözüm çok kolayd�r. Dolay�s�yla bu tip durumlar�n çö-
zümü önerilen sistemden çok durumun kendisinden kaynakl� çözülmesi basit bir
örnektir. Yani sözkonusu derlem basit bir derlemdir. Bu tip örnekleri ba³ar� he-
sab�na katmaks�z�n, yani bu tip ad�llar d�³�nda kalan ad�llar üzerinden bir ba³ar�
oran�ndan bahsetmek gerekir. Çözümü kolay olmayan ad�llar için yap�lan hesap
sonunda olu³an performans oran�na kritik ba³ar� oran� ad� verilmi³tir. Bu
90
tez kapsam�nda sistemde elde edilen sonuçlar söz konusu kritik ba³ar� oran�na
oldukça yak�nd�r. Çünkü sistemde eleme i³leminden sonra tek bir aday öncülü
kalan ad�llar�n tüm ad�llara oran� %3 gibi ihmal edilebilir küçüklüktedir. Bu
anlamda her iki yakla³�mda (bilgi tabanl� ve makine ö§renme tabanl�) sunu-
lan ba³ar� oranlar� kritik ba³ar� oran� olarak dü³ünülebilir. Bu oran günümüzde
yap�lan tüm Bilgisayarl� Artgönderim çal�³malar� için kabül edilmi³ bir orand�r.
91
Bölüm 5
DENEY SONUÇLARININ
DE�ERLEND�R�LMES�
Bu çal�³ma kapsam�nda gerek ö§renme tabanl� yöntemler gerek bilgi tabanl�
yöntemler Türkçe metinlere uyguland�. De§erlendirmeye makine ö§renme algo-
ritmalar�n�n sonuçlar�yla ba³lanabilir. Bu algoritmalardaki süreç üç a³amadan
olu³ur. Birincisi her bir söylemdeki ad�llar ve onlar�n olas� aday öncülleri belir-
lendi. Her bir e³le³me veri taban� kay�tlar� gibi ifade edilip, evet/hay�r olmak
üzere ikili s�n��and�r�ld�. Böylece üzerinde ö§renme algoritmalar� kolayl�kla uy-
gulanabilir duruma geldi. Bir di§er a³ama ö§renme algoritmas�n�n bu veriden
bir model olu³turmas� oldu. Bu modeller, o modeli olu³umu için kullan�lmayan
ba³ka söylemlerden olu³an veriler üzerinde denendi. Asl�nda ö§renme algorit-
malar� e³le³melere evet/hay�r diyerek gönderimsel ili³kileri belirlemye çal�³�r.
Ancak Makine Ö§renme Algoritmalar� herbir ad�l�n sadece bir tane öncül adaya
sahip olmas� gereklili§i bilgisinden yoksundur. Bu nedenle sistemin bir üçüncü
a³amaya ihtiyac� vard�. Bu a³amada e§er birden fazla aday öncül varsa ya da
hiç aday yoksa en yak�n aday�n seçilmesi i³lemi yürütüldü.
92
S�n��and�rma a³amas�nda de§erlendirme sistemi için f-ölçütü kulland�§�nda
elde edilen sonuçlar %64 ve %74 aras�nda ç�kt�. Bu de§erlerin yeterli oldu§unu
Kappa istatisti§i arac�l�§� ile ifade edilebildi. Çünkü bu istatistik öne sürülen
modelin rastgele bir modelden ne kadar ba³ar�l� oldu§unu belirler. Bu bak�m-
dan say�sal aç�dan da olu³an modellerin belli bir ba³ar�y� yakalayabildi§ini gö-
rürebilmekteyiz. Bu istatisti§e göre Kappa de§eri 0.4'ten büyük ç�karsa önerilen
modelin ba³ar�l� oldu§u söylenebilmektedir. Önerilen algoritmalar�n ço§u bu de-
§erin üstünde sonuç vermi³tir.
Do§rusal olmayan ayarlara sahip ö§renme algoritmalar�n�n, di§erlerine oranla
daha ba³ar�l� oldu§u görülmü³tür. Bunun sebebi de derlemde olu³an kay�tlar�n
do§rusal bir yöntemle s�n��and�r�lamamas�d�r. Ayn� zamanda do§rusal olmayan
s�n��and�r�c�lar ise belli bir seviyeden sonra a³�r� uyumdan olumsuz etkilendik-
lerinden ba³ar� oranlar� dü³mektedir.
Makine Ö§renmesi sonras� artgönderim çözümü s�ras�nda ise ³u sonuçlar elde
edildi. Bir modelin ifade gücü artar ise, ba³ar� oran� artar. Herhangi bir a³�r�
uyuma yol açmaz. Bunun as�l sebebi birden fazla aday seçildi§inde en yak�ndaki
aday�n seçilmesidir. Derlemdeki ad�l/öncül uzakl�§�n�n oldukça küçük olmas�
sebebiyle bu a³�r� uyum (over�tting) etkisi yok oldu.
Bir di§er gözlem ise artgönderim çözümünde uzakl�§�n ve ki³i/say� uyumu-
nun çözümde çok etkili oldu§udur. Bu önceki bölümlerde verilen tablolardan
da görülebilir. Bu özellik di§er bilgi tabanl� yakla³�mlar için de güçlü bir özellik
olarak ön plana ç�kar.
Bilgi tabanl� ya da kural tabanl� yakla³�mlardan RAP temelli yakla³�m Türkçe
alana uygulad�§�nda elde edilen en iyi sonuç % 53 ç�kt�. Bu sonuç için algoritma-
daki parametreler sürekli de§i³tirildi. Ve sonuçta 1114 ad�ldan 598'i do§ru bir
³ekilde çözümlendi. Di§er yakla³�mlarla kar³�la³t�r�ld�§�nda bu ba³ar� oran�n�n
93
daha dü³ük oldu§u söylenebilir.
Bilgi tabanl� yakla³�mlardan Merkezleme Teorisini ele alan yakla³�m Türkçe
alan�na uygulad�§�nda RAP temelli algoritmaya göre daha iyi bir sonuç al�nd�.
Bu yakla³�mda 1114 ad�ldan 792'si ba³ar�l� bir ³ekilde çözümlenmi³ oldu. Bu-
radaki % 0.71 (792 /1114) ba³ar� oran� RAP algoritmas�na göre daha iyi bir
sonuçtur. Bununla birlikte makine ö§renme algoritmalar�na göre ise yeterli bir
seviyede oldu§u söylenebilir. Bu a³amada bilgi tabanl� ve makine ö§renme ta-
banl� yakla³�mlar�n sonuçlar�n� tek bir tabloda ifade ederek de§erlendirilebilir.
5.1 nolu tabloda hem makine ö§renme algoritmalar�n�n hem bilgi tabanl� algo-
ritmalar�n sonuçlar� listelenmi³tir. Belirginlik temelli yakla³�m�n Türkçe derlem
üzerindeki ba³ar� oran� Alg�lay�c� (Voted Perceptron) s�n��and�r�c�s� ile nere-
deyse ayn�d�r. Bu s�n��and�r�c� di§er makine ö§renmesi algoritmalar�yla kar³�-
la³t�r�ld�§�nda en kötü sonuca sahip olan algoritmad�r. Daha önce de de§inildi§i
gibi bu algoritma ifade gücünün zay�f olmas� sebebiyle derlemdeki durumlar�
tam olarak ifade edememektedir. Üst de§erinin 1 olmas� bu algoritman�n do§-
rusal bir s�n��and�r�c� gibi davranmas�na yol açmaktad�r. Bu nedenle derlem
üzerindeki ba³ar� oran� dü³üktür.
Bu noktada cevab� aranan soru ³udur:
Peki Belirginlik Temelli Yakla³�m neden makine ö§renmesi algo-
ritmalar�ndan daha kötü bir sonuç verdi ? Ve bu algoritmalardan üs
derecesi 1 olan, yani do§rusal bir ö§renme algoritmas� gibi davranan
alg�lay�c� (Voted Perceptron) ile neredeyse ayn� sonucu vermesinin
nedeni nedir ?
Makine Ö§renme algoritmalar�n�n en önemli özelli§i veritaban�ndaki gizli
desenleri, kurallar�, formülleri bulup ç�karabilmesidir. Dolay�s� ile artgönderim
94
Tablo 5.1: Artgönderim Ba³ar� Oran�
Makine Ö§renme Temelli Yakla³�mlar
Model Ayarlar� Ba³ar� Oran�Voted Perceptron - Üst=1 0.52C-SVC - Do§rusal Çekirdek 0.54Naïve Bayes- Normal Da§�l�m 0.61J48 - Budamal� 0.62Voted Perceptron - Üst= 2 0.63Naïve Bayes - Çekirdek Tahim 0.63IBk - k=11 0.66J48 - Boosted ve Budamal� 0.69C-SVC - Radyal Tabanl� Çekirdek 0.70IBk - k=1 0.75
Bilgi Tabanl� Yakla³�mlar
Belirginlik Temelli Yakla³�m (RAP) 0.53Merkezleme Temelli Yakla³�m 0.71Merkezleme Temelli (Ad�ls� Vurgusu) 0.72
problemine uygulanacak ö§renme algortimalar� söylemdeki gönderimsel ili³kile-
rin hangi kurallara göre olu³tu§unu bulabilme kapasitesine sahiptir. �imdi bu
a³amada belirginlik tabanl� yakla³�m içerdi§i yöntemden dolay� do§rusal bir mo-
dele sahiptir. Yani girdi olarak ald�§� özellik listesini belli a§�rl�k de§erlerine göre
çarparak bir sonuç üretmeye çal�³�r. Daha önceki bölümlerde ifade edildi§i gibi
algoritma gözden geçirildi§inde bu yöntemin bu manada basit ve do§rusal bir
yap�s� vard�r ve sadece derlemdeki do§rusal bilgileri bulabilir. Makine Ö§renme
algoritmalar� da, e§er derlemde mevcut ise bu basit ve do§rusal kurallar� rahat-
l�kla bulur. Ancak ö§renme algoritmalar� belirginlik temelli yakla³�m�n aksine
do§rusal olmayan kurallar�da bulabilir. E§er derlem do§rusal yöntemle s�n��an-
d�r�lam�yorsa, do§rusal olmayan makine ö§renme yöntemleri bu kurallar� bulup
ç�karma yetene§ine sahiptir. Yani belirginlik temelli yakla³�m�ndaki algoritma
makine ö§renme algoritmalar� taraf�ndan zaten ö§renileblir ve hatta belirginlik
95
taban�n�n ula³amayaca§� desenleri de derlemden bulup ç�karabilir. Belirginlik
tabanl� yakla³�m tam da Do§rusal Voted Perceptron (üs=1) gibi çal�³�r. 4.3.2
nolu bölümde tan�mlanan Belirginlik Temelli algoritma birinci dereceden bir al-
g�lay�c� gibi ifade edilebilir. Örne§in 4.3.2 nolu tablodaki a§�rl�klar� kullanarak
yarat�lan model 5.1 nolu ³ekildeki gibi ifade edilebilir.
�ekil 5.1: Belirginlik Temelli Yakla³�m Gösterimi
Bundan dolay� uygulad�§�m�z belirginlik temelli yakla³�m ö§renme algorit-
malar� taraf�ndan rahatl�kla ö§renilebilir. Veri do§rusal s�n��and�r�c�larla ifade
edilemez ise belirginlik tabanl� yöntem do§rusal oldu§undan veriyi do§ru ifade
edemez. Sonuç olarak belirginlik tabanl� yakla³�m�n do§rusal olmayan derlem-
deki gizli desenlere ula³ma yetene§i yoktur. Bu yakla³�mda kullan�lan a§�rl�k-
land�rmadaki formül, Do§rusal Voted Perceptron ile birebir ayn�d�r. Alg�lay�c�
( Voted Perceptron) derlemdeki bilgileri kullanarak en iyi a§�rl�k de§erlerini
kendi bulurken, belirginlik tabanl� yakla³�mda bu a§�rl�kland�rmalar elle veri-
lir. Baz� denemelerle en iyi sonucu gözlemleyene kadar a§�rl�klar� de§i³tirmek
durumunda kal�nabilir. �³te bu yap�sal benzerlik sebebiyle do§rusal alg�lay�c�
(Voted Perceptron) ile belirginlik tabanl� yöntemin sonuçlar� birbirine oldukça
yak�nd�r. Ama yine de do§rusal olarak s�n��and�r�lamayan bir veri üzerinde elde
edilen sonuç çok ba³ar�l� de§ildir.
Öte yandan Merkezleme yakla³�m�n�n sonucu hem belirginlik tabanl� yakla-
96
³�ma göre hem de birçok ö§renme algoritmas�na göre daha iyi sonuç vermi³tir.
Bunun en önemli sebebi Türkçe'nin Merkezleme Teorisine uygun bir söylem ya-
p�s� olu³turdu§udur. Bu yakla³�mda kullan�lan s�ralama algoritmas� dilbilgisel
roller üzerinden yap�lm�³t�r. Bu roller konu ve odak olu³turmada çok belirleyici
oldu§undan Türkçe derlem üzerinde ba³ar�l� olmu³tur. Türkçe söylem davra-
n�³�ndaki merkezin sürekli sabit kalma e§ilimi merkezleme teorisinin ba³ar�s�n�
art�rm�³t�r. Asl�nda bu durum sadece Türkçe'ye özgü de§ildir. Di§er dillerde
de bu durum geçerli olabilir. Bu ³imdilik bu çal�³man�n kapsam� d�³�ndad�r.
Türkçe'nin bu merkezleme kurallar�na yatk�n bir davran�³ sergiledi§i görülmü³-
tür. Bu durum belki sadece hikayelerden olu³turulan derlem sebebiyle olu³mu³
olabilir. Merkezdeki söylem varl�§� sisteme girdikten sonra uzun süre merkezi
i³gal etmesi bu teorinin daha ba³ar�l� olmas�n� sa§lam�³t�r. Zaten 4.6 nolu Ka-
rar Gücü tablosuna bak�ld�§�nda ilk ad öbe§i vurgusu etkeninin çok önemli
bir güce sahip oldu§unu görülür. Çünkü sisteme ilk dahil olan söylem varl�§�
en az�ndan Türkçe hikaye yap�s�nda merkezde kalma e§ilimidedir. Bu nedenle
Merkezleme Algoritmas� bizim çal�³ma alan�m�zda yüksek bir ba³ar� kaydet-
mi³tir. Örne§in a³a§�daki Dostoyevski'nin Yeralt�dan Notlar eserinden al�nm�³
a³a§�daki metnine bak�labilir.
Ba³�m� tiksintiyle öteye çevirdim. Art�k konu³mam, so§ukkanl�
felsefe yapmak ³eklinden ç�km�³t�. Yava³ yava³ neler söyledi§imin
fark�nda oluyor, heyecanlan�yordum. Kö³emde tek ba³�ma otura otura
içimde do§an �kirleri dökmek için sab�rs�zlan�yordum. �çimde bir
alevin parlad�§�n� hissettim. Önümde bir gaye belirmi³ti...
Bu metindeki birinci tekil ³ah�s (ben) bo³ artgönderim olarak tüm metinde
tekrarlanmaktad�r. Bazen söylemin merkezi de§i³se de ilk ad öbe§i olarak sis-
teme giren � (ben) bo³ artgönderimi metin boyunca sürekli kendini merkezde
97
bo³ artgönderim olarak tekrarlar. Bu da merkezleme terosinin DEVAM geçi³inin
sürekli tercih edilmesi manas�na gelir. Türkçe hikaye metinlerindeki bu özellik
Merkezleme Teorisi ile yap�lan deneyin ba³ar�l� ç�kmas�n� sa§lam�³t�r.
Tüm bu denemeler çerçevesinde Türkçe derlemde hangi özelliklerin gönde-
rimsel ili³kiler üzerinde etkili oldu§u birçok metrik sistem üzerinden tart�³�la-
bilir. 4.5 nolu Ba§�l Önem tablosunda en önemli etkenler say�/ki³i uyumu ve
özne vurgusu olmu³tur. Kullan�lan di§er özellikler belli bir seviyenin alt�nda
kalm�³t�r. Bununla birlikte 4.6 nolu Karar Gücü tablosunda say�/ki³i ve özne
vurgusu d�³�nda en önemli özellik �lk Ad Öbe§i olmu³tur. Bunu sebebi kul-
lan�lan Türkçe öykülerin karakteristi§inden kaynaklanabilir. Yukar�da bahsedil-
di§i gibi sisteme dahil olan söylem varl�§� sürekli tekrarlanarak söylem boyunca
oda§� ve konuyu i³gal edebiliyor. Makine Ö§renme deneylerinde üretilen 4.10
nolu tabloda en önemli etken olarak uzakl�k bilgisi öne ç�kmaktad�r. Uzak-
l�k bilgisi Belirginlik tabanl� yöntemde özellik olarak kullan�lmad�§�ndan karar
gücü ve ba§�l önem gibi tablolarda kar³�m�za ç�kmad�. Ancak orada kullan�lan
algoritmada yine önemli bir etkendir. Veri Madencili§i alan�nda s�kl�kla kulla-
n�lan bir di§er özellik gücü ölçme yöntemi bilgi kazanc� yöntemidir. Daha önce
4.11 nolu tabloda verilen sonuçlarda ise dört özellik ön plana ç�km�³t�r: Uzakl�k,
anlambilimsel bilgi, dilbilgisel rol ve durum eki bilgisidir.
Bu sonuçlara bak�ld�§�nda tüm yöntemler için ortak öneme sahip özellikler
uzakl�k, say� ki³i uyumu ve dilbilgisel rol olarak s�ralanabilir. Bu bak�mdan
olu³turulacak bir sistem sadece bu bilgiler üzerine kurulabilir. Bu bilgiler az
bilgili bir sistemi ifade etmektedir. Bu çal�³madaki derlem üzerinde az bilgili bir
artgönderim çözümlemesi ba³ar�l� bir ³ekilde uygulanabilir.
Bu a³amda uygulanan tüm metodlar genel bir tabloda belli aç�lardan de-
§erlendirilebilir. 5.2 nolu tabloda bilgi tabanl� ve makine ö§renme tabanl� algo-
98
ritmalar�n�n baz� özellikleri listelenmi³tir: algoritmalar�n�n ö§renme h�z�, karar
verme h�z�, bilgi gereksinimi ve ba³ar� oran�.
Tablo 5.2: Tüm Yakla³�mlar�n Genel Görünümü
Yöntem Ö§renmeH�z�
Karar H�z� Bilgi Ge-reksinimi
Ba³ar� Oran�
Bilgi Tabanl� Yakla³�mlarBelirginlikTabanl� Yöntem
Yok Çok H�zl� Normal 0.53
MerkezlemeYakla³�m�
Yok H�zl� Az 0.71
Ö§renme Tabanl� Yakla³�mlarIBk (k=11) Yok Çok Yava³ Normal 0.66J48 - Budamal� Normal H�zl� Normal 0.69IBk (k=1) Yok Çok Yava³ Normal 0.75
Yukar�daki tablonun da gösterdi§i gibi bilgi tabanl� yakla³�mlar�n herhangi
bir ö§renme süreci mevcut de§ildir. Çünkü bilgi tabanl� yöntemler dilbilimsel
teorilerden olu³turulmu³tur. �statistiksel bir yöntem içermezler. En önemli bilgi
tabanl� yöntemlerden biri olan belirginlik tabanl� yöntemin karar verme h�z�
yüksektir. Çünkü içerdi§i formül do§rusal bir toplamadan olu³ur. Do§rusal bir
algoritmaya sahip oldu§undan, daha önce de belirtti§imiz gibi do§rusal olmayan
derlemimiz üzerindeki ba³ar� oran� da dü³üktür. Bilgi gereksinimi ise normal
düzeydedir.
Bir di§er yöntem olan Merkezleme Teorisinin karar verme h�z� yüksektir
ancak belirginlik tabanl� yönteme göre biraz yava³t�r. Çünkü merkezleme te-
orisi basit bir toplama yapmaz. Bir çok s�ralama ve senaryo seçim süreci içerir.
Bu yönüyle belirginlik temelli yakla³�ma göre daha karma³�kt�r. Öte yandan
Merkezleme teorisinin ihtiyac duydu§u bilgi sadece isim halleridir. Bu anlamda
bilgiye en az ihtiyaç duyan yöntem bu yöntemdir. Di§er tüm yöntemler biçim-
99
bilimsel, dilbilgisel, anlambilimsel gibi farkl� farkl� bilgiye ihtiyac duyarlar. Bu-
nunla birlikte merkezmleme teorisinin ba³ar� oran� belirginlik tabanl� yönteme
göre daha yüksektir. Çünkü daha önce belirtildi§i gibi Türkçe hikayelerindeki
yap�sal durum Merkezleme Teorisini desteklemektedir.
Makine ö§renmesi algoritmalar�ndan IBk (k-en yak�n kom³u) algoritmas�n�n
ilk versiyonunda k de§eri 11 olarak kullan�lm�³t�r. Bu algoritman�n ö§renme sü-
reci yoktur. Çünkü yöntem yeni bir durum geldi§inde veri taban�n� tarar. Bu
bak�mdam karar verme h�z� oldukça yava³t�r. K de§eri 1 oldu§unda ise karar
verme h�z� biraz daha yükselebilir ama yine de K-en yak�n kom³u algoritmala-
r�n�n genel bir özelli§i olan karar vermedeki yava³l�§� sabittir. J48 Karar A§ac�
ise bir ö§renme sürecine ihtiyaç duyar. Ancak Karar A§açlar�n�n karar verme
h�z� k-en yak�n kom³u algoritmas�na göre daha h�zl�d�r. Karar A§ac�n�n ba³ar�
oran� IBk (k=1)'den yüksek, ancak IBk(k=11)'den dü³üktür.
IBk(k=1) algoritmas� tablodaki en ba³ar�l� yöntemdir. Ancak tasarlanacak
bir sisteme uygun olup olmad�§� olu³turulacak sistemin gereksinimine göre de-
§i³ir. Çünkü bu algoritman�n karar verme h�z� çok dü³üktür. Öte yandan Karar
A§ac�n�n ba³ar�s� ona göre dü³ük olsa da karar verme h�z� daha yüksektir. H�zl�
karar verilmesi gereken sistemler için karar a§ac� yap�s� tercih edilebilir. E§er
olu³turulacak sistemin bilgi gereksinimi çok k�s�tl�ysa bu durumda tercih edil-
mesi gereken yöntem merkezleme yöntemidir. Çünkü merkezleme yöntemi hem
ba³ar� hem az bilgili olma aç�s�ndan avantajl� durumdad�r. Bu yöntem ö§renme
süreci içermez, karar h�z� yüksek, bilgi gereksinimi en az ve ba³ar� oran� yük-
sektir.
Tüm bu tez kapsam�nda sunulan yakla³�mlar�n sonuçlar�, bu alanda yap�lm�³
di§er çal�³malarla kar³�la³t�r�labilir. Ancak sa§l�kl� bir kar³�la³t�rman�n önünde
baz� problemler vard�r. Bu problemler ³u ³ekilde s�ralanabilir:
100
1. Kar³�la³t�r�lan iki sistem farkl� diller için yaz�lm�³ olabilir. �ngilizce için
yap�lan bir çal�³may� Japonca için yap�lm�³ ba³ka bir çal�³mayla birebir
kar³�la³t�rmak anlams�z olabilir.
2. Kar³�la³t�r�lan iki sistem ayn� dil için olu³turulmu³ olsa bile farkl� der-
lemler kullan�yor olabilir. Her derlemin kendine göre bir karma³�kl�§� ol-
du§undan ortaya ç�kan ba³ar� oranlar�n�n birbiriyle kar³�la³t�r�lmas� yine
anlams�z olacakt�r.
3. Kullan�lan derlemin büyüklü§ü de kar³�la³t�rmay� etkileyecek bir durum-
dur. Literatürdeki kimi çal�³malar 300 ad�l içerirken kimi çal�³malar 5000
ad�l içerebiliyor. Bu anlamda derlemin büyüklü§ü de yarat�lan sistemin
güvenilirli§ini belirler. Bu da göz önünde bulundurulmas� gereken ba³ka
bir kriterdir.
4. Artgönderim çözümleme problemindeki kapsam bir di§er kriterdir. Çünkü
baz� çal�³malar sadece ad�llar üzerinde çal�³�rken baz� sistemler tüm gön-
derimsel ili³kiler üzerinde çal�³abilmektedir. Örnek olarak bu tez kapsa-
m�nda sadece aç�k ad�llar, dönü³lü ad�llar, bo³ artgönderimler, kar³�l�kl�
artgönderimler incelendi. Sözlüksel ad öbe§i artgönderimleri kapsam d�-
³�nda b�rak�ld�.
5. Artgönderim Çözümleme Sistemlerindeki bir di§er önemli unsur sistemin
otomatik olup olmad�§�d�r. Çünkü gerçek ve güncel uygulamalar tam oto-
matik bir alanda çal�³mak isterler. Artgönderim çal�³malar�nda derlemi
elle i³aretlemek s�kl�kla ba³vurulan bir yöntem. Ancak gerçek sistemlerde
elle i³aret vermek gibi bir ³ey söz konusu olmad�§�ndan bu durum bir deza-
vantaj yaratmaktad�r. Ancak makine ö§renmesi çal�³malar�nda derlemin
gönderimsel ili³kileri elle belirlenmek zorunda. Çünkü bir ö§renme süreci
mevcuttur. Dolay�s�yla olu³turulan sistemlerin ne kadar otomatik oldu§u
101
önemlidir. Kar³�la³t�rma yap�l�rken bu etkeni de göz önünde bulundurmak
gerekiyor.
6. Az bilgili Artgönderim Çözümleme Sistemleri son zamanlarda s�kl�kla ter-
cih edilmektedir. Az bilgili / çok bilgili ikilili§i her zaman göz önünde bu-
lundurulacakt�r. Gelecekte bilgi çok kolay eri³ilebilirse bu durumda çok
bilgili sistemlere bir yönelim olabilir. Günümüzde bu eri³im kolay olma-
d�§�ndan ve uygulanabilir gerçek sistemler olu³turulmaya çal�³�ld�§�ndan
bu sistemlerin bilgiye ba§�ml�l�§�n�n en aza indirilmesi ve daha h�zl� ça-
l�³t�r�lmas� hede�enmektedir. Sonuç olarak sistemler kar³�la³t�r�l�rken az
bilgililik etkeni de göz önüünde bulundurulmal�d�r.
�imdi bu tezde bahsedilen di§er artgönderim çal�³malar�n�n sonuçlar� Tablo
5.3'de gösterilmi³tir.
Tablo 5.3'de de görüldü§ü gibi artgönderim problemi için birçok dile yö-
nelik çok say�da çal�³ma yap�lm�³t�r. Bu tablo yap�lan çal�³malar�n bir k�sm�n�
temsil etmektedir. Ancak bunlar literatürdeki en önemli çal�³malar aras�ndan
seçilmi³tir. Çal�³malar�n ba³ar� oranlar� ve f-ölçütleri %60 ile %90 aras�nda de-
§i³mektedir. Bu sonuçlar mükemmel bir sistem için yeterli de§ildir. Dolay�s�yla
artgönderim çözümlemesi için daha çok çal�³ma yap�lmas� gerekmektedir. Her
ne kadar yukar�da s�ralanan sebeblerden dolay� birebir kar³�la³t�rma anlams�z
olsa da çal�³ma sonuçlar�n�n di§er çal�³ma sonuçlar�na yak�n olmas� sebebiyle
bu çal�³mada tasarlanan artgönderim sistemlerinin bu anlamda yeterli oldu§u
söylenebilir. Ama yine de Türkçe için daha birçok çal�³ma ve deney yap�lmas�
gerekiyor. Bu çal�³ma ve yukar�da s�ralanan çal�³malar bize gelecek için bir ta-
k�m ipuçlar� vermektedir. Bu manada de§erlendirme yapmak faydal� olacakt�r.
102
Tablo 5.3: Artgönderim Çal�³malar�n Ba³ar� Oranlar�
Çal�³ma Dil Yöntem Sonuç
[Kennedy ve Boguraev, 1996] �ngilizce BilgiTabanl�
% 75
[Baldwin, 1997] �ngilizce BilgiTabanl�
%92 kesinlik ve %64anma
[Mitkov, 2002] �ngilizce Bilgi Ta-banl� Yar�Otomatik
% 85-90
[Mitkov, 2002] �ngilizce Bilgi Ta-banl� TamOtomatik
% 61.55
[Mitkov, 2002] JaponcaAdaptas-yon
Bilgi Ta-banl� Yar�Otomatik
% 75.8
[Mitkov, 2002] BulgarcaAdaptas-yon
Bilgi Ta-banl� Yar�Otomatik
% 72.6
[Aone ve Bennet, 1995.] Japonca Ö§renmeTabanl�
%70.20/%88.55/%77.27(anma/kesinlik/f-ölçütü)
[McCarthy ve Lehnert, 1995.] �ngilizce Ö§renmeTabanl�
%85.4/%87.6/%86.5(anma/kesinlik/f-ölçütü)
[Soon vd., 2001.] �ngilizce Ö§renmeTabanl�
%52/%68/%60(anma/kesinlik/f-ölçütü)
[Yüksel ve Boz³ahin, 2002] Türkçe BilgiTabanl�
% 70
[Tüfekci ve K�l�çaslan, 2005] Türkçe BilgiTabanl�
% 84
[Küçük, 2005] Türkçe BilgiTabanl�
%85/%88/%87(anma/kesinlik/f-ölçütü)
Bizim Çal�³ma Türkçe BelirginlikTabanl�
% 53
Bizim Çal�³ma Türkçe MerkezlemeYakla³�m�
% 71
Bizim Çal�³ma Türkçe J48 - Ka-rar A§ac�
% 69
Bizim Çal�³ma Türkçe IBk (k=1) % 75
103
Bölüm 6
SONUÇ
6.1 Amaç
Bu tez çal�³mas� kapsam�nda Türkçe metinlerdeki artgönderimsel ili³kilerin bil-
gisayarl� çözümlenmesi ara³t�r�lm�³t�r. Artgönderim çözümlemesi bilgisayarl� dil-
bilim ara³t�rma alan�n�n önemli bir alt ba³l�§� oldu§undan birçok sistemin vaz-
geçilmez unsurudur. Türkçe için yürütülen bilgisayarl� dilbilim çal�³malar�n�n
azl�§� ve bu alanlardaki çal�³malara duyulan ihitiyaç sebebiyle Türkçe için art-
gönderim çözümlemesi bu tez kapsam�nda ara³t�r�lm�³t�r. Kapsam olarak ad�lsal
artgönderim, dönü³lü artgönderim, bo³ artgönderim ve kar³l�l�kl� artgönderim
tipleri ele al�nm�³t�r. Deneylerin düzgün yap�lmas� amac�yla yakla³�k 10 000 ke-
lime kapasiteli ve 1114 ad�l içeren bir derlem olu³turulmu³tur. Deney sonuçlar�n�
de§erlendirebilmek için derlemdeki gönderimsel ili³kiler elle i³aretlenmi³tir.
104
6.2 Yöntem
En önemli hususlardan biri bu çözüm sistemini olu³tururken hangi yakla³�m-
lar�n kullan�laca§�d�r. Bu çal�³ma kapsam�nda birçok deney yapma olana§� bu-
lunmu³, çe³itli yöntemler artgönderim probleminin çözümü için denenmi³tir.
Her alandaki bilgisayarl� sistemler için iki yakla³�m uygulanabilir: Kural tabanl�
yakla³�mlar, Ö§renme Tabanl� yakla³�mlar. Bu iki yakla³�mdan birincisi olan
kural tabanl� ya da bilgi tabanl� yöntem daha önce yap�lm�³ olan teorik çal�³-
malar� ele al�r ve buna göre bir sistem olu³turur. Bu yakla³�m bir di§er ifade
ile tümdengelim olarak bilinir. �kinci yakla³�m olan ö§renme tabanl� yakla³�m
ise tümevar�m olarak da ifade edilebilir. Çünkü birçok örnek durumdan özel
kurallar bulunmaya çal�³�l�r. Makine Ö§renmesi olarak da bilinen bu yöntemler
istatistiksel bilgileri kullanarak veriden bir model olu³turmaya çal�³�rlar ve bir
genelleme ararlar.
6.3 Sonuçlar ve Bulgular
Bu tez kapsam�nda bu iki yakla³�m�n nas�l bir sonuç verece§i ara³t�r�lm�³ ve bu
yakla³�mla çe³itli algoritmalar olu³turulmu³tur. Bilgi tabanl� yakla³�m�n önemli
bir yöntemi olan belirginlik tabanl� yöntem derlem üzerinde denenmi³ ve %52
oran�nda bir ba³ar� elde edilmi³tir. Bir di§er bilgi tabanl� yakla³�m ise Mer-
kezleme Algoritmas�d�r. Bu algoritma daha önce de belirtildi§i gibi söylemin
merkezinin davran�³�na ili³kin çe³itli kurallar içerir. Merkezdeki ö§enin kendini
merkezde tutma e§ilimi prensibi üzerine kurulmu³ bu yöntem Türkçe derlem
üzerinde s�nand�§�nda ise %71 gibi bir sonuç elde edilmi³tir. Öte yandan ad�ls�
ö§elerin çok daha belirgin olmas� ihtimaliyle bu algoritma güncellenmi³ ve %72
gibi bir ba³ar� oran� elde edilmi³tir. Bu noktada ise ad�ls� ö§elerin belirginli§inin
105
di§er ö§elere göre çok daha fazla oldu§u gözlemlenmi³tir. Bilgi tabanl� yakla-
³�m�n bu iki önemli algoritmas�ndan merkezleme yönteminin belirginlik tabanl�
yönteme göre daha ba³ar�l� oldu§u gözlemlenmi³tir. Bu deneyden Türkçe metin-
lerin merkezleme teorisinin vurgulad�§� kurallara yatk�n olmas� sonucu ç�kar�l-
m�³ ve bu bulgu çe³itli örneklerle güçlendirilmi³tir. Belirginlik tabanl� yöntemin
do§rusal bir toplama i³lemine dayanmas� ele al�nan derlem üzerinde etkisiz kal-
mas�na yol açm�³t�r. Bu yöntem makine ö§renmesi yöntemlerinden üs derecesi
1 olan alg�lay�c� ile benze³tirilmi³ ve di§er yöntemlere göre daha ba³ar�s�z olma
sebebi do§rusall�k üzerinden ifade edilmi³tir.
Makine ö§renmesi algoritmalar�ndan sadece be³ tanesi çe³itli ayarlarla de-
nenmi³tir: Karar A§açlar�, K-en Yak�n Kom³u algoritmas�, Destek Vektör Maki-
neleri, Naïve Bayes algoritmalar ve Alg�lay�c�lar (Voted Perceptron). Bu algorit-
malardan ilk ikisinin ifade gücü (expressive power) artt�kça, belli bir noktadan
sonda a³�r� uyum (over�tting) sorunu üretti§i gözlemlenmi³tir. Bununla birlikte
ifade gücü azald�kça yetersiz uyum (under�ting) sorunu yaratt�§� da gözlem-
lenmi³tir. Di§er üç algoritma ise do§rusal ayarlarla kullan�ld�klar�nda derlem
üzerinde ba³ar�l� olamam�³t�r. Bu ayarlar do§rusal olmayacak ³ekilde düzenlen-
di§inde ise ba³ar� oranlar� yüksek ç�km�³t�r. Bu aç�dan üzerinde çal�³�lan Türkçe
derlemin do§rusal s�n��and�r�c�larla ifade edilemeyece§i ve s�n��and�r�lamaya-
ca§� sonucu ç�kar�lm�³t�r. Do§rusal ayara sahip bir alg�lay�c�n�n (Voted Percept-
ron) performans�n�n belirginlik tabanl� yakla³�mla ayn� ç�kmas�n�n yöntemlerin
yap�sal benzerliklerinden kaynakland�§� ve bu yap�sal benzerli§in Türkçe art-
gönderim problemi için yeterli bir çözüm yöntemi olu³turamad�§� gösterilmi³tir.
Makine ö§renmesindeki elde edilen ba³ar�lar genelde anma, kesinlik ve f-
ölçütü (recall, precision, f-measure) metrikleriyle de§erlendirilir. Ancak makine
ö§renmesi modelinin üretti§i sonuçlar�n artgönderim çözümlemesi için bir a³a-
106
madan daha geçirilmesi gerekmi³tir. Çünkü makine ö§renme algoritmalar� söy-
leme veya artgönderime özel olan kurallar� bilemeyece§inden baz� düzenleme-
ler yap�lm�³t�r. Ö§renme sonras� (post-processing) süreç olarak tan�mlanan bu
a³amada ö§renme için kullan�lan anma, kesinlik, f-ölçütü metriklerinden ba-
³ar� oran� metri§ine geçilmi³tir. Bu geçi³ s�ras�nda "ifade gücünün çok olmas�
a³�r� uyuma (over�tting) yol açar" biçimdeki olumsuz etkinin yok oldu§u göz-
lemlenmi³tir. Mu§lakl�k durumunda ba³vurulan en yak�n aday�n öncül olarak
seçilmesi, bu olumsuz etkiyi azaltm�³t�r.
Ö§renme sonras� a³amada elde edilen sonuçlara bak�ld�§�nda en iyi sonucun
K-en yak�n kom³u algoritmas�n�n k=1 ayar� ile üretildi§i gözlemlenmi³tir. Bu
algoritma %75 ba³ar� oran� kaydederken, bu algoritmaya en yak�n algoritma
ise %71 ba³ar� oran�yla Merkezleme Algoritmas� olmu³tur. Di§er algoritmalar-
dan Karar A§ac� %69 ba³ar� oran� sa§lam�³ ve K-en yak�n kom³u algoritmas�
k=11 ayar� ile %66 ba³ar� oran�na sahip olmu³tur. Birinci dereceden do§rusal
ayara sahip Alg�lay�c� (Voted Perceptron) ile yine do§rusal bir algoritmaya sa-
hip belirginlik tabanl� yöntemin benzer ve dü³ük bir ba³ar� oran�na sahip oldu§u
gözlemlenmi³tir. Çünkü bu iki yöntem yap�sal olarak da birbirlerine benzemek-
tedirler. Bu algoritmalar ile en çok %52 gibi bir sonuç elde edilmi³tir.
Artönderim Çözümlemesinde kullan�lan özelliklerin hangilerinin gönderimsel
ili³kilerde etkin oldu§u çe³itli ölçüm yöntemleriyle s�nanm�³t�r. Bu say�sal ölçüm
tekniklerine dayanarak say�/ki³i uyumunun, dilbilgisel rollerin ve ad�l ile öncül
aras�ndaki uzakl�§�n etkili özellikler oldu§u gösterilmi³tir. Bunlar�n yan�nda ilk
ad öbe§i vurgusunun Türkçe söylemde önemli oldu§u saptanm�³t�r ve bu önem
merkezleme algoritmas�n�n ba³ar�s�n� da etkiledi§i kaydedilmi³tir.
�statistiksel ve ö§renme tabanl� yakla³�mlar�n önemi bilimin her alan�nda
kendisini hissettirmi³tir. Dolay�s�yla, Artgönderim Sistemlerinde de bu yakla-
107
³�mlar önemli bir konum edinmi³tir. Ancak yine de bilgi tabanl� yakla³�mlar
halen daha bilgisayarl� dilbilim alan�n�nda çok büyük öneme sahiptirler. �statis-
tiksel yöntemler dildeki örnek söylemlere bakarak belli desenleri veya kurallar�
yakalamaya çal�³�rlar. Öte yandan bilgi tabanl� yöntemler ise bu desenleri ya
da kurallar� istatistiksel yöntemlere dayanarak de§il de teorik bilgiler �³�§�nda
ortaya ç�karmaya çal�³�rlar. Bu iki yakla³�m daha önce de belirtti§imiz gibi tü-
mevar�m ve tümdengelim ikilili§inde yer alan alternati�erdir. Bu iki yakla³�m�
Türkçe Artgönderim çözümü için birbirlerini destekler ve benzer tepkiler ve-
rirler. Bir yakla³�m�n di§er yakla³�ma göre belirli bir üstünlü§ünün olmad�§�
görülmü³tür. Makine ö§renmesi algoritmalar�ndan en ba³ar�l� olan� k-en yak�n
kom³u algoritmas� olmu³ken, bilgi tabanl� yöntemden Merkezleme Algoritmas�
en ba³ar�l� yöntem olmu³tur. Bu iki farkl� yakla³�m�n sonuçlar� itibariyle bi-
ribirine yak�n olmas� yukar�da özetlenen durumu destekler niteliktedir. Belki
de makine ö§renme algoritmalar� bilgi tabanl� algoritmalar�n kurallar�n� kendi
yöntemleriyle derlemden ç�karabilmi³lerdir.
108
Kaynakça
[Aone ve Bennet, 1995.] Evaluating automated and manual acquisition of anap-
hora resolution rules. In: Proceedings of ACL95, 122-129.
[Boser vd., 1992] A training algorithm for optimal margin classi�er. 5th Annual
ACM Workshop on COLT, Pittsburgh, PA. ACM Press.
[Baldwin, 1997] Cogniac: High Precision Coreference with limited knowledge
and Lingustics Resource. Operational factors in practical, robust anaphora
resolution for unrestricted texts, pages 38-45.
[Brennan vd., 1987] A centering approach to pronouns. In The 25th Annual
Meeting of the Association of Computational Linguistics. Stanford.
[Çeltek ve Oktar, 2004] Türkçe Sözlü Söylemde Artgönderim Örüntüleri Dil-
bilim Ara³t�rmalar�.2004. Bo§aziçi Üniversitesi Yay�nevi.
[Chomsky, 1981] Lectures on Government and Binding, Dordrecht Foris
[Enç, 1986] Topic Switching and pronominal subjects in Turkish Studies in
Turkish Linguistics. John Benjamin Publishing Company.
[Erguvanl�-Taylan, 1986] Pronominal versus zero representation of anaphora
in Turkish. Studies in Turkish Linguistics. John Benjamin Publishing
Company.
109
[Fox, 1987] Discourse Structure and Anaphhora: Written and Conversational
English. Cambridge. Cambridge University Press.
[Givon, 1983] Topic Continuity in Discourse: A Quantative Cross-Language
Study. John Benjamins Publishing.
[Grosz, 1995] Centering: A framework for modeling the local coherence of dis-
course. In Computational Linguistics.
[Grosz ve Sidner, 1986] Attention, intentions, and the structure of discourse.
In Computational Linguistics.
[Ho vd., 2006] Measures of Geometrical Complexity in Classi�cation Problems.
Data Complexity in Pattern Recogniton, Springer-Verlag, 3-25
[Hobbs, 1978] Resolving pronoun references. Lingua 44, 339-352.
[Holen, 2007] Automatic Anaphora Resolution for Norwegian. Anaphora:
Analysis, Algorithms, and Applications. 6th DAARC 2007 Selected Pa-
pers, Springer.
[Kennedy ve Boguraev, 1996] Anaphora for everyone: pronominal anaphora re-
solution without a parser Proceeding of EMNMLP-2, Providence, Rhode
Island, USA.
[Küçük, 2005] A Knowledge-Poor Pronoun Resolution System For Turkish.
MSc Thesis. The Graduate School Of Natural And Applied Sciences,
Middle East Technical University
[Küçük ve Turhan, 2007] A knowledge-poor pronoun resolution system for
turkish. In 6. Discourse Anaphora and Anaphor Resolution Colloquium,
DAARC 2007.
110
[Landis ve Koch, 1977] The measurement of observer agreement for categorial
data. Biometrics. Vol.33, 159-174.
[Lappin ve Leass, 1994] An algorithm for pronominal anaphora resolution. In
Computational Linguistics.
[McCarthy ve Lehnert, 1995.] Using decision trees for coreference resolution. In
IJCAI, 1050-1055.
[Mitkov, 1998] Robust pronoun resolution with limited knowledge. In
COLING-ACL.
[Mitkov, 2002] Anaphora Resolution. Pearson Education.
[Oktar ve Ya§c�o§lu, 1997] Türkçe Söylem Yap�s� ve Artgönderim. 8. Ulusla-
raras� Türkdlbilimi Konferans� Bildirileri
[Quinlan, 1993.] C4.5: Programs for Machine Learning. Morgan Kaufmann
Publishers, San Mateo, CA.
[Soon vd., 2001.] A Machine Learning Approach to Coreference Resolution of
Noun Phrases. Computational Linguistics, 27(4), 521-544.
[T�n ve Akman, 1992] Anaphora in Turkish: A Computational Framework In:
Proceedings of 6th International Turkish Linguistics Conference, Anadolu
University, Eski³ehir.
[T�n ve Akman, 1994] Situated Processing of Pronominal Anaphora In: Pro-
ceedings of Second Conference for Natural Language Processing (KON-
VENS?94), University of Vienna, Austria, 369 ? 378.
[Turan, 1996] Null Vs. Overt Subjects in Turkish Discourse: A Centering
Analysis, Ph.D. Dissetation. University pf Pennysylvania, Philadelphia.
111
[Turhan-Yöndem ve �ehito§lu, 1997] Resolution of Dropped Pronouns In the
Proceedings of the ESSLLI'97 Student Session.
[Tüfekci ve K�l�çaslan, 2005] A Computational Model for Resolving Pronomi-
nal Anaphora in Turkish Using Hobbs' Naïve Algorithm. WEC (5), 13-17.
[Tüfekci ve K�l�çaslan, 2007] Syntax-based pronoun resolution system for
turkish. In 6. Discourse Anaphora and Anaphor Resolution Colloquium,
DAARC 2007.
[Vapnik ve Lerner, 1963] Patter Recognition using Generalized Portrait Met-
hod. Automation and Remote Control. 24:6
[Y�ld�r�m ve K�l�çaslan, 2005] A computational model for anaphora resolution
in turkish via centering theory. In IJCI2005.
[Y�ld�r�m ve K�l�çaslan, 2007] A machine learning approach to personal pro-
noun resolution in turkish. In FLAIRS20. AAAI.
[Yüksel ve Boz³ahin, 2002] Contextually Appropriate Reference Generation
Natural Language Engineering 8 (1). Cambridge University Press. 69-89
112