Odredivanje neodredenosti hadronske strukture metodama ... · 2 Neuronske mreˇze Umjetne neuronske...

Odredivanje neodredenosti hadronske strukture metodama strojnog ucenja

Ivan Coric20. sijecnja 2019.

SazetakU ovom seminaru proucava se mogucnost ekstrakcijeComptonskih form faktora (CFF) iz umjetnih (engl.mock) podataka, kako bismo dobili uvid u kvalitetu istogpostupka na realnim, eksperimentalnim podacima. Kakone bismo unijeli pristranost pri izboru modela, za mo-del CFF funkcija biramo neuronske mreze. Svaki CFFopisujemo neuronskom mrezom te ih ucimo na umjet-nim podacima. Relativno uspjesno uspijemo ekstrahiratisamo CFF funkciju koja najvise doprinosi odgovarajucojopservabli.

1 Uvod

Poznavanjem generaliziranih partonskih distibucija(GPD-ova): Hq, Eq, Hq, Eq, Hq

T , HqT , Eq

T , EqT dobiva

se detaljna slika raspodjele kvarkova i gluona u nukleonukao sto je opisano u [1]. To je dugorocni cilj istrazivanjai jedan od razloga konstrukcije novog EIC sudarivaca.GPD-ovi su povezani s Comptonskim form faktorima(CFF-ovima): H, E , H, E , HT, ET, HT, ET, tzv.faktorizacijskim formulama kao u [2]:

F(η , t) = ∑q

e2q

∫ 1

−1dx

×[

1η− x− iε

− 1η + x− iε

]Fq(x,η , t),

(1)

F(η , t) = ∑q

e2q

∫ 1

−1dx

×[

1η− x− iε

+1

η + x− iε

]Fq(x,η , t),

(2)

gdje je F = H, E , . . . , a Fq = Hq, Eq, . . . CFF-ovisu kompleksne funkcije koje su nesto jednostavnije odGPD-ova jer ovise samo o dvije varijable: bezdimenzi-onalnoj velicini η koju mozemo povezati s Bjorkenovimx-om te Mandelstamovoj t varijabli.

Slika 1: Leptoprodukcija realnog fotona kao kohe-rentna superpozicija DVCS i Bethe-Heitler amplituda.Posudeno iz [2].

Glavni eksperiment za odredivanje CFF funkcija jeduboko virtualno komptonsko rasprsenje (DVCS). Utom eksperimentu ulazni foton je virtualan i dobiva sezracenjem leptona, dakle glavni proces je ep→ epγ (tzv.leptoprodukcija fotona). Toj leptoprodukciji doprinosii druga amplituda, tzv. Bethe-Heitler rasprsenje kojemozemo vidjeti na slici 1. U eksperimentu se mjeriudarni presjek za ep→ epγ i on je dan kao dosta kom-plicirana funkcija nepoznatih CFF-ova.

Kljucno pitanje je kako iz mjerenja DVCS-a odre-diti kompleksne CFF funkcije. U najnizem redu dopri-nose cetiri kompleksne CFF funkcije, H, E , H, E . Uovom seminaru smo se koncentrirali na situaciju u ko-joj imamo rasprsenje polariziranog elektrona na nepo-lariziranom protonu, za sto ima dosta mjerenja koja seobicno onda izrazavaju kao ”nepolarizirani” udarni pre-sjek σ (tj. zbroj spin-up i spin-down snopa, engl. beamspin sum - BSS) te ”polarizirani” udarni presjek ∆σ (nji-hova razlika, engl. beam spin difference - BSD) te kaonjihov omjer σBSA = ∆σ/σ (engl. beam spin asymme-try - BSA). Mi u ovom seminaru zelimo saznati kolikodobro mozemo ekstrahirati CFF funkcije na temelju iz-mjerenih podataka. Kako ne bismo unijeli pristranost uodabir modela CFF opisujemo neuronskim mrezama.

2 Neuronske mreze

Umjetne neuronske mreze motivirane su bioloskim ne-uronskim mrezama te njihovom sposobnoscu da nauceuspjesno obavljati kompleksne zadatke.

Slika 2: Usporedba bioloskog te umjetnog neurona.Slika je posudena s [3].

Na slici 2 su prikazani bioloski te umjetni neuron. Bi-oloski neuron koristi dendrite da prihvati ulazne signale,ulazni signali prolaze kroz tijelo neurona te izlaze krozakson. Na slican nacin umjetni neuron obraduje podatke.Pretpostavimo da je ulazni podatak n-dimenzionalan.Komponente jednog ulaznog podatka oznacavamo sx1, x2, ..., xn. Svaka komponenta biva pomnozena s od-govarajucom tezinom te se tako transformirani ulazni po-daci sumiraju te im se jos pribroji pristranost (engl. bias)kao:

uk =n

∑j=1

wk jx j +bk, (3)

gdje je bk jos jedan parametar kojeg nazivamo pris-tranoscu (engl. bias), a k odgovara indeksu neurona.Takva suma se propusta kroz nelinearnu funkciju f kao

fk = f (uk). (4)

Funkcija f mora biti nelinearna kako bi se mogle mo-delirati i nelinearne funkcije (jer je linearna kombinacijalinearnih kombinacija opet linearna funkcija pa bi mrezamogla opisivati samo linearne funkcije). Za f se izmeduostalih najcesce uzimaju tangens hiperbolni, sigmoidalnafunkcija, ReLU itd. Te funkcije mozemo vidjeti na slici3.

Slika 3: Prikaz tangensa hiperbolnog, ReLU te sigmo-idalne funkcije. Slika posudena s [4].

Slika 4: Prikaz neuronske mreze. Slika posudena s [5].

Neurone nadalje slazemo u slojeve kao sto je prika-zano na slici 4. Podaci se predaju svakom neuronu uprvom sloju. Izlazi neurona prvog sloja predaju se naulaz neurona u drugom sloju itd. Brojevi neurona u sva-kom sloju mogu biti proizvoljni. Ovisno o zadatku kojise rjesava (regresija, klasifikacija slika, semanticka seg-mentacija, detekcija objekata, obrada prirodnog jezika(engl. natural language processing), ...) arhitektura ne-uronske moze biti znacajno razlicita pa tako imamo ko-nvolucijske neuronske mreze, mreze s povratnom vezom(engl. recurrent), ...

Neuronska mreza predstavlja model koji kao parame-tre ima tezine i bias-e za svaki neuron. Kako bi model sasto vecom tocnoscu obavljao zadatak koji bismo htjeli,moramo nauciti parametre neuronske mreze. Ucenje seodvija odvija algoritmom propagacije unazad (engl. bac-kpropagation) ciju ideju cemo ukratko opisati.

Nakon sto ulazni podaci produ kroz neuronsku mrezu

2

dobivamo izlaz iz mreze. Prepostavimo da su nam poz-nati podaci tj. dio znanja koje zelimo nauciti nasu ne-uronsku mrezu tj. imamo ulazne i izlazne podatke (takavtip ucenja nazivamo nadzirano ucenje). Za svaki poda-tak tada mozemo usporediti dobiveni izlaz iz mreze sodgovarajucim izlaznim podatkom. Tada mozemo de-finirati funkciju gubitka (engl. loss function) koja namgovori koliko mreza lose odredila izlazne podatake (npr.mozemo je definirati kao sumu kvadratnih odstupanja).Cilj je minimizirati tu funkciju (tj. smanjiti gresku).To radimo tako da deriviramo funkciju po svakom pa-rametru, dobijemo gradijente za svaki parametar, te ihpromijenimo za taj gradijent pomnozen s nekom malomkonstantom (odredeno hiperparametrom, tzv. stupnjemucenja (engl. learning rate)). Moze se pokazati da se di-jelovi racuna gradijenata koji se dobiju u slojevima blizeizlazu mogu upotrijebiti za racunanje gradijenata u nizimslojevima pa se ta operacija moze izracunati efikasnije.To je ideja algoritma propagacije unatrag (tj. gradijentise propagiraju iz visih slojeva u nize).

Slika 6: Prikaz mock podataka.

3 Rezultati

Kako bismo provjerili koliko dobro mozemo koristitineuronske mreze na stvarnim podacima, odlucili smoprovesti eksperimente na umjetnim (tzv. mock) poda-cima. Uzeli smo kao primjer popularni Goloskokov-Kroll (GK) model za modeliranje CFF funkcija. Ondasmo koristeci GK model generirali podatke za razlicitevrijednosti Mandelstamove t varijable, u te podatke smounijeli sum i pokusali na tim sumovitim podacima stobolje ekstrahirati CFF funkcije u GK modelu. Zada-tak nam je bio probati dobiti sto bolje rezultate za eks-trakciju CFF funkcija u jednoj dimenziji (fiksni η) te udvije dimenzije. Na slici 5 prikazani su CFF-ovi za GK

model te je na slici 6 prikaz umjetnih (mock) podataka.Za pocetak radimo eksperimente samo na jednodimen-zionalnom skupu za fiksan Bjorkenov x, xB = 0.13, stofiksira varijablu η , a razlicite vrijednosti Mandelstamovet varijable.

Slika 7: Prikaz naucenog σBSA gjde je plava krivulja σBSAu GK modelu dok je zelena naucena krivulja.

Nad umjetnim podacima nadalje radimo uobicajenu,slucajnu podjelu u skup za treniranje i validaciju uomjeru 2 : 1. Tada ucimo model na skupu za treniranje tena skupu za validaciju testiramo kako radi na podacimakoje jos nije vidio tj. koliko dobro generalizira. Kao naj-bolje rjesenje uzimamo model koji postize najmanju po-gresku na validacijskom skupu. Kao pogresku smo uzeliuobicajenu pogresku kvadratnog odstupanja.

Slika 8: Prikaz naucenog ImH gjde je plava krivuljaImH u GK modelu dok je zelena naucena krivulja.

3

Slika 5: Prikaz comptonskih form faktora u GK modelu za fiksni η .

4

Svaki od CFF-ova opisujemo zasebnom neuronskommrezom te treniramo mrezu na mnogo razlicitih nacina.Kada bismo sve CFF funkcije trenirali istovremeno, mo-del ne bi naucio niti jedan CFF vec bi uspio postici dobroopisivanje σBSA (dano na slici 7) drugacijom kombinaci-jom CFF funkcija kao sto je prikazano na slici 9.

To nas je potaknulo da prvo pokusamo nauciti najvecidoprinos σBSA sto cini imaginarnio dio CFF H funk-cije, dok sve ostale CFF funkcije drzimo zamrznutim.Taj pristup se pokazao dobar te smo relativno uspjesnonaucili imaginarnio dio H funkcije kao sto je prikazanona slici 8.

Nadalje spremili smo tezine za tako nauceni imagi-narnio dio H funkcije. U sljedecim treninzima smopokusavali nauciti sljedeci ili sljedeca dva doprinosaσBSA. Pokrenuli smo stotine eksperimenata s mnostvomrazlicitih hiperparametara. Pokusavali smo mijenjati du-binu mreze za sljedeca dva doprinosa, no to nije dovelodo ucenja istih. Kako je σBSA vec relativno uspjesnonaucena, s naucenim glavnim doprinosom (ImH) gradi-jenti koji se propagiraju unatrag do mreza sljedecih do-prinosa su maleni. Uz to, sljedeca dva doprinosa su zared do dva velicine (kao u [6]) manja od glavnog (ImH)doprinosa te gradijenti bivaju jos vise umanjeni. Ondasmo pokusali provoditi eksperimente s razlicitim lear-ning rate-ovima koji bi se kretali izmedu nekoliko redovavelicine (npr. od 10−2 do 108 ) za svakog od sljedecadva doprinosa nakon ImH (tj. radili smo pretragu poresetci za learning rate hiperparametar (engl. grid se-arch)), no niti to nije pomoglo, jedino sto smo uspjelinauciti je pristranost za imaginarni dio E CFF funkcijekao sto mozemo vidjeti na slici 10.

Nakon tih eksperimenata pokusavali smo poceti treni-rati druga dva doprinosa, ali ovaj put prije nego se ImHpotpuno naucio kako bi gradijenti bili veci za preostalefunkcije, no niti tako nismo uspjeli nauciti sljedeca dvadoprinosa.

Nakon treniranja modela u jednoj dimenziji odlucilismo pokusati vidjeti kako model funkcionira u dvije di-menzije tj. za proizvoljne η (odnosno Bjorkenov x) teMandelstamovu varijablu t. Provodili smo iste tipoveeksperimenata koji ovoga puta trajali znatno duze zbogtoga sto ima mnogo vise podataka. Nakon prvog tipatreninga uspjeli smo dobiti relativno dobar ImH kao stomozemo vidjeti na slici 11, pripadni σBSA je dan na slici12.

Slika 11: Prikaz naucene ImH funkcije (zelena ploha) teodgovarajuce funkcije u GK modelu (plava ploha).

Slika 12: Prikaz naucene σBSA te odgovarajuce funkcijeu GK modelu.

Nakon treniranja samo ImH, kao i u jednodimenzi-onalnom slucaju pocinjemo trenirati i ostale CFF funk-cije, no ovdje smo odlucili od samog pocetka zanemaritisve doprinose osim ImH i ImE , koji nakon ImH najvisedoprinose (vidi [6]), kako brzina izvodenja ne bi bila pre-mala. Dobiveni rezultati dani su na slikama 13 i 14.

5

Slika 9: Prikaz naucenih comptonskih form faktora gdje su plavom bojom oznacene CFF funkcije u GK modelu, azelenom bojom naucene CFF funkcije.

6


7

Slika 13: Prikaz naucene σBSA te odgovarajuce funkcijeu GK modelu.

4 Zakljucak

U ovom seminaru proucavali smo koliko dobro mozemoekstrahirati CFF funkcije pomocu neuronskih mreza izumjetnih podataka, tako da bolje razumijemo nesigur-nost tog postupka kada ga radimo na realnim ekspe-rimentalnim podacima. Iscrpnim eksperimentiranjem,za jednodimenzionalne (fiksni η), kao i za dvodimenzi-onalne podatke uspjeli smo relativno dobro ekstrahiratisamo CFF funkciju koja najvise doprinosi σBSA.

Literatura

[1] A. Accardi, J. L. Albacete, M. Anselmino, N. Ar-mesto, E. C. Aschenauer, A. Bacchetta, D. Boer,W. K. Brooks, T. Burton, N. B. Chang, W. T. Deng,A. Deshpande, M. Diehl, A. Dumitru, R. Dupre,R. Ent, S. Fazio, H. Gao, V. Guzey, H. Hakobyan,Y. Hao, D. Hasch, R. Holt, T. Horn, M. Huang,A. Hutton, C. Hyde, J. Jalilian-Marian, S. Klein,B. Kopeliovich, Y. Kovchegov, K. Kumar, K. Ku-mericki, M. A. C. Lamont, T. Lappi, J. H. Lee,Y. Lee, E. M. Levin, F. L. Lin, V. Litvinenko, T. W.Ludlam, C. Marquet, Z. E. Meziani, R. McKeown,A. Metz, R. Milner, V. S. Morozov, A. H. Mueller,B. Muller, D. Muller, P. Nadel- Turonski, H. Pauk-kunen, A. Prokudin, V. Ptitsyn, X. Qian, J. W. Qiu,M. Ramsey- Musolf, T. Roser, F. Sabatie, R. Sassot,G. Schnell, P. Schweitzer, E. Sichtermann, M. Strat-mann, M. Strikman, M. Sullivan, S. Taneja, T. Toll,

D. Trbojevic, T. Ullrich, R. Venugopalan, S. Vigdor,W. Vogelsang, C. Weiss, B. W. Xiao, F. Yuan, Y. H.Zhang, and L. Zheng. Electron Ion Collider: TheNext QCD Frontier - Understanding the glue thatbinds us all. arXiv e-prints, page arXiv:1212.1701,December 2012.

[2] Kresimir Kumericki, Simonetta Liuti, and HerveMoutarde. GPD phenomenology and DVCS fitting.Entering the high-precision era. European PhysicalJournal A, 52:157, June 2016.

[3] Nagyfi Richard. The differences betweenartificial and biological neural networks.https://towardsdatascience.com/the-differences-between-artificial-and-

biological-neural-networks-a8b46db828b7,2018. [Online; accessed 18-January-2019].

[4] Activation functions. https://www.julyedu.com/question/big/kp id/26/ques id/1044.[Online; accessed 18-January-2019].

[5] Peter Kottas. https://www.quora.com/How-does-deep-learning-work-and-how-is-it-

different-from-normal-neural-networks-

applied-with-SVM-How-does-one-go-about-

starting-to-understand-them-papers-

blogs-articles. [Online; accessed 18-January-2019].

[6] P. Kroll, H. Moutarde, and F. Sabatie. From hardexclusive meson electroproduction to deeply virtualCompton scattering. European Physical Journal C,73:2278, January 2013.

8


9

Odredivanje neodredenosti hadronske strukture metodama ... · 2 Neuronske mreˇze Umjetne neuronske...

Documents

Transcript of Odredivanje neodredenosti hadronske strukture metodama ... · 2 Neuronske mreˇze Umjetne neuronske...