Esercitazione sulla ricerca del bosone di Higgs a...

13
Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo 2008 Giacomo Sguazzoni Introduzione. L’esercizio proposto si basa su un semplice toy Monte Carlo in grado di generare il segnale HZ e il fondo principale ZZ q qq q, cio` e quanto di fatto sopravvive alla preselezione per l’eliminazione degli eventi a 2-fermioni trascurando inoltre il fondo WW e b bgg (vd. l’appendice C delle dispense). Nell’ambito di questo esercizio si assume che la frazione di decadimendo dell’Higgs sia al 100% in b b (questo ` e vero a meno di qualche percento). Lo scopo dell’esercizio ` e disegnare una selezione per la ricerca di HZ per discutere sia aspetti di fisica che di statistica. Se non diversamente specificato, per la traccia di esercizio qui suggerita si assume di voler cercare il segnale HZ in quattro jet di un Higgs di 100 GeV di massa a s = 200 GeV e con una luminosit` a integrata di 200 pb -1 . Si incoraggia la ripetizione dell’esercizio per una diversa scelta di questi parametri. Preparazione dell’area di lavoro. Il pacchetto completo pu` o essere scaricato all’indirizzo http://hep.fi.infn.it/ciulli. Una volta scompattato con il comando Per conoscere il significato delle opzioni del comando tar digitare man tar seguito da invio. >tar -zxvf eeHZ_CdT.tgz compare una cartella eeHZ che a sua volta contiene due cartelle: toymc e evtanl. La prima contiene i sorgenti del programma Monte Carlo, la seconda ` e l’area di lavoro per l’esercizio di analisi e contiene anche gli strumenti software. toymc, descrizione e uso. Il programma toymc fornito nel pacchetto www.pp.rhul.ac.uk/cowan/stat/tut03. Per le sezioni d’urto differenziali toymc si basa su: Mikaelian et al., Phys. Rev. D19 (1979) 922 (ZZ), Barger et al., Phys. Rev. D49 (1994) 79 (HZ). ` e una versione pressoch` e analoga a quella reperibile in rete sviluppata da G. Cowan, salvo qualche aggiornamento in alcun aspetti. Il programma produce un file di root che contiene “eventi” a quattro jet HZ o ZZ: in particolare ogni “evento” ` e costituito dal quadrimpulso e il btagging di ciascun jet. A queste quantit` a` e stato applicato uno smearing opportuno per Lo smearing ` e l’alterazione casuale del valore “vero” sulla base di una certa risoluzione sperimentale; normalmente consiste nel fare la convoluzione della distribuzione orginale con una gaussiana. tener conto della risoluzione sperimentale. Il programma contenuto in toymc deve essere prima compilato con make: >cd toymc >make g++ -I/usr/include/root -Wall -Werror -c -o toymc.o toymc.cc ... g++ -o toymc -I/usr/include/root toymc.o ThreeVector.o FourVector.o GenEvent.o generate_HZ.o generate_ZZ.o SimEvent.o simulate_det.o GaussRan.o CauchyRan.o random.o -L/usr/lib/root -lCore -lCint -lRIO -lNet -lHist -lGraf -lGraf3d -lGpad -lTree -lRint -lPostscript -lMatrix -lPhysics -lz -pthread -lm -ldl -rdynamic Il comando make clean elimina l’eseguibile e tutti i file .o. Il comportamento del programma make ` e definito dal file Makefile presente nella stessa cartella toymc; man make per i dettagli. L’utilizzo di toymc ` e molto semplice. ` E possibile eseguirlo e inserire le quantit` a richieste: >./toymc Enter histogram file name 1

Transcript of Esercitazione sulla ricerca del bosone di Higgs a...

Page 1: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

Esercitazione sulla ricerca del bosone di Higgs a LEPMarzo 2008Giacomo Sguazzoni

Introduzione. L’esercizio proposto si basa su un semplice toy Monte Carloin grado di generare il segnale HZ e il fondo principale ZZ → qqqq, cioequanto di fatto sopravvive alla preselezione per l’eliminazione degli eventia 2-fermioni trascurando inoltre il fondo WW e bbgg (vd. l’appendice Cdelle dispense). Nell’ambito di questo esercizio si assume che la frazione didecadimendo dell’Higgs sia al 100% in bb (questo e vero a meno di qualchepercento). Lo scopo dell’esercizio e disegnare una selezione per la ricerca diHZ per discutere sia aspetti di fisica che di statistica. Se non diversamentespecificato, per la traccia di esercizio qui suggerita si assume di voler cercareil segnale HZ in quattro jet di un Higgs di 100GeV di massa a

√s = 200GeV

e con una luminosita integrata di 200 pb−1. Si incoraggia la ripetizionedell’esercizio per una diversa scelta di questi parametri.

Preparazione dell’area di lavoro. Il pacchetto completo puoessere scaricato all’indirizzo http://hep.fi.infn.it/ciulli. Una voltascompattato con il comando Per conoscere il significato delle

opzioni del comando tar digitareman tar seguito da invio.>tar -zxvf eeHZ_CdT.tgz

compare una cartella eeHZ che a sua volta contiene due cartelle: toymce evtanl. La prima contiene i sorgenti del programma Monte Carlo, laseconda e l’area di lavoro per l’esercizio di analisi e contiene anche glistrumenti software.

toymc, descrizione e uso. Il programma toymc fornito nel pacchetto www.pp.rhul.ac.uk/∼cowan/stat/tut03.Per le sezioni d’urto differenzialitoymc si basa su: Mikaelian etal., Phys. Rev. D19 (1979) 922(ZZ), Barger et al., Phys. Rev.D49 (1994) 79 (HZ).

e una versione pressoche analoga a quella reperibile in rete sviluppata daG. Cowan, salvo qualche aggiornamento in alcun aspetti. Il programmaproduce un file di root che contiene “eventi” a quattro jet HZ o ZZ: inparticolare ogni “evento” e costituito dal quadrimpulso e il btagging diciascun jet. A queste quantita e stato applicato uno smearing opportuno per Lo smearing e l’alterazione

casuale del valore “vero” sullabase di una certa risoluzionesperimentale; normalmenteconsiste nel fare la convoluzionedella distribuzione orginale conuna gaussiana.

tener conto della risoluzione sperimentale.Il programma contenuto in toymc deve essere prima compilato con make:

>cd toymc>makeg++ -I/usr/include/root -Wall -Werror -c -o toymc.o toymc.cc...g++ -o toymc -I/usr/include/root toymc.o ThreeVector.o FourVector.oGenEvent.o generate_HZ.o generate_ZZ.o SimEvent.o simulate_det.oGaussRan.o CauchyRan.o random.o -L/usr/lib/root -lCore -lCint -lRIO-lNet -lHist -lGraf -lGraf3d -lGpad -lTree -lRint -lPostscript-lMatrix -lPhysics -lz -pthread -lm -ldl -rdynamic

Il comando make clean elimina l’eseguibile e tutti i file .o. Il comportamento delprogramma make e definito dalfile Makefile presente nellastessa cartella toymc; man make

per i dettagli.

L’utilizzo di toymc e molto semplice. E possibile eseguirlo e inserire lequantita richieste:

>./toymcEnter histogram file name

1

Page 2: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

hz.rootEnter number of events20000Enter Ecm200e+e- -> HZ ..............1e+e- -> ZZ ..............2Enter event type1Enter Higgs mass100

In alternativa, piu comodamente, si possono fornire i parametri come opzionisu linea di comando, come suggerito dal breve help ottenibile digitando./toymc -h:

>./toymc -hUsage: toymc -p [hz|zz] -E # -N # -m # -f filename -s # -h-p process type hz or hh-E Ecm in GeV-N number of events-m Higgs mass in GeV (only applicable if -p hz)-s seed-h print this helpExiting.

L’opzione -s e importante perche permette di scegliere il seed dellagenerazione Monte Carlo e quindi di generare campioni totalmente scorrelati.Se non specificata il valore di default utilizzato e 12345. Il seguente comandoproduce lo stesso risultato dell’esempio sopra:

> ./toymc -E 200 -p hz -m 100 -f hz.root -N 20000Ecm energy set to: 200Process set to: hzHiggs mass set to: 100Filename set to: hz.rootNumber of event set to: 20000

L’ordine delle opzioni e irrilevante. Il file root prodotto ha una strutturamolto semplice che puo essere esaminata tramite Root. Lanciamo Root conil file stesso come argomento:

> root hz.root...root [0]Attaching file hz.root as _file0...

Il comando .ls dato al prompt di Root stampa la lista di cio che epresente in memoria:

root [1] .lsTFile** hz.root HZ/ZZ toymc root fileTFile* hz.root HZ/ZZ toymc root fileKEY: TTree h1;1 ToyMC root tree

da cui si vede che il file hz.root contiene un TTree h1. Il contenuto delTTree puo essere a sua volta esaminato con il comando

root [2] h1.Print()

che produce un header da cui si ricavano il numero di entries e altreinformazioni

2

Page 3: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

*******************************************************************************Tree :h1 : ToyMC root tree **Entries : 20000 : Total = 1615373 bytes File Size = 1472053 ** : : Tree compression factor = 1.09 *******************************************************************************

e una sezione del tipo

*Br 0 :px1 : px1/F **Entries : 20000 : Total Size= 80754 bytes File Size = 59448 **Baskets : 2 : Basket Size= 32000 bytes Compression= 1.08 **............................................................................*

per ciascuna variabile contenuta nel nostro TTree. Nell’esempio px1 e ilnome della variabile e /F indica che e di tipo float. Le variabili che, eventoper evento, sono nel nostro file di montecarlo sono:

- px<#jet>, componente x dell’impulso del jet <#jet>;- py<#jet>, componente y dell’impulso del jet <#jet>;- pz<#jet>, componente z dell’impulso del jet <#jet>;- E<#jet>, energia del jet <#jet>;- btag<#jet>, probabilita di combatibilita con il vertice primario del jet

<#jet>;con <#jet> = 1, 2, 3, 4.

Per la generazione dei file che servono per il seguito dell’esercizio, nellacartella toymc e disponibile una semplice script, makeAll.sh che produce ifile di fondo e di segnale per varie masse (mH = 70, 75, 80, 85, 90, 95, 100 e105 GeV) e li sposta poi nella cartella evtanl dove serviranno a breve: Nel caso la script non fosse

eseguibile:>chmod +x makeAll.sh>./makeAll.sh

Ecm energy set to: 200Number of event set to: 300000Filename set to: zz_big.rootSeed value set to: 11111...

I file con nome * big* sono campioni da 300k eventi ciascuno e servirannonel seguito per la costruzione delle statistiche di test, operazione che richiedeuna statistica consistente. I file con nome * 100x200invpb.root sono invececampioni piu piccoli che serviranno per la stima dei fondi e delle efficienze eper fare plot delle variabili di interesse. Per ciascuno di questi il numero dieventi e pari a 100 · LBRσ con L = 200 pb−1, ovvero cento volte il numero di Si assume che BR(H → bb)=1

e BR(ZZ → qqqq)=0.49.eventi atteso. Questo permette di rappresentare nei plot l’esatta proporzionetra le distribuzioni di segnale e fondo.

La classe di analisi myEvtAnl.C. Una volta prodotti i file tutto cio cheserve per l’analisi e nella cartella evtanl:

>cd ../evtanl

Lo strumento base e la classe di analisi myEvtAnl basata su Root definita In generale, per avereinformazioni dettagliate su Roote le sue classi:root.cern.ch/root/Reference.html;digitare il nome della classe odel metodo nel campo diricerca.

dai file myEvtAnl.C e myEvtAnl.h. In Root e molto facile scrivere una classeper l’analisi di dati organizzati in un TTree, come nel nostro caso. Apriamocon Root uno qualsiasi dei file prima generati con toymc:

>root hz_100_100x200invpb.root...root [0]Attaching file hz_100_100x200invpb.root as _file0...

3

Page 4: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

e quindi utilizzando il metodo TTree::MakeClass; per esempio:root [1] h1.MakeClass("prova")Info in <TTreePlayer::MakeClass>: Files: prova.h and prova.C generated from TTree: h1(Int_t)(0)

genera il .C e .h dello scheletro di una classe di analisi prova. myEvtAnl estata creata tramite TTree::MakeClass.

Alcuni dei metodi implementati nella classe di analisi che useremo nelcorso dell’esercizio sono:

myEvtAnl::myEvtAnl(const char* filename="") : ll costruttore richiedecome argomento un file prodotto da toymc; tutte le variabili del treevengono rese accessibili associando ad esse altrettanti membri pubblicidella classe; inoltre il tree viene esteso per accogliere le variabiliricostruite e le statistiche di test per varie masse descritte sotto;

void myEvtAnl::Loop() : viene chiamato quando la classe viene istanziatae un loop su tutti gli eventi permette di calcolare le variabili ricostruiteche poi utilizzeremo per l’analisi (mhrec, mzrec, btagh);

void myEvtAnl::FillTSForMass(TString massStr) : serve per riempirele variabili del TTree appositamente allocate per le test statistic nellevarie ipotesi di massa;

TTree *myEvtAnl::GetTree() : consente di accedere il TTree.

Altre utilita presenti in myEvtAnl. Oltre ai metodi della classemyEvtAnl, il codice contiene un certo numero di funzioni utili nel seguito:

void buildTSForMass(TString massStr) : costruisce la statistica di testper una massa data, poi salvata in un apposito file root per essereriutilizzata da myEvtAnl::FillTSForMass(TString massStr);

double Confidence level(int n obs, double n sig, double n bkg) :restituisce il confidence level nell’ipotesi segnale s = n sig piu fondob = n bkg in caso di n = n obs eventi osservati, in base alla formula:

1− C.L. =∑n

i=0 e−(s+b) (s+b)i

i!∑nj=0 e−b bj

j!

; (1)

double Limit(int n obs, double n bkg, double error=0.00001) :restituisce il limite su s al 95% C.L. per un numero di eventi osservatin = n obs e in presenza di un fondo atteso b = n bkg, s95(n, b); unasemplice procedura iterativa adatta il valore di s finche il confidencelevel calcolato con la function di cui al punto precedente non risultauguale a 0.95 entro l’errore error;

double ExpLimit(double n bkg, double error=0.001) : restituisce illimite aspettato sul segnale al 95% C.L., s95, nell’ipotesi di assenzadi segnale e cioe nell’ipotesi che gli eventi osservati siano dovutiesclusivamente al fondo atteso b:

s95 =∞∑

n=0

e−b bi

n!· s95(n, b); (2)

4

Page 5: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

float sigma hz(float Ecm, float mh, float mz=91.2) : restituisce la Barger et al., Phys. Rev. D49(1994) 79.sezione d’urto del processo e+e− → HZ per un Higgs di massa mH = mh

a√

s = Ecm;

float sigma zz(float Ecm, float mz=91.2) : restituisce la sezione Bardin et al., Nucl. Phys. B(Proc. Suppl) 37B (1994) 148.d’urto del processo e+e− → ZZ a

√s = Ecm.

Compilazione di myEvtAnl. La classe di analisi e tutte le funzioni definite E possibile utilizzare anche ilcomando .L myEvtAnl.C; inquesto caso la classe e caricatae utilizzata in modointerpretato, ma l’opzione con++ e preferibile perchel’esecuzione e molto piu velocee la compilazione aiuta aprogrammare in modo corretto.

in myEvtAnl.C vengono compilate dentro Root:

root [1] .L myEvtAnl.C++Info in <TUnixSystem::ACLiC>:creating shared library [...]/evtanl/./myEvtAnl_C.so

In una successiva sessione di Root non e necessario ricompilare se nonsono state fatte modifiche; la libreria presente nella cartella evtanl puoessere caricata con il seguente comando:

root [1] gSystem->Load("myEvtAnl_C.so")

A titolo di esempio la macro SigmaHZ.C, da eseguire dentro Root con ilcomando .x:

root [9] .x SigmaHZ.CGo!...Info in <TCanvas::Print>: pdf file SigmaHZ.pdf has been created

produce un plot SigmaHZ.pdf della sezione d’urto HZ in funzione di mH pervari valori di

√s utilizzando l’omonima function presente nella libreria.

Higgs mass [GeV]0 20 40 60 80 100 120 140

Sig

ma

[pb

]

0

0.2

0.4

0.6

0.8

1

1.2

1.4 Ecm = 190 GeV

Ecm = 200 GeV

Ecm = 210 GeV

Le variabili ricostruite. Le variabili ricostruite che utilizziamonell’analisi e calcolate quando la classe myEvtAnl viene istanziata sibasano sull’individuazione tra i quattro jet dell’evento della coppia che piuverosimilmente e stata originata dall’Higgs. Il criterio utilizzato e moltosemplice: tra tutte le coppie possibili si associa al decadimento della Z lacoppia con la massa invariante piu vicina alla massa della Z, 91.2 GeV. Lamassa invariante di questa coppia di jet e quindi la massa ricostruita dellaZ, mrec

Z . La coppia dei jet rimanenti e la coppia candidata “Higgs” e lasua massa invariante mrec

H e la massa ricostruita dell’Higgs. Per la coppiadi “Higgs” jet viene calcolata anche la probabilita di btagging PH. Questae ottenuta applicando la legge di combinazione della probabilita di traccia

5

Page 6: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

ai due jet candidati da Higgs. Infatti il jet si comporta come una tracciasingola dal punto di vista del btagging, una volta che la probabilita del jet ea sua volta il risultato di una combinazione della probabilita delle tracce chelo compongono (in questo risiede la potenza del metodo di combinazione!).La formula e

P(T1,...,TN ) = ΠN−1∑k=0

(− lnΠ)k

k!, Π ≡

N∏n=1

PTn , (3)

che diventa molto semplice nel nostro caso

PH = P(jetH1 ,jetH2 ) = PjetH1PjetH2

·(1− lnPjetH1

PjetH2

). (4)

Algoritmicamente myEvtAnl si appoggia sulle seguenti classi accessorie:

Jet : serve per organizzare in un singolo oggetto tutte le informazionirelative ad un jet, ovvero il quadrimpulso e il btagging; per ilquadrimpulso si utilizza la classe di Root TLorentzVector;

pairedJets : richiede un vettore di quattro elementi di classe Jet nelcostruttore e restituisce mrec

Z , mrecH e PH rispettivamente tramite

i metodi pairedJets::GetMZRec(), pairedJets::GetMZRec() epairedJets::GetBTagH().

Qualche distribuzione. Le variabili ricostruite, come pure tutte le altrevariabili presenti nel TTree, possono essere rappresentate sotto forma diistogrammi o scatter plot tramite Root. Per creare il nostro ambiente dilavoro, nella cartella evtanl c’e la macro Init.C da lanciare per ogni sessionedi Root una volta prodotti i file con toymc tramite la script makeAll.sh.Come si capisce facilmente dal sorgente, tramite la macro tutti i file diinteresse vengono “caricati” in altrettante repliche di myEvtAnl chiamate zzper il fondo e hz<mass> per i segnali alle varie masse. Quindi: La prima volta che si usa

Init.C la sua esecuzionerichiede qualche tempo perchevengono prodotte tutte le teststatistic (vd. sotto).

> root...root [0] .x Init.CNow loading: zz_100x200invpb.rootAnalysing event #12425Now loading: hz_70_100x200invpb.root

...

Fare dei plot sulle varie variabili e molto semplice con comandi del tipo:

root [1] zz.GetTree()->Draw("px1")root [2] hz100.GetTree()->Draw("mhrec")root [3] hz80.GetTree()->Draw("btagh:mhrec","mhrec<90","lego")

Per il significato delle varie opzioni si rimanda alla documentazione di Root. http://root.cern.ch

Per facilitare il confronto tra le distribuzioni di segnale e quelle del fondo,nella cartella evtanl sono presenti due apposite macro, Plot.C e Plot2D.C,rispettivamente per le distribuzioni mono- e bi-dimensionali:

void Plot(myEvtAnl* hz, myEvtAnl* zz, TString var, TString cut,Int t nbin, Float t min, Float t max): oltre ai due puntatorialla classi myEvtAnl per il segnale e per il fondo occorre passare alla

6

Page 7: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

macro la stringa var con la variabile e eventualmente la stringa cutcon il taglio; i tre rimanenti argomenti sono, rispettivamente, numerodi bin ed estremi dell’istogramma;

void Plot2D(myEvtAnl* hz, myEvtAnl* zz, TString var, TString cut,nt t nbinx, Float t minx, Float t maxx, Int t nbiny, Float tminy, Float t maxy) analoga alla precedente, salvo che numero dibin ed estremi sono da definirsi per entrambi gli assi.

Entrambe le macro producono un file pdf, Plot.pdf e Plot2D.pdfrispettivamente, che puo essere rinominato o spostato per successiveconsultazioni.

Per esempio, i plot per le tre variabili principali, relativi a un Higgs di100 GeV, mostrati in queste pagine si ottengono con i seguenti comandi:

root [10] .x Plot.C(&hz100, &zz, "mzrec", "", 100, 40., 140.)root [11] .x Plot.C(&hz100, &zz, "mhrec", "", 160, 0., 160.)root [12] .x Plot.C(&hz100, &zz, "btagh", "", 100, 0., 1.)

SumEntries 19797Mean 91.26RMS 3.61

mzrec40 50 60 70 80 90 100 110 120 130 1400

500

1000

1500

2000

2500

SumEntries 19797Mean 91.26RMS 3.61

mzrec (cut: )

ZZEntries 12426Mean 91.06RMS 3.322

ZZEntries 12426Mean 91.06RMS 3.322

HZEntries 7371Mean 91.58RMS 4.01

HZEntries 7371Mean 91.58RMS 4.01

SumEntries 19797Mean 91.26RMS 3.61

SumEntries 19797Mean 91.26RMS 3.61

SumEntries 19797Mean 88.27RMS 17.59

mhrec0 20 40 60 80 100 120 140 1600

100

200

300

400

500

600

700

800

900

SumEntries 19797Mean 88.27RMS 17.59

mhrec (cut: )

ZZEntries 12426Mean 86.06RMS 17.34

ZZEntries 12426Mean 86.06RMS 17.34

HZEntries 7371Mean 92RMS 17.37

HZEntries 7371Mean 92RMS 17.37

SumEntries 19797Mean 88.27RMS 17.59

SumEntries 19797Mean 88.27RMS 17.59

7

Page 8: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

SumEntries 19797Mean 0.2267RMS 0.2897

btagh0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

500

1000

1500

2000

2500

3000

3500

4000

4500

SumEntries 19797Mean 0.2267RMS 0.2897

btagh (cut: )

ZZEntries 12426Mean 0.3049RMS 0.3081

ZZEntries 12426Mean 0.3049RMS 0.3081

HZEntries 7371Mean 0.09409RMS 0.1946

HZEntries 7371Mean 0.09409RMS 0.1946

SumEntries 19797Mean 0.2267RMS 0.2897

SumEntries 19797Mean 0.2267RMS 0.2897

Disegno e ottimizzazione dei tagli di analisi. Dai plot precedentie evidente che le variabili efficaci per discriminare segnale da fondo sonomrec

H e PH. Infatti, la distribuzione di mrecZ e sostanzialmente uguale per il

segnale e per il fondo. Un taglio che appare ragionevole guardando i plot emrec

H > 95 GeV e PH < 0.05. Mettiamolo in pratica:

root [14] .x Plot.C(&hz100, &zz, "mhrec","mhrec>95&&btagh<0.05", 160, 0., 160.)

SumEntries 5022Mean 101.9RMS 4.937

mhrec0 20 40 60 80 100 120 140 1600

50

100

150

200

250

300

350

400

450

SumEntries 5022Mean 101.9RMS 4.937

mhrec (cut: mhrec>95&&btagh<0.05)

ZZEntries 1275Mean 99.89RMS 4.519

ZZEntries 1275Mean 99.89RMS 4.519

HZEntries 3747Mean 102.5RMS 4.888

HZEntries 3747Mean 102.5RMS 4.888

SumEntries 5022Mean 101.9RMS 4.937

SumEntries 5022Mean 101.9RMS 4.937

Dai numeri nei riquadri si ricava che questa selezione ha un’efficienza sulsegnale di Higgs a 100GeV pari a εsig = 3747/7371 ∼ 0.508 e il fondo atteso L’errore su questa efficienza e

±6 · 10−3; perche?e pari a b = 1275/100 ∼ 12.75 eventi (ricordo che il campione corrispondea 100 volte la luminosita integrata). La function ExpLimit permette diricavare che il limite medio atteso nell’ipotesi di assenza di segnale, s95, epari a ∼ 9.26:

root [22] ExpLimit(12.75)(double)9.26598087678673288e+00

Dato che n = εsigσL, questo corrisponde ad un limite medio atteso sullasezione d’urto, σ95, pari a ∼ 0.09 pb. Dato che la sezione d’urto di produzionedi un Higgs di 100 GeV di massa e ∼ 0.4 pb questa selezione e sensibile alsegnale che stiamo cercando.

In generale, una selezione per la ricerca di un segnale e tanto migliorequanto piu σ95 e piccola. La minimizzazione di questa quantita richiede il

8

Page 9: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

giusto compromesso tra il contenimento del fondo b e la massimizzazionedell’efficienza sul segnale εsig. Questo compromesso dipende dalla luminositaintegrata. All’aumentare di quest’ultima la selezione ottimale avra tagli piustretti perche, per come dipende σ95 da b e da εsig, il contenimento del fondoe piu importante dell’efficienza sul segnale.

La macro OptCUT.C effettua una rudimentale minimizzazione tramite unsemplice scan dei tagli su mrec

H e PH, variati rispettivamente tra > 88 e> 102 GeV a passi di 1GeV e tra < 0.1 e < 0.03 a passi di 0.005: Provare a modificare la macro

per ottimizzare la selezione convalori della luminositasensibilmente diversi(suggerimento: occorremodificare le variabili lumi ewbkg).

root [23] .x OptCut.C(&hz100, &zz)...mhrec>96.00&&btagh<0.055 11.13 0.486501 0.0901148 <======

...

L’ultima riga (che riporta il taglio, b, εsig e σ95) con la freccia indica il piurecente minimo trovato. Come si vede i tagli proposti e il limite atteso nonsono dissimili da quelli studiati precedentemente.

Tagli bidimensionali e statistica di test. Un taglio secco sulle duevariabili mrec

H e PH sfrutta solo parzialmente il potere che queste hanno perdiscriminare segnale, come si puo intuire dal plot bidimensionale PH vs.mrec

H ottenuto con l’apposita macro:

root [16] .x Plot2D.C(&hz100, &zz, "btagh:mhrec","", 160, 0., 160., 100, 0., 1.)

mhrec0 20 40 60 80 100 120 140 160

bta

gh

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ZZEntries 12426Mean x 86.06Mean y 0.3049RMS x 17.34RMS y 0.3081

ZZEntries 12426Mean x 86.06Mean y 0.3049RMS x 17.34RMS y 0.3081

btagh:mhrec (cut: ) HZEntries 7371Mean x 92Mean y 0.09409RMS x 17.37RMS y 0.1946

HZEntries 7371Mean x 92Mean y 0.09409RMS x 17.37RMS y 0.1946

Dallo studio di questo plot e di altri analoghi sarebbe possibile individuaree ottimizzare dei tagli nel piano (mrec

H ,PH) del tipo PH < F(mrecH ); oppure

si potrebbe costruire un discriminante di Fisher, ovvero un’opportunacombinazione lineare di mrec

H e PH da utilizzare come variabile discriminante.Il lemma di Neyman-Pearson prescrive come costruire la statistica di test

migliore in termini di prestazioni. Indichiamo con g(mrecH ,PH|Hsig(mH))

e gbkg ≡ g(mrecH ,PH|Hbkg) rispettivamente le distribuzioni di probabilita

nell’ipotesi di segnale Hsig(mH) e nell’ipotesi di fondo Hbkg. Per ottenere lapiu piccola efficienza sul fondo εbkg per una data efficienza εsig sul segnalescegliere la regione di accettanza tale che:

tmH(mrecH ,PH) ≡

g(mrecH ,PH|Hsig(mH))

g(mrecH ,PH|Hbkg)

> c, (5)

9

Page 10: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

dove c e una costante che determina εsig (qualsiasi funzione monotona di Attenzione a non confonderetmH con la quantita QmHutilizzata nella vera ricercadell’Higgs a LEP e descrittanelle dispense; entrambe sonolikelihood ratio ma mentre tmHe definito sul singolo evento (esegnale o e fondo?) QmH edefinito sull’intero insieme dieventi osservati (l’insieme deglieventi osservati e compatibilecon la presenza del solo fondo oanche con la presenza delsegnale insieme al fondo?).L’attento lettore osservera chetmH , a meno di qualchecostante, e il peso dell’eventoche si usa per costruire QmH .

tmH e equivalente). tmH e anche detto likelihood ratio e consiste nel rapportotra due densita di probabilita calcolate nel punto dello spazio dei parametriosservato.

Normalmente l’applicazione pratica di questa prescrizione e preclusa. Ingenerale non conosciamo le espressioni esplicite per g(mrec

H ,PH|Hsig(mH))e g(mrec

H ,PH|Hbkg). D’altro canto possiamo ricostruire queste distribuzionisotto forma di istogrammi n-dimensionali riempiti utilizzando metodi MonteCarlo. Se, per esempio, dividiamo in un numero M di bin ciascuna dellen dimensioni ci troviamo a dover riempire con una statistica sufficienteMn celle e questo e solitamente proibitivo in termini di eventi MonteCarlo da produrre dato il numero spesso elevato delle variabili in gioco.Il compromesso su cui si ripiega e fare approssimazioni sulla forma delledistribuzioni o applicare tecniche come il sopracitato discriminante di Fishero le reti neurali per ridurre il numero di variabili.

Il nostro esercizio didattico e pero sufficientemente semplificato da ren-dere questa via percorribile. La function void buildTSForMass(TStringmassStr) costruisce la statistica di test per la massa specificata nell’argomento:

root [17] buildTSForMass("100")Go!...Now loading: zz_big.rootAnalysing event #299999Now loading: hz_big_100.rootAnalysing event #299999

Il metodo applicato e esattamente quello sopra descritto. Due campionipiuttosto grossi di segnale, con mH = 100GeV nell’esempio, e fondo I campioni di fondo e di segnale

da 300k eventi dovrebberoessere gia presenti nella cartellaevtanl se si e fatto uso dellascript makeAll.sh e sonoriconoscibili perche contengonobig nel nome.

(300k eventi ciascuno) vengono utilizzati per costruire le distribuzionig(mrec

H ,PH|Hsig(mH)) e g(mrecH ,PH|Hbkg) che non sono altro che altrettanti

istogrammi bidimensionali normalizzati. La statistica di test e a suavolta un istogramma bidimensionale che, bin per bin, contiene il rapportog(mrec

H ,PH|Hsig(mH))/g(mrecH ,PH|Hbkg). Il codice implementa opportune

protezioni per eliminare casi patologici (p.e. se il denominatore e nullo).Questo istogramma viene salvato in un file ts <mh>.root (p.e. ts 100.rootnel caso di mH = 100 GeV) in modo che la statistica di test possa essereutilizzata alla bisogna senza bisogno di rigirare ciascuna volta su 600k eventi.

Per rendere la statistica di test disponibile come variabile su cui tagliare alpari delle altre occorre utilizzare il metodo void myEvtAnl::FillTSForMass(TStringmassStr), per esempio:

root [18] hz100.FillTSForMass("100")File ts_100.root found...Filling ts100 for event #7370

Un loop su tutti gli eventi del TTree della classe, riempie la variabileprecedentemente allocata con nome ts<massStr>. Ovviamente se il file.root che contiene la statistica di test non e disponibile il metodo da unerrore.

Come si capisce dal codice, la macro di inizializzazione init.C si prendecura di produrre tutte le statistiche di test alle varie masse se queste nonesistono in evtanl e di caricarle nei TTree di tutte le repliche di myEvtAnlche vengono definite.

10

Page 11: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

Selezione con la statistica di test. Per capire come utilizzare lastatistica di test facciamone l’istogramma per segnale e fondo:

root [19] .x Plot.C(&hz100, &zz, "ts100", "", 30., 0., 30.)

SumEntries 19797Mean 2.898RMS 4.761

ts1000 5 10 15 20 25 300

2000

4000

6000

8000

10000

12000

SumEntries 19797Mean 2.898RMS 4.761

ts100 (cut: )

ZZEntries 12426Mean 1.185RMS 2.274

ZZEntries 12426Mean 1.185RMS 2.274

HZEntries 7371Mean 5.674RMS 6.372

HZEntries 7371Mean 5.674RMS 6.372

SumEntries 19797Mean 2.898RMS 4.761

SumEntries 19797Mean 2.898RMS 4.761

Dato che la statistica di test e compressa a piccoli valori, e molto piuconveniente utilizzare ln(tmH) che e comunque una funzione monotona dimrec

H :

root [20] .x Plot.C(&hz100, &zz, "log(ts100)", "", 36., -6., 6.)

SumEntries 19797Mean 0.08247RMS 1.411

log(ts100)-6 -4 -2 0 2 4 60

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

SumEntries 19797Mean 0.08247RMS 1.411

log(ts100) (cut: )

ZZEntries 12426Mean -0.5036RMS 1.083

ZZEntries 12426Mean -0.5036RMS 1.083

HZEntries 7371Mean 1.016RMS 1.36

HZEntries 7371Mean 1.016RMS 1.36

SumEntries 19797Mean 0.08247RMS 1.411

SumEntries 19797Mean 0.08247RMS 1.411

Lasciamo il lettore esercitarsi a disegnare selezioni che facciano usodi ln(tmH) e passiamo direttamente ad usare una macro, OptTS.C, perottimizzare il taglio su ln(tmH). Questa macro e del tutto analoga aOptCut.C. Il taglio su ln(tmH) e variato da -5. a 5. a passi di 0.1. Anche in questo caso, provare a

modificare la macro perottimizzare la selezione convalori della luminositasensibilmente diversi.

root [21] .x OptTS.C(&hz100, &zz, "100")...log(ts100)>0.80 16.18 0.593542 0.0857179 <======...

11

Page 12: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

In questi esempi stiamo deltutto ignorando gli errori sullestime di εsig e b e il loroimpatto su σ95 che potrebberodiventare importanti nelleregioni in cui εsig e b fosseropiccoli. In altre parole sullecode delle distribuzioniservirebbe una statistica benmaggiore per stime piuaccurate. Utilizzare questamacro di minimizzazione concautela!

-4 -2 0 2 4

20

40

60

80

100

120

bkg

-4 -2 0 2 4

0.2

0.4

0.6

0.8

1

eff

-4 -2 0 2 4-110

1

lim [pb]

Verificare sempre tramite il grafico che il minimo indicato sia sensato.Comunque il valore di σ95 per il taglio “ottimale”, ln(t100GeV) > 0.8,

e migliore di quello ottenuto tagliando indipendentemente su mrecH e PH,

sempre assumendo mH = 100 GeV. E estremamente istruttivo capire cheimpatto ha questo taglio una volta rappresentato nel piano PH vs. mrec

H :

root [23] .x Plot2D.C(&hz100, &zz, "btagh:mhrec","log(ts100)>0.80", 160,0.,160., 100,0.,1.)

mhrec0 20 40 60 80 100 120 140 160

bta

gh

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ZZEntries 1618Mean x 91.64Mean y 0.01925RMS x 18.13RMS y 0.02255

ZZEntries 1618Mean x 91.64Mean y 0.01925RMS x 18.13RMS y 0.02255

btagh:mhrec (cut: log(ts100)>0.8) HZEntries 4375Mean x 97.17Mean y 0.0146RMS x 15.69RMS y 0.01888

HZEntries 4375Mean x 97.17Mean y 0.0146RMS x 15.69RMS y 0.01888

Come si vede il taglio ln(t100) > 0.80 corrisponde a un taglio su PH meno Questi potrebbero essere eventiin cui fallisce il criterio diidentificazione dei jet da Z, equindi da H.

restrittivo all’aumentare di mrecH per mrec

H>∼ 95 GeV; inoltre vengono accettati

come segnale anche eventi con mrecH

<∼ 75 GeV.E importante ribadire che esiste una statistica di test per ciascuna ipotesi

di massa dell’Higgs, come esplicitamente rappresentato dalla notazione tmH .La statistica di test tmH , costruita sulla base di campioni MC di Higgs dimassa mH, e ottimale solo per la discriminazione dal fondo del segnale diun Higgs di massa mH. Cambiando l’ipotesi di massa occorre utilizzare

12

Page 13: Esercitazione sulla ricerca del bosone di Higgs a LEPhep.fi.infn.it/ciulli/Site/Tecniche_files/LepHZ_esercitazione.pdf · Esercitazione sulla ricerca del bosone di Higgs a LEP Marzo

una statistica di test costruita per la nuova ipotesi. Per il nostro esercizioabbiamo costruito un statistica di test per le masse da 70 a 105 GeV aintervalli di 5 GeV. Di fatto la granularita dipende da quanto siamo in gradodi distinguere su mrec

H valori di mH vicini. Come si vede dalla distribuzionedi mrec

H , in particolare dalla larghezza del picco ricostruito, l’intervallo di5 GeV e piu che ragionevole.

A riprova di cio possiamo ottimizzare una selezione per Higgs di massa100 GeV utilizzando le statistiche di test calibrate su masse vicine e osservareche si ottengono valori di σ95 solo leggermente peggiori:

root [24] .x OptTS.C(&hz100, &zz, "95")...log(ts95)>0.80 18.16 0.590965 0.090231 <======

...root [25] .x OptTS.C(&hz100, &zz, "105")...log(ts105)>0.60 14.81 0.556234 0.0882824 <======

...

13