SVILUPPO DI ALGORITMI PER LA SEGMENTAZIONE DI CROMOSOMI …enrigri/Tesi/tesi_chiusso v2.1.pdf ·...

48
SVILUPPO DI ALGORITMI PER LA SEGMENTAZIONE DI CROMOSOMI IN IMMAGINI IN METAFASE Francesco Chiusso Relatore: Prof. Alfredo Ruggeri, Universit`a di Padova Correlatore: Enrico Grisan Aprile 2006

Transcript of SVILUPPO DI ALGORITMI PER LA SEGMENTAZIONE DI CROMOSOMI …enrigri/Tesi/tesi_chiusso v2.1.pdf ·...

SVILUPPO DI ALGORITMI PER LASEGMENTAZIONE DI CROMOSOMI IN

IMMAGINI IN METAFASE

Francesco ChiussoRelatore: Prof. Alfredo Ruggeri, Universita di Padova

Correlatore: Enrico Grisan

Aprile 2006

Indice

1 Introduzione 31.1 Analisi dei cromosomi . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 Il cariogramma . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Scopo della tesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Analisi automatica dei cromosomi: lavori correlati . . . . . . . . . 81.4 Struttura della tesi . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Metafasi in banda Q 112.1 Aspetto di una metafase . . . . . . . . . . . . . . . . . . . . . . . 112.2 Particolarita delle immagini . . . . . . . . . . . . . . . . . . . . . 12

3 Segmentazione dell’immagine 153.1 Lavori correlati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Segmentazione multistadio . . . . . . . . . . . . . . . . . . . . . . 17

3.2.1 Descrizione dell’algoritmo . . . . . . . . . . . . . . . . . . 173.3 Osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 I metodi 254.1 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.2 Thresholding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2.1 Il metodo adottato . . . . . . . . . . . . . . . . . . . . . . 264.3 Eliminazione nuclei . . . . . . . . . . . . . . . . . . . . . . . . . . 274.4 Estrazione dell’asse . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5 Conferma di cromosoma singolo . . . . . . . . . . . . . . . . . . . 29

4.5.1 Il metodo adottato . . . . . . . . . . . . . . . . . . . . . . 294.6 Curvatura e punti concavi . . . . . . . . . . . . . . . . . . . . . . 30

4.6.1 Il metodo adottato . . . . . . . . . . . . . . . . . . . . . . 304.7 Ricerca valli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.8 Ricerca sovrapposizioni . . . . . . . . . . . . . . . . . . . . . . . . 34

4.8.1 Misura degli angoli e delle distanze . . . . . . . . . . . . . 344.9 Ricerca miglior combinazione di tagli . . . . . . . . . . . . . . . . 35

5 Conclusioni 375.1 Valutazione risultati e indici . . . . . . . . . . . . . . . . . . . . . 375.2 Proposte di sviluppo . . . . . . . . . . . . . . . . . . . . . . . . . 40

A Il prototipo 42A.1 Prestazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42A.2 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3

INDICE

4

Sommario

L’analisi del cariogramma e un esame diffuso in citogenetica. Partendo daun’immagine di cromosomi acquisita da microscopio, questi vengono ritagliati eincollati su una griglia standard in cui sono disposti e numerati secondo un criteriodi classificazione unificato. Questa disposizione aiuta gli scienziati ad identificarele alterazioni che possono portare ad un disturbo genetico.

La tesi si occupa dell’automatizzazione di questo processo, allo scopo di evitareil piu possibile il suo svolgimento manuale poiche, se ripetuto molte volte, risultaessere lungo e tedioso. In particolare tratta la segmentazione dei cromosomi nelleimmagini di metafasi in banda Q, il primo passo per la realizzazione di un sistemadi cariotipizzazione automatica. Essa include l’individuazione e l’esclusione dinuclei, residui di colorazione, e altro rumore; l’individuazione e la segmentazionedi cromosomi isolati ma anche adiacenti o sovrapposti.

L’approccio consiste in una serie di metodi applicati in successione. L’imma-gine viene prima segmentata tramite thresholding per distinguere i cromosomidallo sfondo. Sui gruppi di cromosomi adiacenti o sovrapposti vengono tentatidiversi metodi di separazione basati sulla forma del contorno e sulla presenza divalli del tono di grigio.

Il sistema proposto e stato testato su trenta immagini nelle quali il 96 % deicromosomi e stato correttamente segmentato.

INDICE

2

Capitolo 1

Introduzione

I cromosomi sono corpi densi che si trovano nel nucleo delle cellule. Essi conten-gono il DNA, una lunga molecola che e estremamente attorcigliata e condensata.Un singolo tratto di sequenza DNA si chiama gene. Ciascun cromosoma contienealcune migliaia di geni.

L’analisi dei cromosomi e utile a diagnosticare e prevenire anomalie genetiche,sia congenite, come la sindrome di Down, o altri disturbi acquisiti, come il cancroe la leucemia.

Durante la gran parte del ciclo cellulare, interfase, i cromosomi sono menocondensati e non sono visibili come oggetti singoli al microscopio. Tuttavia du-rante la divisione cellulare, la mitosi, i cromosomi si agglomerano e divengonocorpi visibili all’interno del nucleo della cellula. Per mitosi si definisce il proces-so di divisione nucleare che porta alla formazione di due identiche cellule figlieattraverso le fasi di profase, metafase, anafase, e telofase. I cromosomi sonopiu facilmente visti e identificati allo stadio di metafase della divisione cellulare.Benche non significativo dal punto di vista biologico e comune riferirsi ad unostadio intermedio di contrazione sito tra profase e metafase indicato con il nomedi prometafase.

Il numero di cromosomi nelle cellule umane e 46 con 22 coppie di autosomi(una per tipo proviene dalla madre e una per tipo proviene dal padre) e 2 cro-mosomi sessuali – due cromosomi X per le femmine (uno dal padre e uno dallamadre) o un X e un Y per i maschi (X dalla madre e Y dal padre)–.

Il cromosoma metafasico ha una lunghezza variabile: 3 ÷ 10 µm. Ogni cro-mosoma e costituito da 2 subunita longitudinali, i cromatidi, uniti a livello delcentromero, detto anche cinetocore o costrizione primaria. Rispetto a un pianopassante per il cinetocore e parallelo ai cromatidi, il cromosoma ha una strutturasimmetrica.

Il centromero non occupa la stessa posizione in tutti i cromosomi e divideogni cromatide in due parti, i bracci, la cui lunghezza dipende dalla posizionedel cinetocore. Per lo piu i bracci sono di lunghezza diversa, talvolta invece sonouguali. La posizione del centromero permette di classificare i cromosomi in 4 tipi:

• Acrocentrici: centromero in posizione terminale.

• Telocentrici: centromero in posizione subterminale.

• Submetacentrici: centromero in posizione submediana.

3

Capitolo 1. Introduzione

• Metacentrici: centromero in posizione mediana.

1.1 Analisi dei cromosomi

Prima della nascita delle tecniche di bandeggio il citogenetista classificava i cro-mosomi soltanto in base alla dimensione del cromosoma e alla posizione del centro-mero. L’individuazione del singolo cromosoma non era in questo modo possibilee i cromosomi venivano classificati soltanto in sette gruppi (A–G) basandosi sulladimensione e sulla posizione del centromero:

• Gruppo A (1–3). Cromosomi larghi, metacentrici, facilmente distinguibilidagli altri per le dimensioni e la posizione del centromero.

• Gruppo B (4–5). Cromosomi larghi, submetacentrici.

• Gruppo C (6–12, X). Cromosomi di taglia media, metacentrici o submeta-centrici.

• Gruppo D (13–15). Cromosomi di taglia media, acrocentrici, con satelliti.

• Gruppo E (16–18). Cromosomi relativamente corti, metacentrici o subme-tacentrici.

• Gruppo F (19–20). Cromosomi corti, metacentrici.

• Gruppo G (21–22, Y). Cromosomi corti, acrocentrici, con satelliti. Y nonpossiede satellite.

A partire dagli anni ’70 sono state introdotte diverse tecniche di bandeggio(es. Q–banding, G–banding, R–banding) che hanno rivoluzionato la citogenetica.Trattando le cellule e possibile ottenere una specie di codice a barre che rendepossibile individuare ogni singolo cromosoma e rilevare anche piccoli cambiamentinella struttura cromosomica.

Esistono numerose tecniche che producono il bandeggio o banding pattern deicromosomi in metafase. Una banda e definita come quella parte di cromosomache e chiaramente distinguibile dai segmenti adiacenti, apparendo piu scura o piuchiara con una o piu tecniche di bandeggio.

• Banda Q. Si utilizza un colorante fluorescente, la quinacrina.

• Banda G. Si trattano i cromosomi e si colorano con Giemsa 1. Le bande Gcorrispondono in larga misura con le bande Q, sono caratterizzate da unamaggiore spiralizzazione della fibrilla elementare che forma il cromosoma.

• Banda R. Si trattano i cromosomi con temperature elevate (87◦C) e si colo-rano con Giemsa. Le bande che si ottengono sono complementari alle bandeG.

• Banda C. I cromosomi si colorano nelle aree vicine al centromero. Talvoltasi colorano anche aree interstiziali ricche di DNA altamente ripetitivo. Conopportune varianti e possibile colorare anche le tre frazioni di DNA satellite.

1Tipo di colorante ottenuto da una mistura di blu di metilene e di eosina in soluzione alcolica

4

Capitolo 1. Introduzione

Quando si parla di risoluzione del bandeggio, si intende il numero di bandeche e possibile distinguere in un insieme aploide, ovvero 22 autosomi piu X e Y. Idiversi tipi di risoluzione dipendono non solo dallo stato di condensazione, ovverodallo stato della mitosi al quale si trova la cellula, ma anche dalla tecnica usataper rivelare il bandeggio. Cromosomi con bandeggi Q, G, R piu lunghi mostranoun numero di bande maggiore rispetto a quelli piu corti. Le cellule in metafasepossiedono approssimativamente 450 bande e si definiscono in prometafase quan-do hanno 550 bande e oltre. Una cellula puo essere definita in profase soltantose almeno 850 bande sono visibili.

Il maggior numero di bande presente in stadi di maggiore elongazione fornisceuna descrizione con una risoluzione piu elevata della struttura del cromosoma,piu vantaggiosa ai fini dell’analisi. L’analisi in questa fase viene tuttavia resa piudifficoltosa a causa della maggiore complessita del banding pattern e del fattoche cromosomi piu lunghi tendono a toccarsi e sovrapporsi molto di piu rispettoa cromosomi piu corti.

Unitamente al banding pattern altre due caratteristiche del cromosoma sirivelano essenziali per l’identificazione: la sua lunghezza, e la posizione del cen-tromero. Quest’ultima viene definita dall’indice centromerico, cioe dal rapportofra la lunghezza del braccio corto p (dal francese petit) e la somma tra lunghezzadel braccio corto p con quella del braccio lungo q :

Ic =p

p + q(1.1)

1.1.1 Il cariogramma

Il cariogramma e una griglia standard in cui i cromosomi di un individuo sonodisposti e numerati a seconda della dimensione, dal piu grande al piu piccolo.Questa disposizione aiuta gli scienziati ad identificare le alterazioni che possonoportare ad un disturbo genetico.

Per preparare un cariogramma standard sono necessarie cellule in metafasee ipoteticamente, potrebbe essere usata qualsiasi popolazione di cellule in sepa-razione. Il sangue e il tessuto piu utilizzato, ma a volte il cariogramma vienepreparato da fibroblasti della pelle o da cellule del midollo osseo.

Ci sono vari protocolli per la preparazione di un cariogramma dai linfociti delsangue periferico, ma alcuni passi sono comuni a tutti:

• Viene prelevato un campione di sangue e aggiunto un anticoagulante.

• Le cellule mononucleari come i linfociti o i monociti vengono separate percentrifugazione.

• Le cellule mononucleari vengono coltivate per 3-4 giorni e fatte proliferare.

• Al termine del periodo di coltura, quando c’e una grande popolazione di cel-lule in separazione, la coltura viene trattata con una droga come il colcemideche impedisce la mitosi completa.

• I linfociti vengono raccolti e trattati brevemente con una soluzione ipo-tonica. Questo comporta una dilatazione del nucleo e aiuta nell’ottenerepreparati in cui i cromosomi non si sovrappongono.

5

Capitolo 1. Introduzione

(a)

(b)

Figura 1.1: Esempio di cariogramma in banda Q

6

Capitolo 1. Introduzione

• Le cellule accresciute vengono fissate, posate su un vetrino e asciugate.

• I vetrini vengono trattati per indurre il bandeggio. Vengono scelte le “mi-gliori” distribuzioni (cromosomi non troppo lunghi o non troppo compattie non sovrapposti) e fotografate. Le foto poi vengono elaborate a mano oautomaticamente e i cromosomi vengono ritagliati e disposti nella locazioneappropriata, in accordo con la classificazione visiva operata dal citologo.

In figura 1.1 e mostrato un esempio di metafase trattata con bandeggio Q(1.1(a)) e il relativo cariogramma ottenuto (1.1(b)).

L’ISCN (International System for Human Cytogenetic Nomenclature) e un’or-ganizzazione nata nel 1978 che si occupa di standardizzare la nomenclatura e lecaratteristiche dei cariotipi. Tale standardizzazione e basata sui risultati di varieconferenze tenutesi tra il 1960 e il 2004. Essa si basa su modelli visivi chiamatiideogrammi, mappe cromosomiche che mostrano le dimensioni dei bracci, il cen-tromero e il banding pattern specifico, dove ogni banda e numerata. In particolareesistono ideogrammi per le risoluzioni standard di 300, 400, 550, 700 e 850 bande.Per un approfondimento vedere [1].

Figura 1.2: Esempio di ideogramma del cromosoma 1

1.2 Scopo della tesi

Realizzare un cariogramma manualmente e un operazione difficile e dispendiosa intermini di tempo, stressante per l’occhio e che richiede una meticolosa attenzioneai dettagli, oltre a necessitare di personale esperto. La sua natura tediosa haportato molti ricercatori a studiare la possibilita di un sistema automatico osemiautomatico di cariotipizzazione. I primi studi sull’argomento risalgono a circatrent’anni fa. Nonostante i software esistenti siano di grande aiuto ai citogenetisti,si puo dire che all’oggi non esiste ancora un sistema che risolva il problema inmodo definitivo. Questo principalmente a causa dell’elevata variabilita causatadalla natura non rigida dei cromosomi e alla presenza nell’immagine di cromosomiche si toccano o si sovrappongono (come si vede in figura 1.1(a)).

L’obiettivo finale del lavoro e lo sviluppo di un software per l’analisi automa-tica di metafasi che migliori, o almeno sia alla pari, delle prestazioni dei sistemiesistenti.

7

Capitolo 1. Introduzione

L’analisi al computer dei cromosomi convenzionalmente consiste in primo luo-go di un pre-processing dell’immagine ottenuta al microscopio. Quindi si proce-de con segmentazione, processing intermedio, estrazione dei parametri, selezionedegli stessi ed infine classificazione dei cromosomi.

Per la vastita dell’argomento, questo lavoro di tesi si limita a proporre unmetodo per la segmentazione delle metafasi in banda Q, cioe l’isolamento dei cro-mosomi dallo sfondo, da nuclei cellulari indivisi, da materiale biologico irrilevantepresente all’interno dell’immagine e altro.

1.3 Analisi automatica dei cromosomi: lavori

correlati

La fase di pre-processing ha come obiettivo il miglioramento della qualita del-l’immagine cellulare attraverso tecniche di riduzione del rumore, ottimizzazionedei bordi del cromosoma, aumento del contrasto. Il pre-processing effettuatoda Agam et al. [2] consiste nella rimozione del rumore usando un filtro edge–preserving non lineare. Moradi [3] normalizza l’intensita dell’immagine eseguen-do un histogram stretching. Anche nello studio di Shunren et al. [4] prima dellostadio di segmentazione viene modificato l’istogramma dell’immagine eseguendouno stretching dei livelli di grigio.

Per una panoramica dei metodi esistenti in letteratura sulla segmentazione sirimanda il lettore al paragrafo 3.1.

Il lavoro di Wang e Wu [5] propone un miglioramento dell’immagine basatosu wavelet allo scopo di migliorare il banding pattern e quindi la classificazione.

La classificazione prevede prima di tutto l’estrazione di parametri cromosomi-ci per estrarne le caratteristiche che in maggior misura si prestano a discriminarele differenti classi cromosomiche. Il risultato poi della selezione delle caratteri-stiche consente di ricondurre il cromosoma ad una rappresentazione piu sinteticache tuttavia contenga la maggior parte dell’informazione cromosomica. A partireda quest’ultima descrizione del cromosoma viene eseguita la classificazione vera epropria, usualmente valendosi di un metodo statistico. Sono state utilizzate nu-merose caratteristiche differenti per descrivere un cromosoma, ad esempio nellapubblicazione di Piper e Granum [6] vengono vagliati diversi parametri, talunimisurabili direttamente dall’immagine cromosomica (area, densita relativa, peri-metro del convex hull); altri invece ricavati in seguito al calcolo dell’asse (lunghez-za, banding pattern). Sweeney [7] utilizza la lunghezza assoluta del cromosomae introduce dei coefficienti wavelet e di Fourier del banding pattern. Delshad-pour [8] aggiunge a lunghezza e banding pattern la decomposizione dei livelli digrigio o componenti della trasformata di Fourier bidimensionale, Guimaraes [9]considera invece il rilevamento della forma del cromosoma, ne ricava il contornoe quindi la relativa decomposizione attraverso la trasformazione wavelet. No-nostante molte possibili analisi effettuate su immagini cromosomiche siano stateprese in considerazione, quelle che sembrano essere maggiormente discriminantiai fini della classificazione sembrano essere tuttavia la lunghezza ed il centrome-ric index (ossia due caratteristiche geometriche), ed il density profile (integraleo densita media lungo sezioni perpendicolari all’asse mediano del cromosoma),come riportato negli studi di Lerner et al. [10, 11] , in quelli di Moradi et al.

8

Capitolo 1. Introduzione

[12, 3] , ed in quello di Cho [13]. Una volta estratti quelle features del cromosomache si ritengono piu utili alla classificazione e possibile cercare di ridurne il nu-mero mantenendo intatto o diminuendo lievemente il contenuto di informazioneattraverso la feature selection, che puo essere intesa come la ricerca, tra tutte lepossibili trasformazioni dello spazio dei parametri, di quella che preserva la se-parabilita tra le classi in uno spazio con il minor numero possibile di dimensioni.Lerner [10] propone l’algoritmo knock-out che valuta, attraverso una matrice chepesa la dispersione intra–classe e inter–classe, l’efficacia di vettori di parametricostituiti di sottoinsiemi del vettore iniziale, eliminando quindi le features menodiscriminanti. Il problema che si pone al termine della convenzionale proceduradi analisi dei cromosomi e quello della classificazione vera e propria, l’argomentoche e stato maggiormente esaminato nell’analisi cromosomica. In quest’ambitoil classificatore piu popolare e una rete neurale con multi–layer perceptron, disolito addestrata con un algoritmo di backpropagation come in Delshadpour [8],Lerner [10], Cho [13], Moradi [3]. Altri classificatori sono stati studiati, come gliinferred Markov network models di Granum e Thomason [14], statistici come inPiper e Granum [6] (classificatore a massima verosimiglianza) o ancora fuzzy onearest neighbor. La maggior parte di questi classificatori ha due inconvenienti:innanzitutto offre prestazioni di livello inferiore rispetto ad un citologo esper-to (70-80% paragonato a 99.7%) ed in secondo luogo richiede l’intervento di unoperatore per risolvere casi di erronea classificazione di cromosomi. Alcune delleragioni alla base di queste limitazioni vanno ricercate nella difficolta di tradur-re in istruzioni software la metodologia adottata da un esperto (ad esempio ilconfronto tra cromosomi in una stessa immagine),l’utilizzo di parametri limitatinella qualita o nel numero se raffrontati con il potentissimo meccanismo di sintesidel cervello umano. Molti dei lavori precedentemente riportati sono in effetti daritenere studi di fattibilita, in cui gli autori si collocano in un contesto limitato(e.g. analisi di un numero esiguo di classi cromosomiche, o utilizzo di cromosomiprivi di difetti genetici, non sovrapposti, non eccessivamente curvati) ed inoltre icromosomi considerati vengono prelevati da data set di utilizzo pubblico, dove icromosomi vengono colorati con Giemsa, il metodo piu diffuso per evidenziare ilbanding pattern.

1.4 Struttura della tesi

Il capitolo 2 e introduttivo e presenta le immagini di cromosomi, con le loroparticolari caratteristiche.

Il capitolo 3 presenta l’algoritmo della soluzione proposta.Il capitolo 4 spiega in modo piu dettagliato i metodi e le scelte alla base

dell’algoritmo sviluppato.La presentazione dei risultati e una breve discussione sono esposte nel capitolo

5.

9

Capitolo 1. Introduzione

10

Capitolo 2

Metafasi in banda Q

In questo capitolo viene presentata una breve analisi di quello che e possibilevedere nelle immagini di metafasi in banda Q. Inoltre viene fatta una rassegnadelle principali peculiarita che influenzano la segmentazione.

2.1 Aspetto di una metafase

Figura 2.1: Metafase in banda Q

Una tipica immagine di metafase contiene i seguenti oggetti:

a. Nuclei e micronuclei. Oggetti grandi e rotondi.

b. Residui di colorazione. Oggetti che possono variare in dimensione, tono digrigio e forma.

c. Cromosomi singoli.

11

Capitolo 2. Metafasi in banda Q

d. Cromosomi conglomerati o cluster. Sebbene nella preparazione del vetrinosi presti particolare attenzione ad evitare il contatto o la sovrapposizione,la formazione di alcuni cluster e inevitabile.

2.2 Particolarita delle immagini

Lo sfondo. Le immagini possono presentare cromosomi ben visibili oppure nonben distinti dallo sfondo (figura 2.2).

(a) Cromosomi poco distinti (b) Cromosomi ben visibili

Figura 2.2: Metafasi di differenti intensita

La forma dei cromosomi. I cromosomi hanno una forma non rigida, moltovariabile in dimensioni e proporzioni, sia tra immagine e immagine che all’internodi una stessa immagine. Inoltre possono essere piegati, anche in modo moltoevidente. Nella gran parte dei casi e possibile osservare il centromero.

Figura 2.3: Esempi di cromosomi

Il numero dei cromosomi. Il numero totale di cromosomi in un’immaginee variabile. Non e possibile fare riferimento ai 46 cromosomi perche questo e ilnumero di cromosomi di un individuo normale.

Sovrapposizioni e adiacenze. In un immagine sono quasi sempre presenti.Possono coinvolgere anche piu di due cromosomi alla volta. Per quanto riguardale adiacenze, non sempre e presente un tratto di separazione piu scuro tra idue cromosomi, come si vede confrontando le figure 2.4(c) e 2.4(d). Inoltre,sia sovrapposizioni che adiacenze sono associate alla presenza di concavita nelcontorno. Le figure 2.4(a) e 2.4(b) sono esempi di sovrapposizioni.

12

Capitolo 2. Metafasi in banda Q

(a) (b)

(c) (d)

Figura 2.4: Esempi di sovrapposizioni e adiacenze

Il bandeggio. Il bandeggio fa si che all’interno di uno stesso cromosoma siabbiano variazioni sostanziali dell’intensita di grigio, influenzando il processo disegmentazione (Vedi figura 2.5).

(a) (b)

Figura 2.5: Esempi di bandeggio

La forma dei cluster. I cluster di cromosomi possono avere un contorno cheda solo permette chiaramente di scindere in modo corretto i singoli cromosomi.Oppure possono avere una forma tale che l’unica informazione del contorno nonbasta alla segmentazione, o puo essere ingannevole (figura 2.6).

Figura 2.6: Esempio di cluster

I satelliti. I satelliti sono elementi morfologici caratteristici, rotondeggiantio allungati, collegati all’estremita di un braccio attraverso un sottile filamentocromatinico chiamato stelo. Talvolta il diametro di un satellite corrisponde aquello del braccio, altre volte e minore (figura 2.7).

13

Capitolo 2. Metafasi in banda Q

Figura 2.7: Esempio di satellite

I bracci. Quando l’immagine e presa ad uno stadio avanzato della mitosi icromatidi si presentano separati. Il problema di separazione si complica ulterior-mente (figura 2.8).

(a) (b)

Figura 2.8: Esempi di cromosomi con cromatidi in separazione

14

Capitolo 3

Segmentazione dell’immagine

Realizzare manualmente il cariogramma di una cellula eucariotica 1 da un’imma-gine acquisita da microscopio e una procedura lenta e noiosa ed e stata dedicatamolta attenzione alla sua automatizzazione.

La prima ragione che impedisce di ottenere una procedura completamente au-tomatica e la difficolta nel separare cluster di cromosomi adiacenti o sovrapposti,situazione questa presente in quasi tutte le immagini acquisite per questo scopo.

I sistemi esistenti prevedono sempre la possibilita di un’interazione tra mac-china e utente: la prima propone una soluzione e il secondo sceglie se procederecon la strada proposta oppure percorrerne un’altra.

Sono stati proposti molti metodi che tentano di risolvere il problema: me-todi basati sul semplice thresholding [6]; tecniche che sfruttano la presenza di“valli” dei toni di grigio che corrispondono a zone di adiacenza [15, 16]; altrilavori costruiscono una serie di ipotesi di “tagli” basandosi sui punti concavi everificandole usando l’ipotesi di forma rettangolare [2]; un lavoro recente si basasu un processo ricorsivo di watershed segmentation e di histogram equalization[17]; altri approcci tentano di integrare nel processo di segmentazione conoscenzederivanti dalla classificazione [11] o dal confronto con modelli addestrabili delbandeggio atteso [18].

Nel paragrafo 3.1 vengono passati in rassegna i metodi appena elencati. Nelparagrafo 3.2 viene proposto il metodo da noi elaborato.

3.1 Lavori correlati

Agam e Dinstein [2], si basano unicamente sul contorno dei cluster. Affermanoinfatti che “e possibile osservare che le forme dei cromosomi sono da sole suffi-cienti allo scopo della separazione”. Essi, trovati i punti piu concavi del contorno,tracciano tutte le linee rette che li uniscono e ipotizzano dei tagli lungo queste li-nee. Tali ipotesi vengono verificate confrontando le parti ottenute con un modellopoligonale di cromosoma.

Ji ha realizzato due lavori, nel 1989 e nel 1994 [15, 16]. In entrambe basa il suolavoro sulla presenza di tratti di separazione tra cromosomi adiacenti. Esegue unaricerca euristica dei tratti di separazione a partire dalle concavita del contorno.Inoltre rileva le sovrapposizioni basandosi su una “scheletrizzazione” del cluster.

1Avente il nucleo. Si distingue dalla cellula procariotica, in cui e assente il nucleo, sostituitoda un equivalente che in microscopia ottica viene spesso detto nucleoide

15

Capitolo 3. Segmentazione dell’immagine

Dove lo scheletro forma un nodo e ipotizzata una sovrapposizione. Nella figura3.1 si vede un esempio di questo approccio.

Figura 3.1: Separazione di un overlap proposta da Ji

Nello studio del 1994 Ji affronta un problema differente dalla cariotipizzazio-ne automatica: l’obiettivo e quello di realizzare un sistema di valutazione delleanomalie per la dosimetria delle radiazioni. Le cellule su cui lavora sono senzabandeggio. Quello di Ji e forse l’unico lavoro che tratta la cellula nella sua interez-za e non come una serie di cromosomi e cluster di cromosomi. Il metodo procedericorsivamente (per tutti i cluster) e iterativamente (per tutta la cellula), in unaserie di ipotesi e valutazioni. Inizialmente assegna tutti gli oggetti ad una dellecinque classi: nucleo, cluster, cromosoma singolo, residuo o oggetto sconosciuto.Sui cluster vengono ricercati i tratti di separazione e, se ne viene individuatouno, allora si esegue il taglio. A questo stadio dell’applicazione viene usato un settemporaneo di criteri per determinare se un tratto e accettabile. Se la ricerca none andata a buon fine allora si ipotizza una sovrapposizione: se neanche questaipotesi e confermata, a questo punto l’oggetto e classificato come singolo cromo-soma. La procedura e applicata su tutti i cluster. Se il risultato finale e vicino aquanto atteso (43–47 cromosomi singoli), allora l’algoritmo termina. Altrimentiil criterio che stabilisce se un tratto di separazione e accettabile viene regolatoe l’intera procedura e ripetuta. L’iterazione si ferma perche il risultato e statoraggiunto o perche un certo numero di iterazioni e stato raggiunto.

Karvelis [17] esegue una segmentazione iniziale usando una trasformazionewatershed [19]. Quindi su ogni area segmentata viene eseguito localmente unaequalizzazione dell’istogramma [19] e la watershed viene applicata nuovamen-te a quell’area. Infine, per i casi piu complessi vengono individuati i tratti diseparazione e usati per produrre la segmentazione finale.

Quello di Charters [18] e uno studio sulla possibilita di risolvere la segmenta-zione di cromosomi coinvolti in sovrapposizioni usando modelli addestrabili delbandeggio. I modelli consistono in template del bandeggio di pezzi di cromo-somi. Il bandeggio delle regioni sovrapposte e oscurato, ma quattro sezioni diquesto sono visibili. L’incertezza nella segmentazione puo nascere perche ognunodi questi segmenti puo essere associato ad ognuno degli altri tre per generare cro-mosomi completi (Figura 3.1 c, d, e). Se le classi dei segmenti parziali puo essereidentificata dal bandeggio locale, allora i segmenti appartenenti alla stessa classepossono essere associati e l’incertezza risolta. La classificazione dei segmenti erealizzata confrontando le sezioni visibili con una serie di template. In uno studiosuccessivo [20], unitamente ai modelli parziali di bandeggio cromosomico vengonoconsiderati modelli addestrabili della forma introducendo una parametrizzazionedefinita Chord Distribution Model (CDM).

Lerner [11] segmenta inizialmente per mezzo di un clustering di una rappre-sentazione di un momento algebrico dei pixel dell’immagine. Quindi introduceuna segmentazione basata su classificazione. Un cluster e classificato come tale

16

Capitolo 3. Segmentazione dell’immagine

Figura 3.2: Illustrazione schematica dell’uso delle template proposto da Charters

nel caso che il classificatore fallisca nell’assegnarlo ad una delle possibili classi.Vengono quindi individuati i punti piu concavi e suggeriti come potenziali punti apartire dai quali tracciare le linee di taglio. Il classificatore viene utilizzato ancheper verificare le ipotesi poste.

3.2 Segmentazione multistadio

Di seguito viene presentato in modo sintetico l’algoritmo su cui si basa il softwaresviluppato. Il termine multistadio deriva dal suo carattere iterativo e dal fatto chepiu metodi di segmentazione vengono applicati ai cluster. Nel capitolo 4 verrannoapprofonditi i singoli passi e chiarite le motivazioni delle scelte effettuate.

3.2.1 Descrizione dell’algoritmo

Inizialmente l’immagine viene elaborata al fine di aumentare il contrasto.Il primo passo della segmentazione automatica consiste in un processo a soglia

(thresholding). Si sfrutta il tono di grigio di ogni pixel per stabilire se questoappartiene allo sfondo o a qualche oggetto.

La figura 3.3(a) e un esempio di metafase. La figura 3.3(b) e l’immagineche risulta dal processo a soglia e, come si vede, e formata da tanti oggettiche chiameremo “blob”, e che possono essere cromosomi singoli o cromosomiagglomerati.

A questo punto, per distinguere un blob dall’altro, si esegue un’etichetta-tura dell’immagine binaria: ai pixel che appartengono allo stesso oggetto vieneassegnata la stessa etichetta.

Si costruisce una coda nella quale si inseriscono tutti i blob individuati. Quindisi estrae un blob e per prima cosa si valuta se e un cluster o un cromosoma singolo.Se e un cromosoma singolo l’oggetto non viene segmentato. Se e un cluster si tentadi separarlo con diversi metodi. Se un metodo tentato ha successo le due nuoviparti ottenute vengono rimesse in coda e a loro volta valutate ed eventualmentesegmentate. L’algoritmo si ferma quando la coda e stata svuotata.

Vediamo ora i metodi di segmentazione applicati ai cluster.

Metodo 1: Ricerca valli Si consideri la figura 3.4(a). Come si puo vederesono due cromosomi adiacenti. Nel punto di contatto esiste un tratto piu scuro,una “valle” dei toni di grigio. In questo primo metodo viene sfruttata proprioquesta informazione. Prima di tutto vengono individuati i punti piu concavi

17

Capitolo 3. Segmentazione dell’immagine

(a) Immagine originale

(b) Dopo il thresholding

Figura 3.3: Esempio di thresholding.

18

Capitolo 3. Segmentazione dell’immagine

del contorno (figura 3.4(b)). Solitamente infatti una condizione di adiacenza osovrapposizione e associata alla presenza di concavita.

(a) Esempio di cluster

1

2

(b) Contornoestratto e punticoncavi evidenziati

Figura 3.4:

Per ognuno dei punti concavi si cerca il percorso piu scuro che parte dal puntostesso e arriva ad un altro punto del contorno. Nel caso in esame poiche i punticoncavi sono due si trovano due di questi percorsi: uno che parte dal puntoconcavo 1 e uno che parte dal punto concavo 2. Tra questi due percorsi candidativiene scelto quello che attraversa pixel mediamente piu scuri. Il cluster vienetagliato lungo questo percorso scelto e i nuovi blob vengono messi nella coda daanalizzare. La figura 3.5(b) mostra il risultato del taglio.

(a) Prima del taglio (b) Dopo il taglio

Figura 3.5: Esempio di taglio attraverso un tratto di separazione

Nell’esempio fatto non e visibile, comunque non tutti i percorsi tra quelliindividuati vengono considerati: vengono scartati quelli che attraversano zonetroppo chiare e quelli che non terminano su una zona concava del contorno.

19

Capitolo 3. Segmentazione dell’immagine

Metodo 2: Ricerca sovrapposizioni Se non sono stati trovati tratti di se-parazione si verifica se il blob e costituito dalla sovrapposizione di qualche cro-mosoma. La figura 3.6(a) e un esempio di questa situazione. Si individuanoprima di tutto le possibili linee rette che uniscono i punti concavi (figura 3.6(b)).Quindi si ricercano le sovrapposizioni. Si sfrutta la caratteristica di queste diessere caratterizzate da 4 punti concavi tali che le linee che li uniscono formanoun quadrilatero con dimensioni variabili ma sempre all’interno di un certo campodi variazione. La figura 3.6(c) mostra le quattro linee che soddisfano le condizio-ni. Le due forme risultanti avranno in comune quei pixel in corrispondenza dellasovrapposizione (vedi figure 3.6(d) e 3.6(e), le zone piu chiare).

(a) Sovrappo-sizione

(b) Ipotesidi tagli

(c) Linee dioverlap

(d) Seg-mentoindividuato

(e) Segmento in-dividuato

Figura 3.6: Esempio di taglio di una sovrapposizione

Nuovamente le due forme risultanti vengono rimesse in coda per essere ana-lizzate.

Metodo 3: Ricerca miglior combinazione di linee Se non sono state tro-vate valli dei toni di grigio (metodo 1) o sovrapposizioni (metodo 2) si verificase il cluster e formato da due o piu cromosomi adiacenti. Si cercano tra tuttele combinazioni di linee se ne esistono di tali da far ottenere tutte forme similiad un cromosoma singolo. Tra queste combinazioni si sceglie quella costituitadal minor numero di linee. Osservando per esempio la situazione presentata infigura 3.7(a), si vede un cluster di tre cromosomi, uno piu lungo, orizzontale edue piu piccoli attaccati sotto. Nella figura 3.7(b) si vedono tutte le linee retteche uniscono i punti concavi. In 3.7(c) e evidenziata la combinazione con minornumero di linee che segmenta il cluster in cromosomi singoli. Nelle tre successivefigure si vedono i segmenti separati.

20

Capitolo 3. Segmentazione dell’immagine

(a) Adiacenza (b) Ipotesi di tagli (c) Linee di adiacen-za

(d) Segmento indi-viduato

(e) Segmento in-dividuato

(f) Segmento individuato

Figura 3.7: Esempio di taglio

Metodo 4: Ricerca valli L’ultimo tentativo e ancora una ricerca di tratti diseparazione: questa volta pero non e richiesto, come nel metodo 1, che il puntoterminale del percorso piu scuro sia in una concavita. Inoltre la soglia massima digrigio che che il percorso non puo superare viene alzata. Si ottiene cosı un metodosimile al quello del punto 1, ma comunque piu efficace, anche se piu rischioso.

Se nessuno dei metodi precedenti ha avuto successo l’oggetto non viene sepa-rato.

Vediamo ora un caso particolare: puo succedere che, in seguito al thresholding,il blob abbia uno o piu buchi (figura 3.8(a)). Questi si manifestano ad esempioquando due cromosomi sono adiacenti in due punti. Se si verifica questa situazionesi puo usare il buco come suggerimento per predire dov’e la regione di adiacenza.Ecco quindi che, prima di tutti i metodi elencati finora, se ci sono buchi, si eseguela seguente ricerca: per ogni punto concavo del contorno si individua un percorsodi piu scuro all’interno del blob che arrivi a qualche apertura. Anche in questocaso, se piu di uno tra i percorsi individuati arriva a qualche apertura del blob,tra i percorsi candidati viene scelto quello che attraversa pixel mediamente piuscuri.

(a) Prima del taglio (b) Dopo il taglio

Figura 3.8: Esempio di apertura di un buco attraverso un tratto di separazione

21

Capitolo 3. Segmentazione dell’immagine

Il cluster viene tagliato lungo questo percorso scelto e il nuovo blob vienemesso nella coda da analizzare. La figura 3.8(b) mostra il risultato del taglio.

La figura 3.9 mostra il flow chart dell’algoritmo appena presentato.

3.3 Osservazioni

L’algoritmo proposto sfrutta per la segmentazione le seguenti informazioni:

• Il tono di grigio dei cromosomi rispetto allo sfondo.

• La presenza di “valli” tra cromosomi adiacenti.

• La presenza di punti concavi in corrispondenza di cluster.

• La forma degli oggetti.

I metodi che su ogni oggetto vengono tentati prendono ispirazione dai lavoridi Ji [15, 16] e Agam e Dinstein [2], ma la struttura algoritmica e molto diversa.Anche altre funzioni accessorie come l’estrazione dei punti concavi o dell’asse deglioggetti, affrontate nel capitolo 4, sono diverse da quelle che offre la letteraturasull’argomento.

L’idea di Ji di considerare la cellula nella sua interezza, e quindi di fare ri-ferimento al numero totale di cromosomi attesi al fine della segmentazione, ci esembrata impraticabile per il fatto che la variabilita di questo parametro e troppoalta.

22

Capitolo 3. Segmentazione dell’immagine

Thresholding

Elimina nuclei e residui

Labelling e contorni

Coda dei contorni

Estrai contorno

Cluster?

SI

Successo?

NO

Ricerca valli

Successo?

NO

Ricerca sovrapposizioni

Successo?

NO

Ricerca migliorcombinazione di linee

Successo?

NO

Ricerca valli

Successo?

NO

Fine

Blob risultante in coda

Apri i buchi

Blob risultanti in coda

Blob risultanti in coda

Blob risultanti in coda

SI

SI

SI

SI

SI

NO

Acquisisci immagine

Figura 3.9: Diagramma di flusso dell’algoritmo adottato

23

Capitolo 3. Segmentazione dell’immagine

(a) Immagine originale

(b) Dopo la segmentazione

Figura 3.10: Esempio di segmentazione

24

Capitolo 4

I metodi

In questo capitolo vengono analizzati in dettaglio i metodi di segmentazione adot-tati e le motivazioni che hanno portato ad alcune soluzioni piuttosto che altre.Verranno affrontati, in ordine: preprocessing, thresholding, eliminazione nuclei,estrazione dell’asse, valutazione della somiglianza di un oggetto ad un cromosomasingolo, estrazione curvatura e punti concavi, ricerca valli, ricerca sovrapposizionie ricerca migliore combinazione di linee.

4.1 Preprocessing

Le metafasi sono spesso sfuocate, con il primo piano poco distinto dallo sfondo. Laluminosita e omogenea e non presentano rumore di fondo. Il principale limite allasegmentazione e lo scarso contrasto; ecco perche la prima operazione di prepro-cessing e un contrast stretching. In particolare si utilizza una funzione puntualeper cui dall’immagine originale si ottiene una nuova immagine nella quale l’1%dei valori di intensita e saturato alle intensita minime e massime dell’immagineoriginale.

4.2 Thresholding

Il thresholding e un modo facile di ed efficace per effettuare la segmentazionebasandosi sulla differenza di intensita di grigio tra le regioni in primo piano e losfondo. L’ingresso di un processo di thresholding e nel nostro caso un’immagine intoni di grigio e l’uscita e un’immagine in bianco e nero. I pixel neri rappresentanolo sfondo e i pixel bianchi il primo piano. Nell’implementazione piu semplice lasegmentazione e determinata da un singolo parametro di soglia. In un singolopassaggio, ciascun pixel dell’immagine viene confrontato con questa soglia. Sel’intensita del pixel e superiore alla soglia, il pixel e settato a uno, ovvero bianco,nell’uscita. Se e minore, e settato a zero, cioe nero nell’uscita. Se g(x, y) el’immagine binarizzata dopo l’applicazione della soglia T all’immagine f(x, y),allora

g(x, y) =

{1 f(x, y) > T0 f(x, y) < T

(4.1)

E un metodo semplice e veloce e deve sottostare alle esigenze di “conservati-vita” e di capacita di separazione. Infatti maggiore conservativita, intesa come

25

Capitolo 4. I metodi

maggior numero di pixel assegnati a qualche oggetto, implica meno errori di sepa-razione. Maggiore capacita di separazione implica che ai metodi di segmentazionesuccessiva arriveranno casi meno complicati da risolvere.

Il problema maggiore del thresholding e che considera solamente l’intensita enessuna relazione tra pixel. Non c’e garanzia che i pixel identificati dal processodi segmentazione siano contigui. E possibile includere pixel estranei che non sonoparte della regione desiderata, oppure escludere pixel isolati all’interno di unaregione.

Un altro problema con il thresholding globale e che cambiamenti di illumina-zione nell’immagine potrebbero portare ad avere zone piu illuminate e altre piuin ombra. Nel presente caso comunque l’illuminazione delle immagini si presentacostante, quindi il problema non si pone.

4.2.1 Il metodo adottato

Il metodo di della soglia di Otsu [21] applicato all’immagine globale si e rive-lato troppo conservativo: molti pixel dello sfondo venivano classificati come pi-xel appartenenti all’oggetto. Per aumentare la selettivita si e scelto il seguentemetodo:

a. L’immagine viene suddivisa in regioni non sovrapposte di 100x100 pixel.

b. Per ogni regione si calcola la soglia di Otsu. Si ottiene in tal modo unamatrice di soglie, ognuna relativa ad una regione dell’immagine iniziale.

c. I valori di soglia vengono interpolati in modo bilineare per ottenere unamatrice di soglie della dimensione dell’immagine di partenza.

d. L’immagine di partenza viene confrontata con la matrice di soglie, ottenen-do l’immagine segmentata.

Poiche il thresholding e il primo metodo utilizzato nell’algoritmo proposto,un errore di oversegmentazione pesa di piu di una mancata segmentazione di uncluster. Infatti se un cluster non viene risolto si puo sperare che uno dei metodisuccessivi lo segmenti.

Al termine del thresholding si effettuano alcune operazioni morfologiche di mi-glioramento. La prima e un’erosione avente come elemento strutturale la matrice4.2(a) seguita da una dilatazione con elemento strutturale la matrice 4.2(b);

(a)

1 1 11 1 11 1 1

(b)

0 1 01 1 10 1 0

(c)

1 1 11 0 11 1 1

(4.2)

questa operazione modifica leggermente i bordi e separa i blob connessi unoall’altro da un solo pixel, come si vede in figura 4.1. Quindi si effettua un’a-pertura morfologica per eliminare i blob troppo piccoli. Infine sempre tramiteun’operazione morfologica, i buchi di 1 pixel, come il pixel centrale nel pattern4.2(c), vengono riempiti.

L’ultima operazione e il labelling, in cui a ogni blob 4–connesso viene assegnataun etichetta diversa.

26

Capitolo 4. I metodi

(a) Immagineoriginale

(b) Dopo l’ero-sione

(c) Dopo la dila-tazione

Figura 4.1: Separazione di blob connessi da 1 pixel

4.3 Eliminazione nuclei

Gli oggetti estranei presenti nelle metafasi sono solitamente dei nuclei. Questisi distinguono dai cromosomi per la loro area, molto piu grande, e per la formaarrotondata, come si vede in figura 4.2(a). Un’operazione morfologica di erosioneapplicata all’immagine binarizzata permette di individuare i pixel appartenentia questi blob ed escludere invece i pixel che appartengono ad oggetti simili acromosomi. In figura 4.2(c) si vede il risultato dell’erosione. Individuando nel-l’immagine binaria i pixel connessi a quelli selezionati e con un’operazione disottrazione si riescono ad escludere i nuclei dai seguenti stadi si segmentazione(figura 4.2(d)).

Spesso inoltre i nuclei occupano nell’immagine posizioni vicine al bordo. Lascelta e stata quella di escludere dalla segmentazione una cornice di 10 pixel dalbordo esterno e tutto cio che e ad essa connesso.

4.4 Estrazione dell’asse

L’estrazione dell’asse mediano e utile quando si vogliono ottenere delle caratte-ristiche di oggetti di forma allungata, dove la larghezza contiene poca (se nonnessuna) informazione utile (come ad esempio nel riconoscimento di caratteri oproprio nell’identificazione di pattern cromosomici). Gli algoritmi piu utilizza-ti nel caso in esame si fondano sul computo della Medial Axis Transformation(MAT) (Lerner [10], Moradi [3], Piper e Granum [6]). Il medial axis di una re-gione bidimensionale e definita come il luogo dei centri di tutti i cerchi di raggiomassimo inscritti nell’oggetto. Questa trasformazione morfologica restituisce loscheletro dell’oggetto; da questo, con qualche operazione che elimina i nodi, sipuo arrivare ad ottenere l’asse cromosomico.

In questo studio l’algoritmo utilizzato per il calcolo dell’asse e stato derivatoda uno simile utilizzato gia in ambito biomedico per effettuare il tracking deivasi sanguigni dell’occhio umano, ed adattato alle forme cromosomiche. L’asseche si ottiene e basato sulla rappresentazione binaria del cromosoma ed e tale daseguire la forma principale del blob, trascurando le escrescenze e i rami secondari.In figura 4.3 si vedono due esempi di blob e il relativo asse calcolato.

L’asse mediano viene utilizzato per valutare se l’oggetto in esame e un clustero un cromosoma singolo (si veda il paragrafo 4.5. Oltre a questo pero e utile ad

27

Capitolo 4. I metodi

(a) Immagine originale

(b) Dopo il thresholding

(c) Dopo l’erosione

(d) Dopo la sottrazione

Figura 4.2: Esempio di un’eliminazione di un nucleo

28

Capitolo 4. I metodi

estrarre quelle feature che serviranno alla classificazione, come il la lunghezza, ilcentromero e il banding pattern.

(a) Dopo il threshol-ding

(b) Asse mediano

Figura 4.3:

4.5 Conferma di cromosoma singolo

Due sono i lavori principali presenti in letteratura che affrontano tale argomento.Agam e Dinstein [2] osservano che, sebbene tutti i cromosomi variano in forma edimensioni, sono tutti accomunati da una stessa forma di base, quella di un rettan-golo che puo essere contratto e piegato in un punto. Usando questa osservazione,la valutazione del fit di un cromosoma al suo prototipo viene fatta costruendo unpoligono delimitante il cromosoma e calcolando il rapporto tra l’area del cromo-soma e quella del poligono. Ji [16] adotta invece una procedura basata su regolecostruite sull’assunzione che un cromosoma abbia approssimativamente lati pa-ralleli e larghezza costante eccetto che per il suo centromero. Misura il profilodi larghezza relativo all’asse e se questo cambia improvvisamente, l’oggetto vieneclassificato come cluster.

4.5.1 Il metodo adottato

Il presente lavoro si avvicina molto di piu a quest’ultimo approccio. Per distingue-re un cromosoma da un cluster, nucleo o qualche altro corpo estraneo si sfruttanole seguenti caratteristiche:

• L’area dei blob.

• La forma.

L’area viene confrontata semplicemente con due soglie massima e minimadeterminate a priori per via sperimentale.

Per quanto riguarda la forma, come gia accennato precedentemente, un cro-mosoma ha lati quasi paralleli, ovvero la distanza dell’asse dai bordi e approssi-mativamente costante. Come primo test si verifica se i “calibri” del blob, cioe ledistanze da un bordo all’altro lungo la direzione ortogonale all’asse siano entroun certo range di variazione lungo tutto l’asse mediano.

Un’ulteriore verifica sulla forma e la seguente: si procede a dilatare l’assemediano con un disco, il cui diametro e leggermente superiore della larghezzamedia dell’oggetto, e si sottrae al blob originale. Se una porzione sostanzialedell’oggetto rimane scoperta, l’oggetto non e classificato come cromosoma ma

29

Capitolo 4. I metodi

come cluster. In figura 4.4 si puo vedere un esempio di questa situazione. Lafigura 4.4(a) e il blob da valutare. In 4.4(b) si vede l’asse (linea continua). Infigura 4.4(c) l’asse dilatato (in grigio). Buona parte del cluster rimane scoperto(in bianco). In figura 4.4(c) e stato riportato l’andamento dei diametri del blobcalcolati lungo l’asse.

Il metodo di valutazione realizzato restituisce un voto del blob in esame. Seil blob e un cluster il voto e inferiore alla sufficienza. Se invece le due verifichefinora enunciate hanno esito positivo (calibri entro il range lungo tutto l’asse earea scoperta trascurabile) il blob ottiene la sufficienza. In quest’ultimo caso ilvoto e maggiore se l’andamento dei calibri ha andamento abbastanza costante.

4.6 Curvatura e punti concavi

Per determinare i punti concavi viene calcolata la curvatura del contorno. Indue dimensioni, se esprimiamo una curva per mezzo di due equazioni cartesianeparametriche y = y(t) e x = x(t), si definisce curvatura la derivata dell’arcotangenziale rispetto alla lunghezza dell’arco e si dimostra essere pari a:

k =x′y′′ − y′x′′

(x′2 + y′2)32

(4.3)

I contorni che si estraggono in seguito alla binarizzazione sono contorni discre-ti. E necessario che il metodo utilizzato per il calcolo sella curvatura prevenga ilrumore sulla curvatura dovuto alle fluttuazioni locali del contorno.

Shunren [4] e Agam e Dinstein [2] sfruttano una rappresentazione chain–code del contorno; i secondi utilizzano questo chain code per calcolare la K–inclinazione: l’inclinazione in ogni pixel della curva e definita come l’inclinazionedella linea che connette quel pixel con il pixel del contorno che sta K posizionipiu a destra. Dalla K–inclinazione calcolano la K–curvatura in un punto comela differenza tra la K–inclinazione in quel punto e la K–inclinazione del pixel cheoccupa sul contorno K posizioni piu a destra.

4.6.1 Il metodo adottato

Poiche il contorno e espresso dalle coordinate dei pixel che stanno sul bordo,per avere la funzione che approssima il contorno si e utilizzata una spline cubicaregolarizzata.

A questo punto la funzione curvatura viene filtrata delle componenti ad altafrequenza per trascurare fluttuazioni spurie. Le concavita del contorno corrispon-dono ora ai minimi locali della funzione filtrata. La figura 4.5(a) rappresenta unesempio di contorno di un blob. Sono evidenziati i punti concavi rilevati dal me-todo appena esposto. In 4.5(b) si puo osservare il grafico dell’andamento dellacurvatura, il suo spettro in frequenza spaziale e la curvatura filtrata.

4.7 Ricerca valli

La ricerca delle valli del tono di grigio e un metodo gia adottato in letteratura daJi nel 1989 [15, 16] ma anche piu recentemente da Karvelis nel 2005 [17]. Poiche

30

Capitolo 4. I metodi

(a) Cluster di due cro-mosomi

(b) Asse mediano (c) Asse dilatato (ingrigio)

0 5 10 15 20 25 30 355

10

15

20

25

30

35Diametri del blob

Dia

met

ri (p

ixel

)

Distanza sull’asse

(d)

Figura 4.4: Metodo per la valutazione di cromosoma singolo

31

Capitolo 4. I metodi

(a) Contorno e punticoncavi

0 50 100 150 200 250 300 350 400 450 500−0.5

0

0.5Curvatura

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

0.5

1Contenuto spettrale e risposta del filtro passa basso

0 50 100 150 200 250 300 350 400 450 500−0.2

−0.1

0

0.1

0.2Curvatura filtrata

(b) Funzione curvatura, suo contenuto spettrale e curvatura filtrata

Figura 4.5:

32

Capitolo 4. I metodi

le immagini che utilizzano sono in banda G, e quindi i cromosomi sono scuri susfondo chiaro, nei lavori citati gli autori si riferiscono a tali valli come “pale path”.Nel presente caso, cioe immagini in Q–banding in cui i cromosomi sono chiari susfondo scuro, tali tratti in corrispondenza di adiacenze sono piu scuri.

Dopo che sono stati individuati tutti i punti piu concavi del contorno, suognuno di questi viene avviato l’algoritmo di ricerca.

La direzione iniziale del percorso e quella ortogonale alla tangente del contor-no nel punto concavo. Nel punto corrente viene individuata una lista di punticandidati come mostrato in figura 4.6(a). L’intensita di ogni candidato vienepesata in modo tale che quelli situati nella direzione corrente sono favoriti. Unnuovo punto del cammino viene individuato scegliendo il candidato con il minorvalore di intensita. Infine, la direzione di ricerca viene aggiornata ogni d punti:se il punto corrente e indicato con Pn, la nuova direzione e quella che va da Pn−d

a Pn, come si vede in figura 4.6(b).

(a)

(b)

Figura 4.6:

Se il cammino giunge ad un pixel che supera una certa soglia di intensita laricerca termina. La soglia e stata posta pari all’intensita media del blob in esame.

A questo punto e stato individuato un cammino per ogni punto concavo.Quelli che non terminano su un punto del contorno vengono scartati. Per ognicammino valido viene calcolata la media di intensita dei pixel che attraversa;quello con media minore e il cammino sul quale viene applicato il taglio del blob.

Il metodo appena esposto viene utilizzato tre volte nell’algoritmo di segmen-tazione presentato nel capitolo 3: per aprire i buchi (Vedi figura 3.8); per tagliareil cluster da una parte all’altra del contorno imponendo che anche il punto diarrivo sia concavo; come ultimo metodo tentato, ma senza imporre questa voltache anche il secondo punto stia in una concavita del contorno.

33

Capitolo 4. I metodi

4.8 Ricerca sovrapposizioni

I metodi della ricerca delle sovrapposizioni e della miglior combinazione di taglidel paragrafo 4.9 sono ispirati al lavoro di Agam e Dinstein [2].

Per la determinazione delle linee di separazione, tutte le possibili coppie dipunti concavi vengono prese in considerazione. Il set iniziale delle possibili lineedi separazione e ottenuto prendendo tutte le combinazioni di due punti. Daquesto si escludono prima di tutto quelle che non giacciono totalmente all’internodell’oggetto. L’insieme delle linee viene quindi ridotto introducendo un vincoloaggiuntivo: si impone che la distanza tra i vertici delle linee di separazione debbaessere piccola relativamente alla distanza tra i vertici calcolata lungo il contorno.

Questo insieme di linee viene usato per la ricerca delle sovrapposizioni. Unasovrapposizione e individuata da quattro linee disposte a formare un quadrilateroche deve soddisfare alcuni vincoli: i lati non devono essere ne troppo lunghi netroppo corti; i lati opposti non devono essere ne troppo vicini ne troppo lontani;i lati opposti devono essere approssimativamente paralleli.

Puo succedere che la ricerca restituisca piu sovrapposizioni per uno stessocluster. L’ipotesi vincente e quella in cui gli angoli del quadrilatero si avvicinanodi piu a 90◦.

4.8.1 Misura degli angoli e delle distanze

Per il calcolo degli angoli e delle distanze tra le linee di taglio sono state utilizzatele seguenti formulazioni e notazioni.

Sia data un’immagine A = {ai,j} di dimensioni Nr ·Nc. Si definisca una lineaorientata come una coppia di punti (ak,l, am,n) tale che

(k ·Nc + l) ≥ (m ·Nc + n) (4.4)

In questo modo la linea e orientata nel piano e si puo definire l’angolo Θ(ak,l, am,n)ad essa associato come:

Θ(ak,l, am,n) = arccos(n− l)√

(n− l)2 + (m− k)2con 0 < Θ ≤ π (4.5)

A questo punto, definendo una coppia orientata di linee:

(ak1,l1 , am1,n1), (ak2,l2 , am2,n2)|

(k1 ·Nc + l1) ·Nr ·Nc + (m1 ·Nc + n1) ≥(k2 ·Nc + l2) ·Nr ·Nc + (m2 ·Nc + n2)

(4.6)

si puo considerare come distanza tra le due linee la seguente quantita:

∣∣∣∣∣∣(n1 − l1)(k2 − k1)− (l2 − l1)(m1 − k1)√

(n1 − l1)2 + (m1 − k1)2

∣∣∣∣∣∣(4.7)

34

Capitolo 4. I metodi

4.9 Ricerca miglior combinazione di tagli

Se la ricerca di sovrapposizioni non ha avuto successo si ipotizza che il clusterin esame sia formato dall’adiacenza di due o piu cromosomi. Ecco quindi che, apartire dallo stesso set di linee costruito per individuare le sovrapposizioni, iniziala ricerca. Una per una si prova ogni linea di taglio e si verifica, usando la funzionedi valutazione del paragrafo 4.5, se entrambe le parti risultanti sono cromosomisingoli. Quindi si provano tutte le permutazioni possibili di due linee di taglio e siverifica se le parti risultanti (che ora sono tre) sono cromosomi singoli. Si arrivaa testare combinazioni di tre linee di taglio. La combinazione vincente sara, traquelle con minor numero di linee, quella che porta ad una somma dei punteggidelle parti ottenute maggiore.

Poiche questo metodo di verifica e valutazione e molto oneroso dal puntodi vista computazionale, e opportuno che le ipotesi di taglio siano le minimeindispensabili. Ecco perche si scartano le combinazioni in cui le linee di tagliohanno punti in comune. E anche questo il motivo per cui la ricerca si ferma apermutazioni di tre linee di taglio.

35

Capitolo 4. I metodi

36

Capitolo 5

Conclusioni

Lo scopo della tesi era lo sviluppo di un sistema di per la segmentazione automa-tica di metafasi, il primo passo per realizzare un software di cariotipizzazione.

Il sistema e stato realizzato utilizzando piu metodi di segmentazione adattatialle immagini cromosomiche e si limita a metafasi in banda Q.

I risultati saranno presentati nelle sezioni successive.

5.1 Valutazione risultati e indici

In questo paragrafo verranno elencati alcuni lavori che affrontano lo stesso argo-mento e presentate le loro prestazioni. Tutti lavori che verranno citati utilizzanocome primo metodo di segmentazione un thresholding dell’immagine. Allo scopodella valutazione delle performance e utile definire un cluster come un gruppodi due o piu cromosomi che il thresholding non ha segmentato. Vediamo ora irisultati dei metodi proposti in passato.

Ji nel 1989 [15] esegue un test su 458 cluster di cromosomi adiacenti conbandeggio G. Il 95% di questi viene segmentato correttamente.

Agam et al. nel 1997 [2] valutano le prestazioni su 25 metafasi con 1150 cro-mosomi, non indicano il tipo di bandeggio utilizzato. Il numero di cluster checomporta il loro thresholding e di 124. Il 73% dei cluster includono due cromoso-mi, il 20% tre, il 7% quattro o piu. L’82% dei cluster e separato correttamente. Sipuo calcolare che approssimativamente, su 1150 cromosomi, 70 sono segmentatiin modo errato.

Lerner nel 1998 [10] si limita a casi di adiacenza e non considera le sovrap-posizioni. Non indica il tipo di bandeggio su cui lavora, ma e probabile che siabandeggio G. Introduce un metodo CPOOS (classification–driven partially oc-cluded object segmentation) in cui la segmentazione e guidata dal risultato dellaclassificazione. Utilizza solo parti di immagini che includono cluster di cromosomiadiacenti e parzialmente sovrapposti. Valuta le prestazioni su 46 cluster e ottieneuna segmentazione corretta dell’82% di essi.

Karvelis et al. nel 2005 [17] effettuano il test su 940 cromosomi dei qualinon si conosce il tipo di bandeggio; dopo il thresholding si ha che 515 sonoisolati, 396 adiacenti, 29 sovrapposti. Non considerano il problema dei cromosomisovrapposti. Indicano che sul totale dei cromosomi, il 93% viene correttamenteseparato.

37

Capitolo 5. Conclusioni

I primi tre lavori valutano le prestazioni nel seguente modo: in base all’im-magine binaria che risulta dal thresholding calcolano il numero di cluster, cioei gruppi di cromosomi non risolti dal thresholding. Quindi vedendo il risultatofinale del loro sistema di segmentazione determinano la seguente quantita:

cluster separati

totale cluster elaborati(5.1)

Questo indice valuta pero solamente la bonta degli stadi successivi al thre-sholding. Si ritiene che un indice di bonta piu significativo sia quello usato daKarvelis:

cromosomi correttamente separati

numero totale cromosomi analizzati(5.2)

in quanto tiene conto anche dell’efficacia del thresholding. Potranno poi esserevalutate anche le quantita:

cromosomi separati erroneamente

numero totale cromosomi analizzati(5.3)

e

cromosomi non separati

numero totale cromosomi analizzati(5.4)

Un’ulteriore fonte di errore sono quelle parti di immagini che non sono cro-mosomi ma che vengono interpretate tali dal software (ad esempio i residui distaining o i nuclei). Si puo introdurre quindi anche il seguente indice:

falsi positivi

numero totale immagini analizzate(5.5)

E molto importante notare che tutti questi indici hanno comunque scarsavalidita se valutati su data set differenti, come in questo caso. Per questo mo-tivo sarebbe utile diffondere un data set comune o quantomeno avere un indicestandard che misuri la difficolta di segmentazione associata ad un immagine. Unesempio potrebbe essere il seguente DI (Difficulty Index):

DI =cromosomi coinvolti in cluster dopo thresh. con soglia di Otsu

numero totale di cromosomi(5.6)

Valori piu alti del DI indicano immagini piu difficili da segmentare in quantopiu cromosomi sono coinvolti in cluster.

Nella tabella 5.1 sono presentati i risultati del test effettuato. Il data set ecostituito da 30 metafasi. Per ogni immagine analizzata si vede: in colonna 2il numero totale di cromosomi presenti nell’immagine; in colonna 3 il numero dicromosomi per i quali il programma ha fallito: o perche ha segmentato in modoerrato (colonna 4) o perche il cromosoma non e stato segmentato (colonna 5).La colonna 6 e il numero di falsi positivi presenti nell’immagine. La colonna 7rappresenta il numero di cluster ottenuto con un thresholding globale con soglia diOtsu e serve al calcolo dell’indice DI appena definito e indicato in colonna 12. In

38

Capitolo 5. Conclusioni

imm

agin

eto

tcr

o-m

osom

i

erra

tie

non

sepa

rati

erra

tino

nse

para

tifp

crom

osom

iin

clus

ter

(Ots

uth

resh

.)

clus

ter

clus

ter

segm

en-

tati

clus

ter

diad

iace

nze

clus

ter

diad

iace

nze

segm

en-

tati

DI

143

00

02

21

11

10.

052

400

00

22

11

11

0.05

339

00

01

00

00

00

436

30

30

94

42

20.

255

453

03

03

00

00

0.07

643

00

01

91

10

00.

217

467

25

04

22

22

0.09

846

40

40

21

11

10.

049

462

02

46

10

10

0.13

1046

20

20

183

23

20.

3911

444

04

115

53

53

0.34

1246

00

00

92

22

20.

2013

462

02

114

32

21

0.30

1445

00

02

288

88

80.

6215

460

00

02

11

11

0.04

1646

00

01

144

44

40.

3017

463

30

018

54

33

0.39

1846

00

01

186

64

40.

3919

464

22

029

77

33

0.63

2045

10

10

73

32

20.

1621

461

01

15

11

11

0.11

2246

00

00

126

64

40.

2623

444

40

028

88

44

0.64

2446

00

00

217

74

40.

4625

462

02

034

109

76

0.74

2646

44

00

3312

1110

100.

7227

466

42

119

63

43

0.41

2846

00

00

155

53

30.

3329

462

02

013

43

11

0.28

3046

00

00

124

42

20.

26Tot

ale

1344

5419

3518

401

121

109

8578

8.86

Med

ia44

.81.

80.

631.

170.

6013

.37

4.03

3.63

2.83

2.6

0.3

Tab

ella

5.1:

Ris

ult

atidel

lase

gmen

tazi

one

39

Capitolo 5. Conclusioni

(a)autore anno cromosomi segmentatiKarvelis 2005 93 %

Sistema proposto 2006 96 %

(b)autore anno cluster segmentati

Agam et al. 1997 82 %Sistema proposto 2006 90 %

(c)

autore annocluster di adia-cenze segmentati

Ji 1989 95 %Lerner 1998 82 %

Sistema proposto 2006 92 %

Tabella 5.2:

colonna 8 c’e il numero di cluster non segmentati dal thresholding da noi utilizzato(vedi paragrafo 4.2) e in colonna 9 compare il numero di quelli correttamentesegmentati dai metodi successivi. Le colonne 10 e 11 rappresentano i medesimiconteggi delle colonne 8 e 9 ma si restringono ai cluster formati da adiacenze.

Dalle prime due colonne si ha che, per un totale di 1344 cromosomi ana-lizzati, su 54 di questi il software ha fallito. Il 96% e stato invece segmentatocorrettamente.

Dalle colonne 8 e 9 si puo calcolare la prestazione dei metodi di segmenta-zione successivi al thresholding. Su un totale di 121 cluster che risultano dalthresholding, 109 vengono segmentati correttamente (90%).

Dalle colonne 10 e 11 si ha che, limitatamente ai cluster formati da soleadiacenze, i cluster segmentati rispetto al totale sono il 92%.

Le prestazioni sono confrontate nella tabella 5.2. La differenziazione e dovutaal fatto che i diversi autori usano indici diversi per valutare la segmentazione. Siripete che tali risultati sono poco indicativi in quanto non ottenuti dallo stessodata set.

Sarebbe stato utile, sia al fine della valutazione delle prestazioni, ma ancheper avere un’idea sull’attuale stato dell’arte dell’elaborazione di immagini cromo-somiche, disporre di qualche software in uso attualmente nei laboratori; questonon e stato possibile.

5.2 Proposte di sviluppo

Viste le buone prestazioni del metodo proposto in termini di segmentazione sipuo pensare di adottarlo per il sistema automatico di cariotipizzazione.

Per l’impossibilita di avere un metodo che funzioni sempre e senza erro-ri, occorre prevedere che l’utente possa sempre interagire con il processo disegmentazione.

Infine e da notare che i risultati della segmentazione potrebbero essere ulte-riormente migliorati in un sistema per la cariotipizzazione automatica, combinan-

40

Capitolo 5. Conclusioni

do il processo di verifica delle ipotesi di tagli con il processo di riconoscimentocromosomico.

41

Appendice A

Il prototipo

A.1 Prestazioni

L’algoritmo e i vari metodi proposti sono stati implementati con Matlab R14.L’esecuzione di una segmentazione su una singola immagine con un Pentium IV1.70 GHz, 512 MB richiede circa 100 secondi. Sono state utilizzate 30 immaginidigitali di cromosomi in metafase, con bandeggio Q, di dimensioni 576x768 pixel.

A.2 Problemi

Vediamo ora alcuni problemi che presenta il software implementato.

Il thresholding utilizzato separa in blocchi l’immagine, com’e stato spiegatonel paragrafo 4.2. Se uno dei blocchi non presenta cromosomi puo succedereche la soglia individuata sia troppo bassa e e ombre vengono classificate comeblob, portando a dei falsi positivi. Si pensa che introducendo un’altra soglia, inaggiunta a quella determinata con il metodo esposto, possa facilmente risolvereil problema.

La scelta di escludere dalla segmentazione una cornice di 10 pixel porta adavere falsi negativi. Poiche questa operazione e stata introdotta per escluderedalla segmentazione principalmente quei nuclei che si trovano sul bordo dell’im-magine, una soluzione sarebbe quella di migliorare la rilevazione di tali nuclei,magari basandosi su alcune loro caratteristiche specifiche (contorno frastagliato,intensita di grigio).

Per aumentare le prestazioni nella rilevazione di sovrapposizione si potrebbetestare la soluzione che Ji adotta in [16], ossia di considerare anche i nodi delloscheletro (vedi figura 3.1).

Molti degli errori del software sono dovuti al fatto che dei cluster vengonoconfusi con cromosomi singoli e viceversa. Si dovrebbe cercare di migliorare ilpiu possibile le prestazioni della funzione di valutazione esposta nel paragrafo 4.5.

42

Bibliografia

[1] ISCN, ISCN 2005 An International System for Human CytogeneticNomenclature (2005). Cytogenetic and Genome Research, 2005.

[2] G. Agam and I. Dinstein, “Geometric separation of partially overlappingnonrigid objects applied to automatic chromosome segmentation,” IEEETrans. Pattern Anal. Mach. Intell., vol. 19, pp. 1212–1222, November 1997.

[3] M. Moradi and S. Setarehdan, “New features for automatic classificationof human chromosomes: a feasibility study,” Pattern Recognition Letters,pp. 19–28, 2006.

[4] Shunren, Weidong, and Yutang, “Two intelligent algorithms applied toautomatic chromosome incision,” IEEE ICASSP, no. 3, pp. 697–700, 2003.

[5] Wu and Wang, “The effect of image enhancement on biomedical pat-tern recognition,” Proceedings of the second joint EMBS/BMES conference,pp. 1067–1069, October 2002.

[6] J. Piper and E. Granum, “On fully automatic feature measurement forbanded chromosome classification,” Cytometry, vol. 10, pp. 242–255, 1989.

[7] N. Sweeney, R. Becker, and B. Sweeney, “A comparison of wavelet and fourierdescriptors for a neural network chromosome classifier,” Proceed. of the 19thInt. Conf. IEEE/EMBS, pp. 1359–1362, 1997.

[8] S. Delshadpour, “Reduced size multi layer perceptron neural network forhuman chromosome classification,” EMBC, pp. 2249–2252, 2003.

[9] L. Guimaraes, A. Schuck, and A. Elbern, “Chromosome classificationfor karyotype composing applying shape representation on wavelet packettransform,” EMBC, pp. 941–943, 2003.

[10] B. Lerner, “Toward a completely automatic neural–network based humanchromosome analysis,” IEEE Trans. on Sistems, Man and Cybernetics,vol. 28, pp. 544–552, 1998.

[11] B. Lerner, “A classification driven partially occluded object segmentationmethod with application to chromosome analysis,” IEEE Trans. on signalprocessing, vol. 46, no. 10, pp. 2841–2847, 1998.

[12] M. Moradi, “Automatic landmark detection on chromosomes’ images forfeature extraction purposes,” Proceed. of the 3rd Int. Sympos. on Image andSig. Proc. and Anal., pp. 567–570, 2003.

43

BIBLIOGRAFIA

[13] Cho, “Chromosome classification using backpropagation neural network,”Engineering in medicine and biology, pp. 28–34, 2000.

[14] E. Granum and M. Thomason, “Automatically inferred markov network mo-dels for classification of chromosomal band pattern structures,” Cytometry,no. 11, pp. 26–39, 1990.

[15] L. Ji, “Intelligent splitting in the chromosome domain,” Pattern Recognition,vol. 22, no. 5, pp. 519–532, 1989.

[16] L. Ji, “Fully automatic chromosome segmentation,” Cytometry, vol. 17,pp. 196–208, 1994.

[17] P. Karvelis, “Segmentation of chromosome images based on a recursi-ve watershed transform,” European Medical and Biological EngineeringConference, 2005.

[18] G. Charters and J. Graham, “Trainable grey–level models for disentanglingoverlapping chromosomes,” Pattern Recognition, vol. 32, pp. 1335–1349,1999.

[19] R. Gonzalez and R. Woods, Digital image processing. Prentice Hall,second ed., 2002.

[20] G. Charters and J. Graham, “Disentangling chromosome overlaps by com-bining treinable shape models with classification evidence,” IEEE Trans. onSignal Processing, vol. 50, no. 8, pp. 2080–2085, 2002.

[21] N. Otsu, “A threshold selection method from gray level histograms,” IEEETrans. Systems, Man and Cybernetics, vol. 9, pp. 62–66, mar 1979. minimizeinter class variance.

44