curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint...

153
1 Bibliografie selectivă [1] P.Bourret,J.Reggia,M.Samuelides," Réseaux neuronaux, une aproche connexioniste de l’Intelligence Artificielle",Teknea Toulouse,1991 [2] I.Ciocoiu "Reţele neurale artificiale", 2000 [3] L.O.Chua and T.Roska "Cellular Neural Networks. Premiries and Foundations ", Notes course Berkeley,1997 [4] D.Dumitrescu, H.Costin, "Retele Neuronale", Editura Teora, 1996 [5] S.Haykin "Neural Networks" Mcmillan Publishing Co.,Englewood Cliffs,1994 [6]Hervé Abdi,"Les Réseaux de neurones ", Presses Universitaire de Grenoble, 1994 [7] Hecht-Nielsen "Neurocomputing" Addison-Wesley Publishing Company, 1990 [8] T.Kohonen “Self-organisation and Associative Memory”, Springer Verlag, Berlin Heidelberg, 1989 [9] B.Kosko "Neural Networks and Fuzzy Systems",Prentice Hall, Englewood Cliffs, NJ,1992 [10] T.Roska and J.Vandewalle "Cellular Neural Networks" John Wiley & Sons Ltd.,1993 [11] I.Zurada " Introduction to Artificial Neural Systems. Learning and Applications”,West Publishing Co.,Wien,1992 [12] ***"Student Edition of Mathlab V4, User's Guide, Prentice Hall, Englowood Cliffs, NJ, 1995 [13]Yu Hen Hu, Jeng-Neng Hwang, Handbook of Neural Networks. Signal Processing, CRC Press, 2002 Reviste " IEEE Communications Magazine" " IEEE Transactions on Communications" " IEEE Transactions on Circuits and Systems" " IEEE Transactions on Neural Networks" "Neural Computation" " IEEE Transactions on Communications" " IEEE Transactions on Networking"

Transcript of curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint...

Page 1: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

1

Bibliografie selectivă [1] P.Bourret,J.Reggia,M.Samuelides," Réseaux neuronaux, une aproche connexioniste de

l’Intelligence Artificielle",Teknea Toulouse,1991 [2] I.Ciocoiu "Reţele neurale artificiale", 2000 [3] L.O.Chua and T.Roska "Cellular Neural Networks. Premiries and Foundations ", Notes

course Berkeley,1997 [4] D.Dumitrescu, H.Costin, "Retele Neuronale", Editura Teora, 1996 [5] S.Haykin "Neural Networks" Mcmillan Publishing Co.,Englewood Cliffs,1994 [6]Hervé Abdi,"Les Réseaux de neurones ", Presses Universitaire de Grenoble, 1994 [7] Hecht-Nielsen "Neurocomputing" Addison-Wesley Publishing Company, 1990 [8] T.Kohonen “Self-organisation and Associative Memory”, Springer Verlag, Berlin Heidelberg,

1989 [9] B.Kosko "Neural Networks and Fuzzy Systems",Prentice Hall, Englewood Cliffs,

NJ,1992 [10] T.Roska and J.Vandewalle "Cellular Neural Networks" John Wiley & Sons Ltd.,1993 [11] I.Zurada " Introduction to Artificial Neural Systems. Learning and Applications”,West

Publishing Co.,Wien,1992 [12] ***"Student Edition of Mathlab V4, User's Guide, Prentice Hall, Englowood Cliffs,

NJ, 1995 [13]Yu Hen Hu, Jeng-Neng Hwang, Handbook of Neural Networks. Signal Processing,

CRC Press, 2002 Reviste " IEEE Communications Magazine" " IEEE Transactions on Communications" " IEEE Transactions on Circuits and Systems" " IEEE Transactions on Neural Networks" "Neural Computation" " IEEE Transactions on Communications" " IEEE Transactions on Networking"

Page 2: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

2

1. Introducere În 1876 experimentul lui Alexander Graham Bell care demonstra că vocea poate fi transmisă la distanţă pe cabluri de cupru a marcat naşterea telecomunicaţiilor. Zece ani mai târziu erau 155.000 de telefoane în uz în SUA.

Telecomunicaţiile au avut o evoluţie fără precedent în ştiinţă, de la comutarea de circuite la comutarea de pachete de mare viteză, de la transmisiile prin cablurile de cupru la cele prin fibre optice, prin satelit şi comunicaţiile mobile. În prezent suntem martori ai unei revoluţii tehnologice care va reconfigura întreaga infrastructură, atât a telecomunicaţiilor cât şi a informaticii. Creşterea volumului de informaţii vehiculate pe canalele de comunicaţii, cererea de noi servicii şi aplicaţii la viteze din ce în ce mai mari, de ordinul gigabiţilor pe secundă (sau chiar Tbiţilor au determinat înlocuirea reţelei de telecomunicaţii cu un sistem digital avansat B-ISDN (Broadband Integrated Services Digital Network). Videoteleconferinţa , comunicaţiile multimedia, televiziunea de înaltă definiţie, comunicaţiile la distanţă interumane însoţite de realitate virtuală (telemedicină, învăţământul la distanţă), servicii de comunicaţii personale sunt câteva exemple de servicii care necesită integrarea reţelelor telefonice cu reţelele de calculatoare, pentru a se putea asigura transmisia atât a semnalelor continue video /audio cât şi a celor numerice. 2. Caracteristicile reţelelor moderne de comunicaţii

Reţelele moderne de comunicaţii, au un număr de mii de noduri, cu diferite tipuri de surse, diferite tipuri de trafic, care deservesc un număr variabil, foarte mare de utilizatori. Reţelele care erau în principal orientate pe îmbunătăţirea serviciilor vocale au evoluat spre comunicaţiile multimedia. S-a încetăţenit opinia că multimedia şi videoconferinţele vor reprezenta preponderent traficul viitorului. Toate aceste servicii necesită o bandă largă de frecvenţe ocupate. Există aplicaţii ca de exemplu bazele de date geospaţiale care consumă chiar mai multă bandă decât comunicaţiile multimedia. Comunicaţiile interumane, ca educaţia şi telemedicina, însoţite de realitate virtuală necesită nu numai o bandă foarte mare dar şi parametrii care definesc calitatea serviciului satisfăcători (QoS quality of service).

Deci scopul BISDN este să ofere o paletă largă de servicii unui număr cât mai mare, variabil de utilizatori, la diferite viteze (rate de bit) într-o manieră eficientă şi la un preţ accesibil. BISDN trebuie să asigure integrarea reţelelor prin satelit cu reţelele mobile, celulare şi cu reţelele terestre. BISDN trebuie să garanteze compatibilitatea componentelor, conectivitate totală (global roaming) în condiţiile unei capacităţi cât mai mari de transmisie, a unei viteze de procesare în timp real şi a satisfacerii parametrilor QOS. Vorbim în prezent de o generaţie 3 a sistemelor de transmisie şi se prefigurează deja generaţia 4G. Sistemele de comunicaţie curente suportă aplicaţii multimedia şi INTERNET. Ca de exemplu, sistemul Spaceway asigură o legătură de transmisie în jos cu viteze de până la 100Mb pe secundă şi o capacitate totală de 4,4 Gb/s.

Page 3: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

3

O tehnologie cheie pentru B-ISDN, o reprezintă modul de transfer asincron, al informaţiei ATM (Asynchronus Transfer Mode), prin care informaţia este segmentată în pachete de lungime fixă numite celule, ceea ce facilitează comutarea de mare viteză.

O celulă reprezintă doar o parte din blocul de date de transmis. Fiecare celulă are un antet care determină destinaţia, permiţând astfel o rutare transparentă prin reţea. Celula conţine pe lângă adresa destinaţie şi alte informaţii necesare pentru o mai bună circulaţie a acesteia prin canalul de comunicaţie. Celulele nu sunt preasignate, ele sunt asignate şi transmise prin multiplexare în timp la cererea utilizatorului. În reţelele ATM, comunicaţia este orientată pe conexiune, utilizând circuitul virtual la nivelul cel mai de jos. Transmisia ATM nu este limitată la un tip de mediu de transmisie, putând fi utilizată în toate mediile de comunicaţie existente, cablu coaxial, cablu torsadat, fibre optice. Organizaţia ATM Forum recomandă folosirea următoarelor interfeţe fizice pentru ATM: FDDI, Fiber Channel, SONET, Frame Relay şi X.25.

Tehnologia ATM îndeplineşte câteva dintre obiectivele majore ale BISDN: suportă toate serviciile existente în prezent, asigură o utilizare eficientă a resurselor reţelei, minimizează timpul de procesare în nodurile intermediare, suportă viteze mari de transmisie, garantează performanţele necesare pentru aplicaţiile existente.

În ceea ce priveşte dezvoltarea ulterioară a reţelelor de comunicaţii există mai multe scenarii care toate au la bază transmisiile prin satelit, fie că utilizează tehnica ATM, fie protocoalele INTERNET. Reţeaua globală trebuie să integreze reţele ATM cu Internetul, după cum se poate observa din arhitecturile prezentate în paragraful ……[].

3. Caracteristicile traficului într-o reţea de comunicaţii Principala caracteristică a traficului este că aproape toţi parametrii săi variază, respectiv

numărul utilizatorilor, topologia reţelei, ratele de transfer ale informaţiei, lăţimea de bandă necesară. Astfel încât cerinţele transmisiei diferă în funcţie de nivelele de servicii oferite utilizatorilor.

Vocea împachetată necesită o bandă relativ redusă dată de o viteză de transmisie de aproximativ 8 kb/s, dar necesită o întârziere redusă pentru a asigura calitate la destinaţie.

Traficul video necesită o bandă mai largă, dată de o transmisie de 128-384 kb/s şi de asemenea o întârziere redusă în transmisie.

Traficul de date, respectiv de fişiere sau email poate accepta latenţă în transmisie fără deprecierea parametrilor QOS. Emailul necesită bandă redusă, dar transmisia de fişiere necesită bandă largă.

Traficul se desfăşoară în rafale şi modelarea sa este posibilă doar în anumite condiţii de constrângere şi pentru aplicaţii specifice. Presupunerea făcută în reţeaua telefonică a distribuţiei Poisson s-a demonstrat neviabilă în transmisia de date. În teoria curentă şi în practică încă domină modelele exponenţiale, care însă s-au demonstrat a fi adecvate doar la o scară limitată de timp. Nici unul dintre aceste modele nu este capabil să ilustreze exact proprietăţile traficului real. Limitările algoritmilor convenţionali se datorează în special necesităţii modelării exacte a problemei, ceea ce este foarte dificil de realizat în condiţiile complexe ale traficului real. Fig.2 prezintă comparativ traficul pe baza modelului Poisson şi cel real, de tip J PEG (Joint Photographic Expert Group), adică digitizat şi comprimat, al unei secvenţe din

Page 4: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

4

filmul Star Wars, la diferite scale de timp. Ambele secvenţe sunt prezentate din punctul de vedere al celulelor ATM, în coordonate număr de celule / interval de timp. Pe coloana întâi reprezentarea este din punctul de vedere la slot-ului. Slotul este intervalul de timp egal cu timpul de transfer al unei celule ATM.

Coloana doi reprezintă aceleaşi secvenţe cu scala de timp schimbată, unitatea fiind slice-ul. Slice-ul corespunde la a treizecea parte dintr-un cadru.

A treia coloană reprezintă traficul din punctul de vedere al cadrului. Fig.2 Traficul ATM (a)-(c) conform unui model Poisson (d)-(e) secvenţă JPEG din filmul Star Wars Ce se poate constata?. În general că există mari diferenţe. Rafalele traficului real

apar la momente de timp care nu corespund modelului Poisson. Traficul Poisson se netezeşte pe măsură ce intervalul de timp creşte. Dimpotrivă, traficul real este şi la o scală de timp mai mare tot în rafale, aşa cum era la scală redusă. Forma de bază a traficului a rămas neschimbată.

Deoarece traficul real are rate mari de variaţie şi este în rafale, el este complet diferit

de imaginea ideală (statică) a teletraficului din perioada telefoniei statice. În plus, în permanenţă apar servicii noi , cu caracteristici de trafic diferite, cereri

QOS diferite de la reţeaua de telecomunicaţii. Obiectivul strategiei administrării eficiente ATM este un înalt grad de utilizare, în timp ce se menţine calitatea serviciilor. Proiectarea unei astfel de strategii utilizând tehnicile de programare tradiţionale nu poate fi eficientă datorită gradului mare de complexitate. Este

Page 5: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

5

necesară o schimbare radicală de opinie, în sensul abandonării teoriei aşteptării, cu o matematică exactă. Este necesar să se înţeleagă calitativ implicaţiile caracteristicilor dominante ale traficului măsurat. Pentru a urmări şi controla parametrii traficului trebuie să se elaboreze rutine noi şi complexe. Acestea au nevoie de o enormă cantitate de procesare, viteză de calcul şi control în timp real.

În acest context, reţelele de comunicaţii ale viitorului trebuie să fie sisteme adaptive şi inteligente, pentru a asigura flexibilitatea şi fiabilitatea reţelei, predicţia exactă a parametrilor traficului, utilizarea eficientă a canalului disponibil, administrarea optimizată în raport cu diferite medii, într-o permanentă dinamică. În concluzie, nu modelarea stohastică şi analiza cozii de aşteptare reprezintă răspunsul problemelor complexe pe care le ridică traficul modern ci tehnicile inteligente, ca de exemplu reţelele neuronale.

4. Parametrii de calitate ai serviciilor Parametrii de calitate ai serviciilor , definiţi de Forumul ATM, sunt parametrii

tehnici asociaţi unei conexiuni pentru un mai bun control al traficului. Printre aceştia cei mai importanţi sunt:

• rata de pierdere a celulelor (CLR cell loss rate) reprezintă procentul de celule care nu au fost livrate la destinaţie, fiind pierdute în reţea datorită congestiei şi supraîncărcării cozilor de aşteptare;

• rata de vârf a celulelor (PCR peak cell rate) este rata maximă de celule la care poate transmite utilizatorul;

• rata întreţinută a celulelor (SCR sustained cell rate) reprezintă rata medie de transmisie a celulelor pe durata unei conexiuni;

• întârzierea celulei datorată transferului (CTD cell transfer delay) este suma tuturor întârzierilor unei celule de la intrarea în reţea până la punctul de ieşire (întârzieri de propagare în cozile de aşteptare);

• variaţia întârzierii celulei (CDV cell delay variation) este variaţia întârzierilor în transferul unei celule de la intrarea în reţea până la punctul de ieşire; Scopul managementului resurselor reţelei de comunicaţii din punctul de vedere al

parametrilor QOS este să împartă eficient accesul la resursele disponibile între diferitele tipuri de trafic, menţinând parametrii QOS.

Reţelele oferă două tipuri de servicii: garantate şi cu "best effort", adică cu cel mai bun efort. Pentru serviciile cu parametrii QOS garantaţi, reţeaua garantează parametrii diferiţilor utilizatori, adică minimul, maximul, un prag specificat. În serviciile cu "best effort" parametrii QOS sunt în funcţie de starea reţelei. Transmisia emailu-lui este astfel asigurată. Nu există nici o garanţie a parametrilor serviciilor.

5. Sisteme de comunicaţii prin satelit Sistemele de comunicaţii 4G trebuie să asigure procesare în timp real, de mare viteză,

servicii multimedia interactive, deci mai puţine toleranţe la erori şi întârzieri. Ele trebuie să funcţioneze la anumiţi parametrii QOS şi să asigure integrare şi compatibilitate între componente. În prezent atenţia cercetătorilor se concentrează asupra transmisiilor prin satelit, considerându-le parte integrantă a autostrăzii informaţionale.

Page 6: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

6

Trendul în sistemele 4G este spre o reţea globală ce oferă servicii multimedia flexibile utilizatorilor, la cerere, oricând şi oriunde.

Sistemele de transmisie de bandă largă, prin satelit pot fi bazate pe tehnologia ATM, cu OBP şi OBS sofisticate şi legături intersateliţi, sau pe transpondere (bent-pipe transponder relays). Proiectarea depinde de factori ca : acoperirea, cerinţele traficului, utilizator şi nu în ultimul rând, costul.

Amplasarea sistemelor prin satelit poate fi pe orbite: geostaţionare GEO (geostationary orbit) , pe orbite medii MEO (medium sau midle earth orbit) joase LEO (low earth orbit), sau combinaţii, dependent de acoperirea şi serviciile prestate. Sistemele viitorului vor folosi sateliţi MEO şi LEO.

Satelitul GEO (geostationary orbit) este amplasat la 22300 mile (35786) distanţă de suprafaţa pământului şi se roteşte odată cu acesta.. 1 milă este 1,5 km. Staţia terestră ţinteşte un singur punct în spaţiu.

Satelitul MEO este amplasat la o distanţă între 1000 şi 22300 mile (35786) de suprafaţa pământului.

Satelitul LEO este amplasat la o distanţă între 400 şi 1000 mile de suprafaţa pământului se deplasează cu viteze mari, în jur de 8 km pe secundă, sau 27400 km pe oră, adică o revoluţie completă la 90 min. În concluzie nu sunt necesare legături între sateliţi şi sistemele sunt adecvate pentru zone izolate.

Deşi gradul de acoperire GEO este un avantaj faţă de MEO şi LEO, timpul de întârziere mai mare al transmisiilor le face mai puţin adecvate ppentru aplicaţiile interactive multimedia al sistemelor 4G. Pentru LEO întârzierea este de ordinul a 10 ms, ptr. MEO 8o ms şi ptr. GEO 250-270 ms. Alte întârzieri datorate procesării şi transmisiei sunt de ordinul a 80-100 ms ptr. Traficul regional şi 250-270 ms ptr. Traficul internaţional pot fi limitative ptr. calitatea transmisiei. Sistemele LEO şi MEO au alte carenţe: datorită deplasării rapide există întreruperi între terminal şi satelit (handover) ptr. o perioadă scurtă de timp. Mobilitatea mare determină schimbări regulate în topologia reţelei şi transmisia este supusă efectului Doppler şi atenuărilor multicanal (multipath fading) În plus sistemele LEO şi MEO depind de legăturile intersatelit pentru asigurarea acoperirii. Există astfel riscul să apară erori de jitter care alterează vocea şi performanţele QOS. O soluţie bună pentru problema de jitter este tamponul. Mai multe sisteme au fost folosite până în prezent, după cum se poate observa în Tabelul 1.

Tabelul 1

Page 7: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

7

• Spaceway are 16 sateliţi GEO şi 20 MEO în banda Ka(24-32 GHz), cu o viteză de transmisie de 16 kb/s -6Mb/s ptr. legătura în sus şi 100Mb/s ptr. legătura în jos şi o capacitate totală de 4,4 Gb/s. Sistemul integrează transmisiile de date de mare viteză cu Internetul şi transmisiile multimedia.

• Skybridge are 80 sateliţi în banda Ku (10,7GHz-14,5 GHz) şi o capacitate totală de 4,5 Gb/s, respectiv 20 milioane de utilizatori.

Fig.3 Benzile de frecvenţă din domeniul microundelor

Dacă primele sisteme prin satelit erau în banda C (2,4-4,2GHz), proiectarea curentă este orientată spre banda K (Ku şi Ka). Aceasta a permis şi răspândirea terminalelor cu apertură redusă şi în zonele în care sistemele celulare nu există, implementarea lor fiind prea scumpă. Este de aşteptat pe viitor să se utilizeze frecvenţe din ce în ce mai mari pe măsură ce spectrul devine tot mai redus. Frecvenţele înalte vor permite utilizarea unor terminale mai reduse şi potenţial obţinerea unei mobilităţi mai mari.

Există două tipuri de topologii, după cum se poate vedea în Fig.4. Subreţeaua bazată pe satelit poate fi ultima legătura care conectează terminalele la Internet sau alte reţele, ca în structura din stânga sau poate fi coloana vertebrală a unui sistem global, ca în structura din dreapta.

Page 8: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

8

Fig.4 Două tipuri de arhitecturi pentru sistemele de transmisie prin satelit

În primul caz utilizatorii de multimedia şi de date accesează unul sau mai multe servere printr-o legătură cu satelitul şi o staţie poartă, Internetul şi alte reţele. Această arhitectură este adecvată zonelor izolate, unde ar fi costisitor accesul prin cablu sau legătură radio. Comunicaţiile prin satelit au avantajul unei acoperiri largi, latoţi utilizatorii din zona de acoperire. În al doilea caz reţeaua prin satelit oferă servicii de purtătoare (carrier services) furnizorilor de servicii Internet. Pentru minimizarea numărului staţiilor poartăşi creşterea acoperirii Semnificaţia notaţiilor este următoarea:

• NCS Network Control Station este staţia de control care asigură controlul general al resurselor reţelei şi operaţiile de rutare;

Staţia de control (Network Control Station) este în sistemele geostaţionare, în mod uzual, câte una pe satelit. Ea asigură controlul general al operaţiilor şi resurselor reţelei. Staţia de control asigură resursele radio staţiilor poartă conform unei strategii de planificare a resurselor pe termen lung. Nodul de control este responsabil cu rutarea şi administrarea accesului. Ca de exemplu, actualizează locaţiile, autentifică, înregistrează, şterge şi plăteşte, adică contorizează apelul. În sistemele non geostaţionare aceste operaţii se realizează în mai multe staţii poartă, în mod distribuit.

• GTW(Gateway stations) Staţiile poartă sunt staţii terestre care asigură conectivitatea cu reţelele terestre;

Într-un sistem pe orbită geostaţionară plasamentul acestor staţii şi numărul lor depinde doar de solicitările traficului. Acolo unde traficul este intens numărul staţiilor terestre este mare. În sistemele non geostaţionare numărul şi amplasamentul staţiilor poartă depinde şi de unele caracteristici de proiectare. De exemplu , într-un sistem pe orbită medie, fără legătură între sateliţi un număr mai mic de zece staţii poate asigura conectivitatea totală a utilizatorilor în majoritatea timpului. Un sistem pe orbită joasă necesită zeci până la sute de staţii terestre, dar numărul lor poate fi redus utilizând legături între sateliţi. Toate terminalele folosesc aceeaşi schemă de acces şi stivă de protocoale.

Page 9: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

9

• SAU (Satelite adaptation unit) staţia de adaptare a satelitului este o unitate specială care asigură accesul la reţeaua prin satelit.

Ea realizează toate adaptările de protocoale necesare de la terminalul utilizatorului la platforma de protocoale a satelitului. Include toate funcţiile nivelului fizic ale transmisiilor, adică codarea de canale, modulaţia / demodulaţia, procesarea semnalului de radofrecvenţă.Ea furnizează o interfaţă de acces similară UNI (user network interface) ptr. ATM. Reţeaua prin satelit trebuie să opereze cu diferite tipuri de terminale şi cerinţe de transmisie, de la viteze de 8÷16 kb/s până la 144 kb/s (sau 384 kb/s) pentru terminale de uz personal, până la 2048 kb/s sau mai mari, pentru restul utilizatorilor.

• ISL (Intersatellite link) legături între sateliţi Scopul ISL este de a mări acoperirea şi de a reduce numărul staţiilor terestre.

• IWU (Interworking units) furnizeză roaming între reţele şi diferite standarde pentru a evita întreruperea recepţiei unui anumit serviciu.

• OBS (Onboard switch) respectiv OBP (Onboard processing unit) asigură multiplexarea, demultiplexarea, codarea de canal / decodarea, comutarea rapidă .

Tehnologia ATM este uneori utilizată. Unităţile de comutare ATM sunt experimentale şi includ doar părţi ale funcţiilor pe care ar trebui să le îndeplinească comutarea ATM terestră. Majoritatea operaţiilor ce necesită o mare putere de procesare sunt realizate terestru, ca de exemplu controlul admisiei şi terminarea apelului.

Toate aceste componente ale sistemului prin satelit colaborează între ele ptr. a asigura mobilitatea şi suportul rutării, la parametrii QOS necesari.

Fig. 5 Arhitectura unei reţelei globale prin satelit

Page 10: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

10

• Arhitectura unui sistem de al doilea tip este detaliată în. Fig. 5 .

Terminalele utilizatorilor funcţionează pe baza mai multor protocoale standard, ATM sau INTERNET, prin intermediul cărora se pot conecta la staţia de adaptare a satelitului: • ATM User Network Interface; • Narrow Band-ISDN; • Transmision Control Protocol / Internet Protocol; • Frame Relay UNI; • Public Switched Telephone Network;

Interconexiunile spre alte părţi ale reţelei terestre de la unitatea de control sunt realizate prin protocoalele aferente sistemul de semnalizare Nr 7 (Signaling System 7).

Reţeaua inteligentă (IN Intelligent Network) este platforma de protocoale inteligente

care asigură localizarea informaţiei, funcţionarea şi întreţinerea întregului sistem. Ea rezolvă problemele legate de rutarea apelului şi mobilitatea personală şi de terminal.

Tendinţa actuală este spre sisteme ce încorporează terminale compatibile ATM, cu mari viteze de transmisie a datelor, astfel încât infrastructura unei reţele BISDN devine esenţială. După o prezentare succintă a aspectelor arhitecturale tehnice ne vom ocupa de caracteristicile traficului într-o reţea globală de comunicaţii. Reţelele neuronale sunt un bun candidat deoarece asigură controlul adaptiv, flexibil, fiabil, optim şi o viteză extraordinară de procesare. Tehnologiile de vârf ale OBP permit integrarea în acelaşi sistem a terminalelor mobile ieftine cu aplicaţiile de mare viteză. Aceasta implică reducerea staşiilor terestre, utilizarea de emiţătoare, receptoare de dimensiune redusă, uşoare şi mobile. Se poate separa astfel legătura în sus de cea de transmisie în jos, în scopul optimizării separate. Fiind necesară o putere de emisie mai redusă şi efectul neliniarităţilor introduse de transpondere sau de canalele adiacente este mai redus. Caracteristicile esenţiale ale OBP în transmisiile de mare viteză ale viitorului sunt flexibilitatea şi reconfigurabilitatea. Acestea se referă la :

• Reprogramarea memoriilor de control ; • Reconfigurarea staţiilor terestre ; • Asigurarea comutării de pachete şi de circuite ; • Adoptarea a diferite strategii de control, şi de flux ptr. Fiecare zonă dependent de

încărcarea şi de tipul traficului ; OBP trebuie să asigure servicii compatibile cu structura BISDN/TCP/ IP, servicii

compatibile ptr. Aplicaţiile de date şi servicii video la cerere, servicii punct la punct şi servicii multipunct.

Comutarea poate fi integral pe satelit sau comutare parţial sistată de staţiile terestre. În primul caz, pe sateli se face toată procesarea şi comutarea, echipamentul de pe satelit devine complicat şi scump, dar staţiile terestre sunt simplificate. În al doilea caz, staţiile terestre asistă procesarea şi comutarea de pe satelit, a cărui echipament se simplifică. Siguranţa în funcţionare este astfel crescută.

Se poate realiza OBP cu :

Page 11: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

11

• Procesare şi comutare în banda de bază ; • Cu comutare pe frecvenţa intermediară ; • Cu comutare rapidă de pachete; • Cu comutatoare fotonice în banda de bază ; • Cu comutatoare ATM ; Dependent de tipul traficului, comutarea în banda de bază poate fi orientată

spre circuit sau spre pachete. O provocare ptr. tehnologiile viitorului o reprezintă procesarea în timp real,

eficientă. Astfel de tehnologii au apărut deja, ca de exemplu modulaţia adaptivă,CDMA code division multiple acces .

Modelul unui sistem de transmisie prin satelit Modelul simplificat al unui sistem mobil de transmisie prin satelit în banda de

bază este prezentat în Fig.

Traficul de comunicaţii este asimetric ptr. legătura spre satelit şi dinspre

satelit.Legătura în jos necesită mai multe resurse în ceea ce priveşte banda alocată, viteza de transmisie şi puterea necesară. De exemplu, sistemele mobile de transmisie prin satelit ce furnizează servicii Internet de mare viteză permit utilizatorilor accesul la date multimedia, ceea ce necesită o capacitate şi o viteză mare de transmisie. Legătura de transmisie în sus necesită o capacitate mai mică şi viteze mai mici, deoarece utilizatorii transmit cantităţi mici de informaţie, ca de exemplu: email, cereri de browsing, informaţii de bază .

Pentru a creşte puterea semnalului sateliţii se echipează cu amplificatoare de putere echipate cu tuburi cu undă progresivă sau amplificatoare în stare solidă. Acestea au o caracteristică de transfer neliniară atât în ceea ce priveşte amplitudinea cât şi faza, aşa cum se poate vedea în figura de mai jos. Aceste distorsiuni sunt importante în special în schemele de modulare multinivel, ca de exemplu M-QAM (M array quadrature amplitude modulation).

Transmiţător şi canal de transmisie în sus

Amplificator de putere

Umbrire, Transmisie multicanal

Receptor ∑ Secvenţă informaţie

zgomot aditiv

Page 12: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

12

Fig.1.7 Caracteristica de amplitudine a) respectiv de fază b) a unui tub cu undă progresivă Figura de mai jos prezintă constelaţia ieşirilor unui canal neliniar pentru un

semnal 64-QAM. Semnalele M-QAM sunt mai eficiente din punct de vedere spectral. Datorită neliniarităţilor primele sisteme de transmisie prin satelit utilizau modulaţii binare şi BPSK, mai puţin sensibile la neliniarităţi, dar ineficiente din punct de vedere spectral.

Page 13: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

13

Fig.1.8 constelaţia unui semnal 64-QAM la intrarea, respectiv la ieşirea unui canal neliniar.

Efectul de umbrire este important la un unghi de incidenţă θ mic şi apare

datorită efectului de umbrire geometrică - unda incidentă nu poate ilumina porţiunile umbrite de obiecte înalte

Propagarea undei pe căi multiple (multipath propagation) îndepărtează semnificativ condiţiile de propagare de cazul ideal şi se referă la

posibilitatea propagării undei pe diferite traiectorii de la emiţător la receptor. Există 2 căi de propagare a undei:

n directă prin atmosferă n indirectă prin reflexie şi refracţie la suprafaţa de separare între atmosferă şi

pământ

Propagarea pe cai multiple

Page 14: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

14

Deplasarea sateliţilor şi a terminalelor mobile determină caracterul aleatoriu şi variant în timp al canalului de propagare. Cercetarea în ultimele două decenii s-a concentrat pe măsurarea şi modelarea de canal atât în mediul urban cât şi în cel suburban. Există diferite modele pentru diferite benzi. Banda Ka respective aproximativ intervalul 20-30 GHz reprezintă cea mai potrivită bandă de frecvenţe ptr. aplicaţiile multimedia şi Internet. Exemple sunt :

1) modelul Loo 2) modele statistice multistare Cercetările viitoare vor include şi exploatarea unor noi benzi de frecvenţă ptr.

a face faţă cantităţii tot mai mari de date ce trebuie vehiculată. Tehnicile moderne au ca obiectiv creşterea eficienţei spectrale şi de putere. Eficienţa spectrală – abilitatea unui sistem de a opera eficient într-o bandă de

frecvenţă alocată Eficienţa de putere - abilitatea unui sistem de a transmite informaţie la un

nivel cât mai mic de putere Caracteristicile modelului de canal ale viitorului n să se bazeze pe o estimare precisă şi o modelare statistică a propagării n să conţină efectele combinate ale atenuării datorate precipitaţiilor, propagării pe

căi multiple şi umbririi n să ia în considerare schimbările de stare, de exemplu cu sau fără umbrire n să fie adecvat procesării în timp real

Modelarea şi estimarea corectă şi eficientă este f.importantă pentru tehnicile noi: n Procesarea adaptivă de semnal n Modularea adaptivă codată n Proiectarea cross-layer

Reţelele neuronale sunt sisteme neliniare formate dintr-un număr mare de

procesoare elementare, relativ simple care operează în paralel. Procesoarele interacţionează între ele prin intermediul conexiunilor: excitatorii şi inhibitorii, cărora le sunt asociate ponderi. Învăţarea se realizează prin modificarea ponderilor conform unei reguli de învăţare.

Page 15: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

15

Cursul nr. 2 Argumente pentru utilizarea reţelelor neuronale în comunicaţii

Câteva dintre caracteristicile intrinseci ale RN sunt şi argumente ale utilizării lor în

reţelele de comunicaţii : Neliniaritatea Reţelele neuronale sunt sisteme cu intrări şi ieşiri multiple care pot învăţa o relaţie

neliniară între intrare şi ieşire. Reţelele neuronale nu au nevoie de modelul traficului Reţelele neuronale au demonstrat capacitatea de a rezolva probleme complexe fără

cunoştinţe exacte sau experienţă apriori Aşadar nu este necesar un model al traficului ci o bună reprezentare a problemei. Generalizarea

Reţelele neuronale (uneori acompaniate de logica fuzzy) sunt capabile să aproximeze relaţii complicate intrare-ieşire selectând intrările semnificative şi obţinând parametri caracteristici. Ele se adaptează şi intrărilor afectate de zgomot şi incomplete, furnizând şi în această situaţie răspunsul corect. Adică, reţelele neuronale generalizează, generează soluţia corectă şi în cazul în care la intrare se aplică date noi care nu au fost experimentate în timpul antrenamentului. Flexibilitatea

Fiecare componentă a reţelei neuronale ( numită neuron, perceptron sau unitate) este un procesor ce operează independent de celelalte procesoare din sistem, astfel încât, pentru rezolvarea unor probleme mai complexe, sistemul se poate extinde într-o manieră modulară, prin adăugarea de procesoare fără a fi necesară reproiectarea. Toleranţa la deteriorare

Într-un mod similar sistemului nervos uman, performanţele sistemului neuronal se degradează treptat în funcţie de deteriorarea interconexiunilor sau a funcţionării neuronilor. Datorită procesării paralele şi distribuite, reţeaua va continua să funcţioneze chiar şi în condiţii de deteriorare până la pragul de avarie majoră.

Viteza de procesare Datorită paralelismului şi posibilităţii de implementare hard, inclusiv implementări optice, reţelele neuronale au o viteză extraordinară de procesare.

S-au raportat viteze de Terra operaţii pe secundă pentru un chip de 1 cm2. Potenţialul de procesare Potenţialul de procesare al RN este extraordinar. Datorită caracterului neliniar şi vitezei

de procesare RN au un potenţial de aplicabilitate deosebit, practic în toate domeniile de activitate umană apar în permanenţă noi aplicaţii.

Datorită tuturor acestor caracteristici RN: • pot învăţa variaţiile traficului din experienţă; • se pot adapta la solicitările dinamice ale reţelei; • prezice comportarea ulterioară a traficului;

Optimizarea traficului utilizând reţele neuronale

Page 16: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

16

Reţelele neuronale fac posibilă rezolvarea problemelor din domeniul comunicaţiilor şi asigură o îmbunătăţire a funcţionării şi siguranţei procesului de comunicaţie. Ele oferă soluţii de mare viteză în: • caracterizarea şi predicţia traficului (estimarea calităţii serviciilor); • controlul admiterii conexiunii; • controlul fluxului şi congestiei; • rutarea dinamică; • controlul comutării; • proiectarea de reţea; • atribuirea de canal în reţelele de comunicaţii mobile;

Caracterizarea şi predicţia traficului Pentru controlul rapid şi exact al traficului, în condiţiile supraîncărcării reţelei este necesară caracterizarea traficului şi predicţia sa.

O RN este capabilă să înveţe funcţia distribuţie de probabilitate a traficului, să selecteze parametrii semnificativi statistici şi să estimeze valorile previzibile ale lor. Deci caracterizarea, clasificarea şi predicţia traficului reprezintă o aplicaţie directă a RN.

Aplicaţiile uzuale sunt cu reţele multistrat antrenate cu metoda retropropagării erorii [][] şi reţelele neuronale pe bază de funcţii radiale [].

Controlul admiterii conexiunii

Controlul admiterii apelului a fost una dintre primele probleme rezolvate cu reţele neuronale datorită abilităţii acestora de a se adapta la situaţiile de schimbare a traficului. Controlul admiterii conexiunii este setul de acţiuni luate de reţea în timpul fazei de stabilire a apelului pentru a determina dacă cererea de conexiune / cale virtuală poate fi acceptată sau rejectată. O cerere de conexiune este acceptată doar dacă sunt suficiente resurse disponibile pentru stabilirea apelului pe parcursul întregii căi la parametrii QoS solicitaţi, parametrii de eficienţă ai utilizării conexiunii şi globali ai reţelei, în condiţiile menţinerii parametrilor căilor existente. Pentru aceasta trebuie evaluat gradul de disponibilitate curentă a încărcării reţelei şi impactul adăugării de noi conexiuni. CAC este practic implementată prin rutare, controlul admisiei legăturii, alocarea legăturii şi controlul comutării.

Ideea principală este de a învăţa RN o relaţie între sosirea unei celule de la o anumită sursă în cadrul unei ferestre şi banda echivalentă necesară pentru a suporta sursa. Simulările indică o reducere a ratei de pierdere a celulelor şi o utilizare eficientă a reţelei de comunicaţii în cazul controlului admisiei conexiunii cu reţele neuronale. Controlul fluxului şi congestiei Controlul fluxului şi congestiei reprezintă probabil cea mai importantă aplicaţie în domeniul comunicaţiilor. Apariţia congestiei se poate datora mai multor cauze: • viteza de prelucrare a informaţiilor de către procesoarele existente în nodurile reţelei fiind

limitată, se ajunge în situaţia ca numărul celulelor retransmise pe căile de ieşire să devină tot mai mic datorită timpului afectat operaţiilor de administrare la nivelul nodului;

• capacitatea de transport spre următorul nod poate fi depăşită dacă pe mai multe căi de intrare se recepţionează date ce trebuie dirijate spre aceeaşi ieşire; O soluţie este folosirea memoriilor tampon în nodurile intermediare pentru ca acestea să

absoarbă salturile traficului şi să evite pierderea de celule. Dar introducerea memoriilor tampon produce întârzieri nedorite , care reprezintă un impediment major în diferite tipuri de servicii, ca de exemplu o conferinţă multimedia.

Page 17: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

17

Majoritatea mecanismelor de control ale congestiei dezvoltate până în prezent sunt ineficiente. De aceea găsirea unui mecanism de evitare a congestiei în timp real fără degradarea calităţii serviciilor este vitală pentru comunicaţiile moderne.

RN au demonstrat că reprezintă o soluţie promiţătoare. Majoritatea aplicaţiilor utilizează reţele multistrat cu algoritmi de învăţare cu control [] sau competitivi []. Experimentele au condus la o pierdere semnificativ redusă a celulelor şi reducerea timpului de reacţie.

Controlul comutării În nodurile de comutare bufferele de ieşire trebuie să rezolve conflictele de comutare care

apar atunci când mai multe celule sunt comutate simultan către aceeaşi legătură destinaţie. Când sosesc prea multe celule simultan sau /şi apar conflicte de comutare repetate registrele de ieşire se vor satura şi se vor pierde celule.Cozile de aşteptare a celulelor pot fi amplasate fie la porturile de intrare, fie la cele de ieşire având asignate priorităţi în funcţie de caracteristicile traficului.

Strategiile de control cu RN ale comutării au evoluat în general ca o soluţie la problemele de optimizare.

O problemă celebră de optimizare este aceea a comis voiajorului. Acesta trebuie parcurgă în traseul său N oraşe, trecând o singură dată prin fiecare oraş. Problema este de a determina ordinea oraşelor în traseu , astfel încât distanţa pe care o parcurge comis voiajorul să fie minimă. Problema este de tip combinatorial, numărul variantelor ce trebuie testate fiind N! =1x2x3x….xN. Acest număr este relativ comod pentru valori mici ale lui N, dar devine rapid foarte mare. Se spune că este o problemă de tip NP- complet .

Într-un mod similar problemelor de optimizare, ponderile reţelei Hopfield pentru comutarea de pachete sunt alese în conformitate cu mecanismul de comutare []. Minimizând funcţia de energie asociată reţelei neuronale, reţeaua neuronală găseşte regula de programare a pachetelor de la intrarea cozilor de ieşire din comutator, evitând blocarea la cap de linie (head of line blocking).

Rutarea dinamică

Majoritatea strategiilor de rutare sunt derivate din reţeaua Hopfield. Căile de comunicaţie ale reţelei primesc ponderi în conformitate cu diferite cereri. Toţi algoritmii minimizează o funcţie de cost (energie) asociate RN. Există rezultate promiţătoare ale aplicării reţelelor neuronale celulare, ce utilizează metoda Manhattan pentru găsirea drumului cel mai scurt []. Ideea principală a algoritmului este distribuirea spaţială a pachetelor în reţea cât se poate de uniform. Aceasta se realizează uitilizând strategia de rutare a drumului cel mai scurt, metoda Manhattan, dar ţinând cont de distribuţia pachetelor în reţea exprimată în funcţie de densitatea traficului. Modelarea cu reţele neuronale celulare a fost aleasă pentru posibilitatea implementării VLSI şi a vitezei deosebite de procesare. Simulările au demonstrat beneficiile strategiei de rutare prin îmbunătăţirea semnificativă a performanţelor în special în condiţii de trafic greu.

Proiectarea de reţea Permanenta dezvoltare a mecanismelor de procesare creşte necesitatea procesării

distribuite ce trebuie realizată într-o reţea de comunicaţie complexă cu un mare număr de noduri ce îşi împart informaţia. Într-un astfel de mediu este dificil de găsit soluţia corectă pentru structura reţelei. Proiectarea unei reţele de comunicaţie, adăugarea permanentă de echipament nou, implementarea de tehnici noi, actuale devine o sarcină deosebit de dificilă. Proiectarea convenţională se pare că este depăşită. Principalul motiv este absenţa tuturor datelor pentru echipament şi tehnicile de transmisie, din moment ce reţeaua de comunicaţie este într-o permanentă schimbare. În plus orice inovaţii trebuie simulate înainte de implementarea reţelei, ceea ce creşte timpul afectat proiectării.

RN proiectant foloseşte parametrii măsuraţi ai reţelei în dezvoltarea acesteia .

Page 18: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

18

Atribuirea de canal în reţelele de comunicaţii mobile Pentru atribuirea de canal în reţelele de comunicaţii mobile s-au testat diferite RN,

reţeaua Hopfield [] şi reţele competitive autoorganizatoare cu o regulă Kohonen modificată [], iar rezultatele obţinute au fost performante.

Ca o concluzie RN sunt adecvate în toate situaţiile în care nu există informaţie suficientă

sau experienţă, acolo unde metodele clasice au eşuat în a da soluţii eficiente.

COMPONENTELE UNEI R.N. Componentele unei R.N. sunt: -unităţile de procesare; -starea de activare a neuronilor (starea curentă); -o ieşire pentru fiecare unitate; -interconexiunile dintre unităţi, cărora le sunt asociate ponderi; -o regula de propagare prin reţeaua de conexiuni; -o funcţie de activare care combina intrarea cu starea curenta a unei unităţi pentru a genera o nouă stare de activare; -o regulă de învăţare care modifică ponderile interconexiunilor prin experienţă; -un mediu în care operează sistemul; Fig1 ilustrează componentele unei R.N. Prin cercuri sunt reprezentate unităţile de procesare. Unitatea ui are la un moment dat valoarea de activare ai(t), care trecuta prin funcţia de activare fi determină o noua valoare de activare, care de obicei este chiar ieşirea oi. Prin intermediul conexiunilor , oi este aplicată unităţilor reţelei. Fiecărei conexiuni i se asociază un număr real wij, numit pondere, care determina efectul unităţii j asupra unităţii i. Toate intrările într-o unitate sunt combinate printr-un operator (uzual adunare), formând intrarea netă, neti. Ponderile interconexiunilor sunt adaptabile, deci se pot modifica printr-o funcţie de învăţare.

Fig.2.1. Componentele unei reţele neuronale

uj uj

neti netj ai(t)

aj(t+1)= f(aj(t),netj(t) oi(t)

oj(t)

uk

ak(t)

wji

wjk

wjl

Page 19: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

19

Fig.2 prezintă două simboluri utilizate adesea pentru marcarea neuronilor într-o RN. 2.1 Modelele neuronului În literatură există mai multe modele pentru neuronii artificiali. Fig.2.2 prezintă două astfel de modele. Pragul(curentul de polarizarea) poate fi abordat şi ca ponderea unei conexiuni de la o intrare separată x0. El se scade (sau se însumează) din suma ponderată a celorlalte intrări după valoarea intrării x0 (±1). Ecuaţiile care îi caracterizează sunt de fapt aceleaşi:

∑=

=n

1iijij x.wnet (2.1)

)xw(fon

1ijijij ∑

=

θ−= (2.2)

unde: • wji care multiplică intrarea xi se numeşte pondere.Cu wji se notează ponderea conexiunii de

la neuronul i înspre neuronul j; • xi este intrarea i; • θ este o constantă care se numeşte prag şi trebuie sustras din suma produselor dintre intrări şi

ponderi; • netj este intrarea netă în neuronul j; • funcţia f(.) este funcţia de activare; • oj este ieşirea

Page 20: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

20

Fig.2.2 Două modele ale neuronului ;

Simbolurile neuronului corespunzătoare celor două modele sunt ilustrate în Fig.2.3.

x1

x2

x3

xn

w ww3

w

x0=-1

w0=θ

(x0=+1

(w0=b curent de

f(.)

o=f(net-θ)

net-θ

x1

x2

x3

xn

w ww3

w

w0=-1

f(.)

o=f(net-θ)

θ

net

(net+b)

Page 21: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

21

Fig.23 Simbolurile unui neuron 2.2 Unităţile de procesare În R.N. unităţile de procesare sunt mici entităţi, de tip caracteristică. Ele pot reprezenta: caracteristici, litere, cuvinte, concepte, elemente abstracte asupra cărora pot fi definite modele cu anumite semnificaţii.Toate unităţile procesează în acelaşi timp, în paralel. Există trei tipuri de unităţi: de intrare, de ieşire si ascunse. Unităţile de intrare primesc semnale de la sursele externe sistemului. Aceste intrări pot fi de tip senzorial sau pot proveni din alte părţi ale unui sistem mai mare, în care este încadrată reţeaua. Unităţile de ieşire transmit semnale spre ieşirea sistemului. Semnalele de ieşire pot acţiona asupra altor sisteme. Unităţile ascunse primesc şi transmit semnale în cadrul sistemului modelat. Ele nu sunt "vizibile" din exteriorul sistemului. 2.3 Starea de activare Starea unităţii ui la momentul t este caracterizată de starea sa de activare ai(t). Starea unei reţele neuronale este dată de un vector de N numere reale, în care fiecare element reprezintă starea de activare a unei unităţi la un moment dat t.. Evoluţia RN în timpul procesării este reprezentată prin stările de activare ale unităţilor sale în timp.În diferite modele, se fac presupuneri diferite asupra valorilor de activare permise pentru o unitate. Valorile de activare pot fi analogice sau discrete. Valorile analogice pot fi orice număr real sau într-un interval mărginit. Valorile discrete pot fi binare, bipolare sau orice set mic de valori. O activare de 1 are semnificaţia că unitatea este activă, 0 (sau -1) are semnificaţia că unitatea este inactivă. Uneori sunt folosite seturi de valori discrete, ca de exemplu: (-1,0,1), (1,2,3, ...,9). Potrivit descoperirilor neurologice creierul uman este un calculator analogic. Fără a avea în prim plan criteriul plauzibilităţii biologice, dezbaterile referitoare la alegerea optimă dintre abordarea logică sau discretă este un subiect de actualitate. Argumentul major în favoarea abordării analogice este viteza superioară recunoscută a calcului analogic, la care se adaugă lipsa necesităţii sincronizării (obligatorie la RN digitale sincrone) dificil de realizat la reţelele mari. Avantajul principal al abordării discrete este precizia calculelor, importantă mai ales în cazurile în care parametrii reţelei sunt supuşi unor restricţii severe, de exemplu referitoare la condiţii de simetrie. Posibilitatea memorării pe o durată de timp a unor valori numerice utile reprezintă un alt avantaj. O problemă nesoluţionată satisfăcător până în prezent este în cazul RN discrete rezoluţia necesară procesării într-o aplicaţie dată. Trebuie făcută o distincţie suplimentară în legătură cu gradul de cuantizare al semnalelor. Există reţele care folosesc semnale cu mai multe nivele de cuantizare al semnalelor, care pot proveni din utilizarea unor funcţii de activare multinivel, sau pot avea intrinsec un asemenea caracter, ca în cazul utilizării unor coduri multinivel.

f/θ

x1 x1

x2 x2

x3 x3 . .

xn xn

oj oj

θj

uj

.

. xn

Page 22: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

22

2.4 Ieşirea unităţilor Unităţile unui sistem interacţioneaza între ele prin intermediul ieşirii. Uzual ieşirea unităţii este dată de starea ei de activare. 2.5 Interconexiunile reţelei Unităţile sunt conectate între ele prin interconexiuni cărora li se asociază ponderi. Modelul de interconexiune reprezintă "ceea ce ştie sistemul" si va determina modul în care el răspunde la o intrare arbitrară. În majoritatea cazurilor, fiecare unitate are o contribuţie aditivă la intrarea unităţilor la care este conectată. În aceste cazuri, intrarea totală netă a unităţii uj, neti(t) este suma tuturor activărilor unităţilor ponderate.

net w xj ij ii

= ∑ . (2.3)

O pondere pozitiva reprezintă o intrare excitatoare. O pondere negativa reprezintă o intrare inhibitorie. Adesea este convenabila reprezentarea modelului de conexiune printr-o matrice pondere W. În cazul cel mai simplu, intrările excitatorii si inhibitorii ponderate sunt însumate algebric. Dacă intrările sunt supuse unei reguli mai complexe decât simpla însumare algebrica, este necesară definirea unei matrici separate We pentru intrările excitatorii si Wi pentru cele inhibitorii. În cazul general este necesar un model mai complex. O unitate poate primi intrări de diferite tipuri, care sunt însumate separat. Pentru fiecare tip de conexiune este recomandabil să avem o matrice de conexiune separată. 2.6 Regula de propagare Regula de propagare combină vectorul o(t) al ieşirilor cu matricea de conexiune pentru a produce intrarea netă , pentru fiecare tip de intrare într-o unitate. Fie netij intrarea netă de tipul i in unitatea uj. Dacă există un singur tip de conexiune se suprimă indicele i, deci intrarea netă in uj va fi netj. Regula de propagare este în general de tip înainte, adică dinspre intrarea RN spre ieşirea acesteia.. Intrarea netă este uzual suma ponderată a intrărilor într-o unitate. Aceasta este dată de vectorul produs, care de exemplu pentru intrarea excitatorie este:

)t(o.Wnet ee = (2.4) Similar pentru intrarea inhibatorie: neti = Wi.o(t) Când sunt implicate modele mai complexe de activare, sunt necesare reguli mai complexe de propagare.

2.7 Funcţia de activare Funcţia de activare reprezintă funcţia de transfer intrare-ieşire a neuronului. Ea combină

intrarea curentă cu starea de activare existentă în neuron a(t) pentru a genera o nouă stare de activare a(t+1):

))t(inet),t(ia(f)1t(ia =+ (2.5)

Page 23: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

23

Funcţia de activare poate fi deterministă sau stohastică (probabilistică). În cele ce urmează se prezintă câteva exemple: • funcţia Heaviside (cunoscută în reţelele neuronale şi sub numele de hard-limitatoare):

unipolară σ(t) (treaptă unitate) sau bipolară sgn(t);

<−

≥=+

0)t(netdac ă1

0)t(netdacă1))t(net(sgn)1t(a

i

iii

(2.6)

Fig. 2.4 Funcţia Heaveside

Uneori intrarea netă trebuie să depăşească o valoare numită prag pentru determinarea unei noi activări:

))t()t(jaw(f)1t(ia ij

iji θ−=+ ∑ (2.7)

• O funcţie semiliniară unipolară poate fi definită printr-o relaţie de forma.:

( )

θ>

θ<<θ−θ

θ+θ−<

==+

)t(netpentru,1

netpentru,2

)t(net)t(netpentru,0

netf)1t(ai (2.8)

Pentru varianta bipolară se poate utiliza relaţia :

( ) ( ) 1netf2netfb −= (2.9)

Adesea funcţia de activare trebuie să fie o funcţie neliniară, nedescrescătoare, ca de exemplu:

iii

ii

i

restîn0)t(netdac ă)t(net

)t(netdac ă1)1t(a θ<

θ≥

=+ (2.10)

-2 -1 0 1 2

1

-1

net

f(net)

Page 24: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

24

Figura 2.5: Funcţii de activare pentru neuron

a) comparatoare bipolară cu prag; b)liniară cu saturaţie; c)sigmoidală bipolară

• Uzual funcţia de activare este o funcţie neliniară.. Un exemplu este funcţia logistică numită şi sigmoidă :

)t(net.iie1

1)1t(a β−+=+ (2.11)

unde β este un factor de proporţionalitate. Avantajul acestei funcţii este derivata sa, simplu de determinat :

)]x(f1)[x(f)x('f −= (2.12) Funcţia tangentă hiperbolică este şi ea des utilizată deoarece intervalul său de răspuns este [-1, +1]:

xx

xx

eeee)xtanh(

+−

= (2.13)

Şi derivata sa se calculează relativ uşor :

2xx2

)ee(4)]x(h[sec

dx)xtanh(d

−+== (2.14)

• Există reţele care utilizează funcţii de activare probabilistice. Probabilitatea ca neuronul să fie

activ este :

T

i )t(inet

e1

1)1)t(a(p −

+

=→ (2.15)

unde T este o constantă, numită temperatură. Aceasta dă panta curbei de probabilitate.

1 1 1

-1 -1

-1

0

net net net

f(net) f(net) f(net)

0

Page 25: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

25

Fig.2.6 Funcţie probabilistică de activare Reţelele cu funcţii neliniare sunt uzual utilizate, performanţele lor fiind superioare celor cu funcţii liniare sau semiliniare.Deşi majoritatea funcţiilor de activare sunt monotone, există şi funcţii nemonotone care conduc la performanţe foarte bune în special în memoriile asociative. Fig.2.7 prezintă câteva astfel de funcţii:

Fig.2.7 Funcţii de activare nonmonotone

Se pot utiliza şi alte tipuri de funcţii, unele cunoscute din teoria aproximării, care pot

conduce la performanţe superioare în diferite aplicaţii. Fie exemplul următor preluat din analiza Fourier :

)]nxsin(.b)nxcos(.a[)x(f n0n

n += ∑∞

=

(2.16)

Intrarea netă

Probabilitateaa

f(x)

x

f(x) f(x)

x x

Page 26: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

26

sau altfel scris:

∑∞

=

θ++=1n

nn0 )nxsin(.ca)x(f (2.17)

unde 2n

2nn bac += şi

n

nn a

barctg=θ

Se poate interpreta această ultimă relaţie ca o aproximare implementată cu o RN de tip spre înainte, care conţine : • un neuron de intrare; • un neuron de ieşire • n neuroni ascunşi cu funcţia de activare sin(neti); În acest caz, a0 corespunde pragului neuronului de ieşire, θn corespunde pragului neuronului ascuns n şi cn ponderilor dintre neuronul ascuns n şi neuronul de ieşire. Diferenţa esenţială dintre transformata Fourier şi cea a RN este că în primul caz n poate lua doar valori întregi, pe când în al doilea caz ponderile interconexiunilor pot lua orice valoare reală. În Fig.2.7.a se prezintă ieşirea unei RN antrenate cu zece modele să aproximeze funcţia f(x)=sin(2x).sin(x), cu algoritmul retropropagării erorii. RN a fost implementată cu un neuron de intrare, un neuron de ieşire, patru neuroni ascunşi şi funcţia de activare sinus. Cu linie întreruptă este reprezentată funcţia aproximată şi cu linie continuă ieşirea RN. În Fig.2.7.b se prezintă ieşirea unei alte RN antrenate tot cu algoritmul retropropagării erorii şi aceleaşi zece modele. RN a fost implementată cu un neuron de intrare, un neuron de ieşire, opt neuroni ascunşi şi o funcţie de activare sigmoidă. Se remarcă că performanţa reţelei în primul caz este mult mai bună decât în cel de-al doilea caz, deşi numărul neuronilor ascunşi este mai mic.

Page 27: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

27

Fig.2.7.a) Ieşirea unei RN antrenate BKP să aproximeze funcţia f(x)=sin(2x).sin(x), ce utilizează funcţia de activare sinus

Fig.2.7.b) Ieşirea unei RN antrenate în aceleaşi condiţii ca în cazul a), dar o funcţie de activare sigmoidă;

2.8 Reguli de învăţare Configurarea interconexiunilor unei reţele neuronale trebuie făcută astfel încât aplicarea unui set de intrări să genereze un set de ieşiri dorite Prin regula de învăţare se modifică ponderile interconexiunilor în funcţie de experienţa RN. Există RN cu ponderi fixe ( ca de exemplu RN Hopfield şi RN Hamming) şi cu ponderi adaptabile. Pentru determinarea ponderilor există deci diferite metode: • fixarea explicită, utilizând informaţie apriori referitoare la particularităţile şi eventual restricţiile

la care este supusă aplicaţia considerată. Astfel de consideraţii conduc la sisteme specializate, de dimensiuni reduse, uşor de manipulat ;

• determinarea ponderilor prin antrenare, generând reţelei modele de învăţat şi lăsând-o să-şi modifice ponderile conform unei reguli de învăţare, în mod iterativ ;

O condiţie esenţială este ca algoritmul de antrenare să fie convergent, adică la un moment dat ponderile să rămână constante, indiferent de intrările aplicate. Se poate face o clasificare a RN în funcţie de modalităţile de învăţare: 2.8.1.RN cu învăţare supravegheată (cu control) Se generează reţelei un set de perechi de modele de intrare-modele de ieşire dorite, cu ajutorul cărora aceasta calculează mărimile de eroare în funcţie de diferenţa dintre valoarea reală curentă a ieşirii şi cea dorită, pe baza cărora se ajustează parametrii reţelei. Răspunsurile dorite pot fi furnizate din exterior sau de către sistemul global care conţine reţeaua însăşi (RN cu auto-control) .

]n[o]n[d]n[e −= (2.18)

Page 28: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

28

Exemple sunt: regula Delta, regula Delta generalizată, algoritmul retropropagării erorii şi variantele sale, cuantizarea vectorială cu control, pentru reţelele cu propagarea informaţiei "spre înainte " respectiv algoritmul retropropagării erorii în timp şi învăţarea în timp real pentru RN recurente.

Fig.2.8 RN cu învăţare supravegheată

2. 8.2 RN cu învăţare nesupravegheată (fără control) RN extrage singură anumite caracteristici ale modelelor de intrare şi realizează gruparea modelelor de intrare, formând reprezentări interne distincte ale acestora. RN utilizează un gen de competiţie între neuronii elementari, care are ca efect modificarea ponderilor conexiunilor numai a neuronului care câştigă întrecerea , restul ponderilor interconexiunilor rămânând neafectate. În unele modele apare un parametru numit conştiinţă, care intră în funcţie când unul dintre neuroni câştigă prea des competiţia.

Fig.2.9 RN cu învăţare nesupraveghetă

Reprezentative pentru această categorie sunt reţelele neuronale auto-organizatoare, RN cu cuantizare vectorială, RN pentru analiza componentelor principale. Aceste reţele pot încorpora şi un mecanism de control care să permită o rafinare ulterioară a parametrilor. 2.8.3. RN cu învăţare cu critic sunt numite şi cu pedeapsă şi recompensă Reţeaua nu beneficiază de un semnal dorit (ca în învăţarea supravegheată), ci de unul apreciază cât de bine funcţionează sistemul. Algoritmii aparţinând acestei categorii se bazează pe observaţiile experimentelor pe animale şi funcţionează după următorul principiu: dacă acţiunea unui sistem capabil să înveţe are un efect favorabil, această acţiune este încurajată, în caz contrar este inhibată.

W Reţea neuronală

o(n)

Algoritm de învăţare

x(n)

e(n) -

+

d(n)

W Reţea neuronală

o(n)

Algoritm de învăţare

x(n)

Page 29: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

29

Fig.2.10 RN cu învăţare cu critic

Teoria rezonanţei adaptive utilizează cu succes acest tip de învăţare. Câteva dintre regulile de învăţare uzuale sunt: 1) Regula lui Hebb

Conform acestei reguli ponderea în pasul k+1 se modifică proporţional cu produsul dintre intrarea şi ieşirea neuronului :

jiij xow ⋅⋅η=∆ (2.19) unde:

• ∆wij este variaţia vectorului pondere wij de la neuronul j către neuronul i din pasul k în pasul (k+1), dată de relaţia: ijijij w]k[w]1k[w ∆+=+ ;

• oi este ieşirea neuronului i; • xj este intrarea în neuronul j ; • η este o constantă de care depinde viteza de învăţare, η∈ (o,1);

Această regulă de învăţare este fără control (nesupravegheată) deoarece nu utilizează răspunsul dorit.

2) Regula perceptronului : Este o regulă supervizată pentru că în calculul variaţiei ponderii se utilizează răspunsul

dorit notat cu di :

jTiiij x)].xw(sgnd.[w −η=∆ (2.20)

unde x este vectorul intrărilor în neuronul j x=[x1 x2 …xj … xn ]

3) Regula Delta (sau regula Widrow-Hoff) Denumirea de Delta este dată de diferenţa dintre ieşirea curentă şi răspunsul dorit :

jiiij x)].od.[w −η=∆ (2.21) Regula este cunoscută şi sub denumirea autorilor săi regula Widrow şi Hoff.

Mediu

Element

de învăţare

Semnal de cost

Acţiune Stare

Page 30: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

30

4) Regula Delta generalizată Modificările în ponderi se calculează cu :

ji'

iiij x)net(f)].od.[w −η=∆ (2.22) unde f′ este derivata funcţiei de activare, deci este valabilă doar pentru funcţii de activare continue .

5) Regula de învăţare a corelaţiei Este o variantă a regulii lui Hebb:

jiij xdw ⋅⋅η=∆ (2.23)

6) Regulă de învăţare de tip competitiv În RN competitive se modifică de obicei doar ponderile neuronului câştigător. Există numeroase reguli de acest tip, exemple fiind următoarele două relaţii:

)wo(w mjjmj ⋅⋅η=∆ (2.24)

unde m este neuronul câştigător. Regula outstar (a lui Grossberg):

)wd(w ijiij ⋅⋅η=∆ (2.25)

Există bineînţeles multe alte reguli de învăţare dezvoltate pentru a ameliora performanţele RN. Pe parcursul cursului vor fi prezentate şi alte reguli de învăţare. 2.9 Organizarea ierarhică a R.N. 2.9.1 Reţele neuronale cu procesare de tip în sus În reţelele cu procesare în sus, informaţia se propagă spre înainte, de la intrare spre ieşire. Într-o numerotare a nivelelor de la intrare spre ieşire unităţile nivelului i vor afecta doar unităţile de nivel superior lui i, adică straturile i+1, i+2 . Matricea ponderilor W va avea elementele wij = 0 pentru toate unităţile uj aparţinând unor nivele inferioare nivelului i . Uzual unităţile nivelului i nu afectează unităţile nivelului i+2.. 2.9.2 Reţele neuronale cu procesare de tip în jos În acest tip de model informaţia se propagă spre înapoi, de la ieşire spre intrare. Neuronii de pe nivelul i vor afecta doar unităţile de pe nivelurile inferioare lui i, adică din straturile i-1, i-2. 2.9.3 Reţele neuronale interactive (recursive) Modelele interactive sunt modele în care pot exista conexiuni în ambele sensuri, de la nivelele inferioare către nivelele superioare şi invers. În cazul general aceste reţele au şi o reacţie de la ieşire înspre intrare. Orice element al matricii de conexiune poate fi diferit de zero. Experienţa a confirmat supoziţia teoretică ca RN multistrat au un potenţial de procesare mai mare decât sistemele cu două straturi (intrare-iesire). La rândul lor, RN recursive au un potenţial de procesare mai mare decât sistemele echivalente ierarhice, cu acelaşi număr de unităţi ascunse.

Page 31: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

31

2.10 Iniţializarea Initializarea se referă la momentul de aplicare a regulii de activare. În procedura de initializare sincronă exista un cronometru central, care determină o evaluare simultană a activării tuturor unităţilor din RN. În procedura asincronă, initializarea se face probabilistic, pentru fiecare unitate, în parte. Avantajul procedurii asincrone constă în faptul că într-un interval de timp suficient de scurt este initializată o singură unitate. Aceasta îmbunătăţeste stabilitatea reţelei, evitând oscila-ţiile(care apar destul de des în reţelele sincrone). 2.11 Reprezentarea mediului Este esential pentru dezvoltarea oricărui model să existe o reprezentare clară a mediului în care operează acesta. În R.N. mediul se reprezintă ca o funcţie stochastică, variabilă în timp, în spaţiul modelelor de intrare. Adică , la un moment dat există o probabilitate oarecare ca unul dintre modelele setului de modele posibile să fie aplicat la intrarea sistemului. Funcţia de repartiţie depinde, în general, atât de istoria intrarilor cât şi de ieşirile sistemului. În practică, majoritatea modelelor implică o caracterizare mult mai simplă a mediului. Tipic, mediul este caracterizat de o densitate de probabilitate stabilă, independentă de intrarile şi răspunsurile anterioare ale sistemului. În acest caz, pot exista 1,2,... ,M intrări posibile pentru reţea. Adeseori R.N. sunt restricţionate de tipurile modelelor de intrare. Unele R.N. sunt capabile sa răspundă corect doar dacă vectorii de intrare formeaza un set liniar independent de vectori, altele doar dacă vectorii de intrare sunt ortogonali, altele sunt capabile să înveţe să răspundă la modele de intrare esenţial arbitrare.

Capitolul 3 Reţele cu propagarea informaţiei spre înainte 3.1 Neuronul Mc Culloch-Pitts

Cel mai simplu model (Fig.3.1), realizat de Mc Culloch-Pitts în 1943 este discret, cu intrările xi[k], la momentul k, valori binare 0 sau 1. Funcţia de activare este de tip comparator cu prag. Funcţia sa de ieşire este funcţia identitate. Ponderile sunt fixe.

)]k[x.w(sgn]1k[o]1k[ai

ii θ−∑=+=+ (3.1)

unde: •

−θ≥

=restîn1netdacă1

)net(sign

(3.2) • θ este pragul neuronului;

Ponderile wi pot lua valoare +1, dacă efectul intrării corespunzătoare este excitator respectiv valoarea -1 dacă efectul este inhibator.

Page 32: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

32

Fig.3.1 Neuronul Mc Culloch-Pitts Deşi acest model este extrem de simplu el permite implementarea funcţiilor logice elementare ŞI NU, SAU NU, pe baza cărora se pot sintetiza funcţii logice complexe. După cum se ştie orice funcţie logică combinatorială poate fi sintetizată utilizând funcţiile NU şi SAU. Figura 3.a,b ilustrează câteva exemple. Mai mult, folosind posibilitatea de a obţine celule de întârziere cu un tact se pot construi şi circuite secvenţiale Fig.2c prezintă o celulă de memorare cu o intrare excitatoare +1 şi una inhibatoare -1, care menţine ieşirea constantă pe timp nedeterminat, în absenţa unei noi intrări. Restricţia la valori binare a intrării şi mai ales a ponderilor (care sunt fixate la valori constante, fără posibilitatea de modificare în funcţie de performanţele reţelei), tipul funcţiei de activare, precum şi necesitatea de funcţionare sincronă a reţelelor realizate cu astfel de neuroni constituie limitări majore ale modelului. Mc Culloch si Pitts au abordat problematica invarianţei în percepţia imaginilor şi a sunetelor, deschizând o noua etapă în aplicaţiile RN în recunoaşterea formelor ( Pitts si Mc Culloch 1947). Modelele lor sunt însă fără învăţare. Formalismul lui Mc Culloch-Pitts a marcat atât evoluţia calculatoarelor digitale (conform memoriilor lui von Neumann), cât si începutul dezvoltării hard a R.N. Mueller, Martin si Pultzrath (1962) au proiectat circuite care modelează neuronul Mc Culloch-Pitts. Ei şi-au extins analiza si asupra unor circuite analogice, similare, pentru recunoaşterea semnalelor acustice.

x1

Intrări

w1

x2

xp

Pragul θ

Ieşire o wn

Σ

Page 33: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

33

Fig.3.2 Exemple de funcţii logice implementate cu neuronul Mc Culloch-Pitts 3.2 Perceptronul Ideea adaptării ponderilor apare pentru prima oară, în studiile lui Caianello (1961) şi ulterior în ale lui Rosenblat (1962). Utilizând structura neuronului Mc Culloch, admiţând date de intrare şi ponderi de valori oarecare (nu numai binare) şi introducând o regula de modificare a ponderilor, Rosenblat a pus bazele unei clase largi de modele neuronale, numite perceptroane (1962). Ieşirile perceptroanelor lor sunt binare (1 şi 0) date de funcţia de activare Heaveside sau bipolare (1 şi –1) date de funcţia signum:

)]k[x.w(f]1k[o

iii θ−=+ ∑ (3.3)

O variantă, ce a marcat evoluţia ulterioară a RN, este perceptronul cu corecţia erorii prin cuplare inversă. Aici apare ideea adaptării ponderilor proporţional cu un semnal de eroare, dat de diferenţa dintre ieşirea curentă o şi un semnal de control, ieşirea dorită, d , e d o= − : Ponderile vor fi modificate conform unei legi probabilistice, proporţional cu semnalul de reacţie inversă e:

)od.(]k[w]1k[w −η+=+ (3.4)

Rosenblat a dezvoltat şi demonstrat teorema de convergenţă a perceptronului. Teorema de convergenţă afirmă că valorile ponderilor converg într-un număr finit de paşi, adică w[k+1]= w[k+2]= w[k+3]= w[k+4]=…, pentru un număr de iteraţii finit. Se pot face următoarele observaţii în legătură cu algoritmul de antrenare:

• numărul de iteraţii necesar asigurării unei clasificări corecte depinde de viteza de antrenare şi de succesiunea datelor folosite în etapa de antrenare;

• coeficientul de adaptare este constant; • ponderile se modifică doar dacă apar clasificări greşite;

Astfel se fundamentează teoretic capabilitatea de asociere a perceptroanelor bazată pe similaritate (modele similare de intrare se transformă în modele similare de ieşire). Aplicaţiile posibile sunt de clasificare (în recunoaşterea formelor) şi de implementare de funcţii logice.

θ=

θ=0 θ=1

θ=0

θ=0

θ=0

θ=1

x1

Intrare excitatoare x3

1

1

1

1

1

1

1

-1 -1

Intrare inhibatoare

-1

-1

-1

SAU NU

ŞI NU o[k+1]=x[k]

x2

x3

x1

x2

x3

Page 34: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

34

Fig.3.3 prezintă câteva exemple în care se implementează funcţii logice. Fig.3.4 este reprezentarea geometrică în spaţiul modelelor de intrare.

Fig 3.3 Funcţii logice implementate de perceptron

Fig.3.4 Reprezentarea geometrică în spaţiul modelelor de intrare

3.2.1 Limitele perceptronului Se poate demonstra că un neuron adaptabil (perceptronul) nu poate discrimina decât clase

liniar separabile. În cazul particular al perceptronului cu două intrări şi o ieşire, două categorii sunt liniar separabile dacă pot fi separate printr-o dreaptă. Funcţiile logice ŞI, SAU şi NU implică clasificări separabile printr-o dreaptă. Ele sunt liniar separabile, deci perceptronul le poate implementa (Fig.3.5).

Definiţie Clasele distincte se pot separa prin aşa zise suprafeţe de decizie. Pentru determinarea suprafeţelor de decizie trebuie evaluat un set de funcţii de discriminare. Două clase se numesc liniar separabile dacă funcţiile de discriminare au forma următoare:

θ=-3 x1

x2

Σ

w1=2

w2=2

ŞI

w2=2

x1

x2

θ=-1

Σ

x1

θ=1

NU

SAU

w1=2

w2=-2

x1

x2

x1

x2

ŞI SAU

(1,1)

(1, -1) (-1, -1)

(-1,1)

Page 35: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

35

∑+=N

nnnoi x.aa)x(g (3.5)

unde a0, a1,…an sunt constante.

Fig.3.5 Două categorii liniar separabile Cel mai cunoscut caz de separabilitate nonliniară este cel al funcţiei SAU EXCLUSIV

(XOR). Ieşirea este dată de relaţia 2121 x.xx.x−−

+ . Tabelul de adevăr al funcţiei este următorul :

x1 x2 XOR 0 0 0 0 1 1 1 0 1 1 1 0

Regiunile de decizie ale funcţieie SAU Exclusiv nu pot fi separate printr-o dreaptă, ci prin două drepte, după cum se poate vedea în Fig.3.6.

x2

x1

Categoria C2

Categoria C1

Dreaptă de decizie w1. x1+ w2 .x2-θ=0

Page 36: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

36

Fig.3.6 Spaţiul modelelor de intrare pentru problema lui SAU EXCLUSIV

Limitele de învăţare ale unei reţele neuronale cu un singur strat de neuroni adaptivi nu sunt date de algoritmul de învăţare ci de topologia reţelei, care permite divizarea spaţiului de intrare doar în două semiplane. Funcţia SAU EXCLUSIV poate fi implementată cu un perceptron, dacă este codată adecvat. Este suficient să se utilizeze trei intrări în loc de două, cea de-a treia fiind dată de produsul celorlalte două. Problema constă deci în învăţarea relaţiei ternare următoare:

x1 x2 x3 XOR 0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 0

Asocierea corectă pentru un perceptron cu pragul zero este generată de următoarele ponderi: w1=1 , w2=1 , w1=-2 . Acest exemplu demonstrează că o problemă de separabilitate nonliniară poate fi transformată într-una de separabilitate liniară, printr-o formalizare adecvată a problemei. În practică este chiar mai importantă reprezentarea adecvată a problemei decât arhitectura RN . O altă metodă de rezolvare a problemelor nonseparabile liniar este utilizarea RN cu mai multe straturi. Deci pentru limite de decizie mai complexe sunt necesare mai multe straturi de neuroni. Pentru SAU EXCLUSIV sunt necesare două straturi de neuroni. Fig.3.7 prezintă două variante pentru implementare a funcţiei . Reţelele din Fig.3.7 se numesc cu două straturi, pentru că au două straturi de neuroni adaptabili.

Categoria C

Categoria C

Categoria C

(1,0)

(1,1)

(0,1)

(0,0) Intrarea

x

Intrarea x

Page 37: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

37

Fig.3.7 Două reţele pentru învăţarea funcţiei logice SAU EXCLUSIV

Alegerea ponderilor nu este unică. O RN cu două straturi poate forma regiuni de decizie convexe obţinute prin intersecţia semiplanelor de decizie ale neuronilor primului strat. Fiecare neuron al stratului ascuns generează un hiperplan de separare. Neuronii stratului de ieşire generează regiuni de decizie mai complicate, formate prin intersecţia semiplanelor primului strat. Fig.3.8 prezintă două exemple. O RN cu două straturi este capabilă să identifice orice fel de regiuni convexe, dacă numărul neuronilor din stratul ascuns este suficient şi ponderile sunt adecvat adaptate.

Fig.3.8 Regiuni de decizie pentru o RN cu două straturi de neuroni

O RN cu trei straturi poate implementa regiuni de decizie arbitrare, complexitatea fiind limitată de numărul de neuroni. S-a demonstrat că precizia unei clasificări neliniare de către o RN cu trei straturi (2 ascunse ) poate fi făcută arbitrar de bună. Deci cu alte cuvinte o RN cu trei straturi este capabilă să proceseze orice transformare neliniară continuă cu o precizie arbitrar de bună.

x1

x2

x1

x2

θ=0 θ=1

θ=0.5

θ=1.1

θ=0.3

0.6

-0.2

1

1

0.6

1

-2

1

1 1

XOR

XO

1

0.6

A

B

Page 38: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

38

Fig.5 Regiuni de decizie pentru o RN cu trei straturi de neuroni

A

B

Page 39: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

39

Cursul 3

3.3 ADALINE şi M ADALINE În 1960 Widrow si colaboratorii săi au realizat reţelele ADALINE şi MADALINE , RN cu control. Denumirea ADALINE este un acronim pentru ADaptive LInear Combiner, care are un singur neuron adaptiv la ieşire , respectiv MADALINE pentru RN cu mai multi neuroni adaptivi (din engleză more ADALINE). Într-o implementare simplă ADALINE conţine un set de rezistenţe controlabile conectate într-un circuit care însumează curenţii determinaţi de tensiunile de intrare. Uzual blocul de însumare este urmat de un cuantizor a cărui ieşire este +1 sau -1, în funcţie de polaritatea intrării. Alteori ieşirea o este analogică. Dacă se notează conductanţele de intrare cu wi , la ieşirea blocului de însumare se obţine:

θ+=+=+ ∑i

ii ]k[x.w]1k[o]1k[a (3.6)

Ieşirea analogică conferă circuitelor ADALINE un potenţial de procesare mai mare decât a perceptronului. Se pune problema determinării ponderilor wi astfel încât dacă la intrarea circuitului se aplică setul de valori xi

p la ieşirea sa să se obţină op, răspunsul dorit, pentru un număr mare p de modele arbitrare. Fig.3.10 prezintă structura ADALINE.

Fig.3.10 Structura ADALINE.

Se pune problema determinării ponderilor wi astfel încât dacă la intrare se aplică reţelei modelul xp la ieşire se obţine modelul dorit dp, pentru un număr arbitrar de modele. Intrarea

]x...x...xxx pnpi2p1pp [= se aplică RN, care generează o ieşire op . Aceasta se compară cu o ieşire

dorita , scop, dp furnizând o eroare ep. Eroarea se transmite înapoi, pentru corecţia ponderii. Ponderile se modifică conform regulii de învăţare “delta” cunoscută şi sub numele de regula “Widrow-Hoff”:

pippip xodw )..( −η=∆ (3.7) η este o constanta cu valori în intervalul (0,1), numită viteză de învăţare.

Comutatoare

Element

Com

Co

-1

+1

w

w

w

+1

+1

-1

+1

+1

-1

w

Page 40: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

40

Algoritmul minimizează eroarea pătratica medie pentru toate modelele de intrare si modelele de ieşire, adică :

pippip x).od.(w −η=∆ (3.8) Din acest motiv, algoritmul se numeşte si LMS (least mean square), adică cu cea mai mică eroare pătratică medie. Se poate demonstra că, alegând o viteza de învăţare suficient de mică, sistemul converge spre o funcţie de eroare minima, găsind setul de ponderi optim. La fiecare iteraţie eroarea scade cu η, sistemul converge spre un minim al funcţiei de eroare, găsind setul de ponderi optim. (vezi Fig.3.11)

∑ −=p

2pp )od(

21E (3.9)

Fig.3.11 Suprafaţa de eroare pentru un neuron adaptiv cu regula de învăţare

Delta Demonstraţie Se demonstrează că regula delta implementează un gradient descendent în spaţiul erorilor.

i

Pip w

E.w∂∂

η−=∆ (3.9)

deqxodw

kxw

o

od

wo

oE

wE

pipp

i

ppii

p

pP

i

P

p

P

i

P

..).(

)][.()(21 2

=−−

=∂

θ−∂

−∂=

∂∂

∂∂

=∂∂

Page 41: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

41

Întrucât au un singur neuron adaptiv reţelele ADALINE pot implementa doar funcţii separabile linear. Reţelele MADALINE (Fig.3.12 ) au mai intrări, mai mulţi neuroni adaptivi şi la ieşire circuite logice de tip SAU, ŞI sau MAJORITATE. Cu ponderile potrivit alese, MADALINE pot implementa şi funcţii logice nonlinear separabile.

Fig.3.12 Structura MADALINE care implementează funcţia logică cu tabelul de adevăr

TAB1

Fie, de exemplu funcţia logică cu tabelul de adevăr următor:

x1 x2 Ieşire +1 +1 +1 +1 -1 -1 -1 -1 +1 -1 +1 -1

MADALINE implementează deci o separabilitate nonlineară, prezentată în Fig. 3.13.

Page 42: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

42

Fig.3.13 Regiunile de separare implementate de structura din Fig.3.12

3.4. Aplicaţiile ADALINE 3.4.1 Filtrarea adaptivă O aplicaţie directă este filtrarea adaptivă. Semnalul de intrare este aplicat unei linii de întârziere cu L celule şi apoi unui ADALINE. Ieşirea este o combinaţie liniară a intrării curente şi a eşantioanelor întârziate. Se utilizează regula Delta (algoritmul LMS) pentru determinarea ponderilor optime. Modificând ponderile se poate deci controla răspunsul la impuls al filtrului. Există mai multe tipuri de filtre adaptive, ce caută să obţină zerourile şi polii funcţiei de transfer. Acest filtru realizează zerourile funcţiei de transfer. Structura lattice prezentată converge în anumite condiţii mai rapid decât orice alt filtru, este simplă şi robustă. Filtrul adaptiv LMS este cel mai des utilizat filtru adaptiv.

Fig. 3.14 Structura filtrului adaptiv

Linii de separare

Semnal de intrare xk

întârzie întârzie întârziexk-1 xk-2 xk-L

w0 w1 w2 wL

Σ

Σ

……Algorit

m

L.M.S

+

ε eroare

Semnal filtrat de ieşire

Răspuns dorit

Page 43: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

43

Fig. 3.15 Simbolul filtrului adaptiv

3.4.2 Modelarea unui sistem necunoscut Se aplică semnalul de intrare filtrului adaptiv şi sistemului necunoscut, ca în Fig.3.16.

Ieşirea sistemului necunoscut se utilizează ca răspuns dorit pentru filtrul adaptiv. În urma adaptării ponderilor, diferenţa dintre ieşirea sistemului şi a filtrului adaptiv va fi minimă. F.A. va modela sistemul necunoscut.

Fig.3.16 Modelarea unui sistem necunoscut

3.4.3 Predicţia statistică Ponderile filtrului adaptiv se adaptează pentru a genera cea mai bună estimare în medie

pătratică între semnalul întârziat cu Δ iteraţii şi semnalul de intrare curent (care, la rândul său reprezintă o predicţie a intrării peste Δ eşantioane). Ponderile optime sunt copiate într-un filtru sclav, la a cărui intrare se aplică semnalul de intrare. La ieşirea filtrului sclav se obţine cea mai bună estimare a intrării peste Δ eşantioane .

FiltrSem Sem

Sem--

+ Σ

Filtru adapti

Semnal de

Ieşire

Semnal dorit

--

+ Σ

Eroare

Sistem necunoscut

Page 44: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

44

Fig. 3.17 Un circuit adaptiv predictiv 3.4.4 Egalizor de canal Canalele telefonice, radio şi chiar fibrele optice au un răspuns în frecvenţă variabil ca nivel şi nonlinear în fază. Aşadar transmisia datelor la mare viteză determină interferenţa intersimbol. Circuitul egalizor combate acest fenomen, prin filtrarea semnalelor de intrare. Un modem dotat cu un filtru adaptiv capabil să se adapteze ca un sistem invers poate compensa imperfecţiunile (ca nivel şi ca fază ale canalului de telecomunicaţii. La ieşirea circuitului cuantificator se obţine un semnal binar, care poate fi utilizat ca răspuns dorit pentru algoritmul adaptiv. Ponderile sunt iniţializate la zero. Semnalul de ieşire este iniţial afectat de zgomot. În timp ponderile se adaptează pentru a elimina diferenţa dintre răspunsul dorit şi ieşirea curentă. Sporadic pot apare erori de adaptare, dar în medie filtrul funcţionează corect. Egalizorul adaptiv are un răspuns plat ca nivel şi liniar ca fază. Fără egalizator canalul de telecomunicaţii transmite semnalul cu o eroare de aproximativ 10 –1 . Odată ce filtrul s-a adaptat eroarea de transmisie este de ordinul 10-6.Prin utilizarea unor modemuri cu egalizoare încorporate viteza de transmisie s-a multiplicat cu patru. Discriminarea între semnale la recepţie este clară +1 sau –1.

Filtru adaptiv

Ieşirea – predicţia peste Δ paşi a intrării

Semnal dorit

--

+

Σ

În

Filtru sclav

eroare

Page 45: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

45

Fig.3.18 Egalizor de canal

4. Reţele neuronale multistrat

4.1 Arhitectura

În forma lor generală, reţelele neuronale multistrat RNM (multilayer perceptrons) au un strat de intrare, un număr de straturi intermediare, numite ascunse şi un strat de ieşire, format fiecare dintr-un număr de neuroni. Când informaţia se propagă prin reţea de la intrare înspre ieşire, aceste reţele se numesc de tip "spre înainte" (feed-forward). În cele ce urmează se vor folosi modelul neuronului şi notaţiile introduse în paragraful 1.3.1. Arhitectura unei RNM cu un singur strat ascuns este reprezentată în figura 4.1.

Întârzier Întârzier Întârzierxk-1 xk-2 xk-L

w0 w1 w2

Σ

Σ

… …

Algoritm adaptiv

L.M.S

+

ε eroare

Ieşire binară

Emiţător Canal de telecomunicaţie

-- Ieşire analogică

+1

-1

Circuit cuantificator

Page 46: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

46

Strat de intrare Strat ascuns

Strat de ieşire

x1

xi

xN

ui

uk

wji

· · ·

· · · ·

· uj

wkj

· · ·

Fig.4.1 Arhitectura unei reţele neuronale multistrat

În mod uzual, funcţia de activare este aceeaşi, pentru toţi neuronii aparţinând aceluiaşi

strat. Pentru neuronii stratului de ieşire utilizarea unei funcţii de activare f(net) liniare, cel mult semiliniare, ca în exemplul din relaţia (4.1), este satisfăcătoare din punctul de vedere al performanţei realizate, pentru majoritatea aplicaţiilor:

( )

θ>

θ<<θ−θ

θ+θ−<

==+

)(,1

,2

)()(,0

)1(

tnetpentru

netpentrutnettnetpentru

netfto (4. 1)

Pentru a se depăşi performanţele reţelelor cu un strat, este însă necesar ca funcţia

de activare a neuronilor ascunşi să fie cel puţin semiliniară. Uzual, ea este o funcţie sigmoidă, dată de relaţia:

∑+

=θ+β−

ijpiji txwpj

eo

))((

1

1 (4.2)

unde β este un factor de proporţionalitate, aparţinând intervalului (0,1).

Avantajul unei astfel de funcţii este calculul simplu al derivatei:

)](1)[()(' xfxfxf −= (4.3)

Adesea se utilizează şi funcţia tangentă hiperbolică, deoarece are valori în intervalul [-1, 1]:

Page 47: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

47

xx

xx

eeeex −

+−

=)tanh( (4.4)

Derivata ei este relativ simplu de determinat, cu relaţia:

22

)(4)]([sec)tanh(

xx eexh

dxxd

−+== (4.5)

Pentru antrenarea unei reţele RNM se utilizează uzual algoritmul "cu retropropagarea erorii". 4.2 Algoritmul cu retropropagarea erorii Algoritmul cu retropropagarea erorii RPE ("back-propagation error") a fost fundamentat independent de mai mulţi cercetători din domeniul analizei numerice (Bryson & Ho, 1969), al statisticii (Werbos în 1974) şi cel al RN (Parker 1982 , Le Cun 1986, Rumelhart, Hinton & Wiliam 1986). Algoritmul este o învăţare cu control în două etape şi este cunoscut şi sub denumirea de "regula delta generalizată", denumire introdusă în 1986 de grupul de cercetare creat de Rumelhart şi Mc Clelland, într-o carte de referinţă în domeniul RN, "Parallel Distributed Processing" [D.E. Rumelhart, 86].

Algoritmul are 2 etape: prima în care informaţia se propagă prin reţea din strat în strat, de la intrare până la ieşire, şi cea de-a doua, în care erorile se propagă de la ieşire înspre intrare, determinând actualizarea parametrilor RNM. Prima etapă Fie notaţiile: N - numărul intrărilor în RN (care este dimensiunea vectorilor de intrare); Nh - numărul neuronilor stratului ascuns; Nout - numărul neuronilor stratului de ieşire; Ca în figura 4.1, în cele ce urmează, neuronii stratului de intrare vor fi indexaţi după i, neuronii stratului ascuns după j şi cei ai stratului de ieşire după k. Intrarea netă netpj pentru fiecare model de intrare p, într-un neuron ascuns j, este dată de suma ponderată a intrărilor în neuron şi de pragul θj, prin relaţia:

∑=

θ+=N

ijpijipj xwnet

1 i=1,2, ….N (4.6)

Ieşirea opj a fiecărui neuron ascuns se calculează ca o funcţie de intrarea netă:

)(1

∑=

θ+=N

ijpijipj xwfo j=1,.., hN (4.7)

În cazul unei reţele neuronale cu un singur strat ascuns, ieşirea opk a neuronului k de ieşire

se exprimă în funcţie de informaţia primită din stratul ascuns cu relaţia:

∑∑==

θ+=θ+=hh N

jkpjij

N

jkpjkjpk owowfo

1pk

1net unde )( k=1,..,Nout (4.8)

Page 48: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

48

şi vectorul ][ 21 kjkkk w...ww=w este vectorul ponderilor conexiunilor neuronului k de ieşire. Funcţia globală realizată de RN la ieşirea neuronului k este deci:

∑ ∑= =

θ+θ+=hN

jkj

N

ipijikjpk xwfwfo

1 1))(( k=1,.. ,Nout, (4.9)

Ieşirea curentă opk se compară cu răspunsul dorit dpk, generând, în neuronii de ieşire, o eroare δpk:

)(')( pkpkpkpk netfod −=δ (4.10)

unde f' este derivata funcţiei de activare a neuronului. Etapa a doua În etapa a doua, erorile se propagă de la ieşire spre intrare, din strat în strat determinând modificarea ponderilor conexiunilor în sensul minimizării erorii la nivelul fiecărui neuron în parte. Regula de învăţare pentru conexiunile dintre neuronii de ieşire şi cei ascunşi este:

pjpkkjp ow ηδ=∆ (4.11)

unde Δpwkj reprezintă variaţia ponderii wkj a interconexiunii dintre neuronul j şi neuronul k şi η este constanta de învăţare care poate lua valori în intervalul (0,1). Pentru neuronii ascunşi, indexaţi după j, erorile δpj se calculează cu ajutorul erorilor neuronilor de ieşire δpk cu relaţia:

( )pjk

kjpkpj netfw '

δ=δ ∑ (4.12)

Apoi se modifică ponderile conexiunilor dintre neuronii ascunşi şi intrări cu relaţia:

pipjjip ow ηδ=∆ (4.13)

Page 49: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

49

Dacă în RN există mai multe straturi ascunse, erorile se evaluează pentru fiecare strat cu relaţia (4.12) şi apoi se determină noile ponderi dintre stratul anterior şi cel succesiv. În reţea pot exista şi ponderi fixe. Dacă există neuroni de ieşire şi în straturile ascunse, aceştia însumează două tipuri de erori: erori rezultate din compararea ieşirii cu răspunsul dorit şi erori obţinute prin propagare, de la neuronii de ieşire spre neuronii cu care sunt cuplaţi. Algoritmul cu retropropagarea erorii minimizează eroarea pătratică medie în fiecare iteraţie. Studiile arată că RN converge în general spre un minim local, care reprezintă în unele cazuri o soluţie acceptabilă. În literatura de specialitate sunt prezentate mai multe metode pentru evitarea minimelor locale, aspect care va fi abordat în cele ce urmează. În literatură se demonstrează [S.Haykin, 94.2] că algoritmul cu retropropagarea erorii implementează un gradient descendent al erorii totale în spaţiul ponderilor, adică este satisfăcută relaţia:

dwdEtwtw η−=+ )()1( (4.14)

unde dE/dw este gradientul aleatoriu necunoscut al erorii totale dintre modelele de intrare şi modele de ieşire dorite. White a demonstrat că relaţia (4.14) este de fapt o aproximare stochastică [S. Haykin, 94.2]. Algoritmul presupune o etapă de antrenament, una de testare şi apoi cea de utilizare. Crearea bazei de date şi selectarea datelor de antrenament, respectiv de testare, au o influenţă majoră în succesul sau eşecul funcţionării unei RN. În timpul antrenamentului, fiecare pereche (xp , dp) model de intrare-model de ieşire dorit este prezentată repetat. Necesitatea unei prezentări repetate a modelelor în timpul antrenamentului reprezintă una dintre carenţele algoritmului cu retropropagarea erorii, deoarece conduce la un timp îndelungat afectat antrenamentului RN. În timpul testării se aplică doar modelele de intrare, verificându-se statistic corectitudinea funcţionării. În cazul în care performanţa obţinută este acceptabilă, RN poate fi utilizată în practica curentă.

4.3 Aspecte importante ale algoritmului cu retropropagarea erorii

În cele ce urmează se prezintă câteva dintre elementele care influenţează semnificativ performanţele algoritmului cu retropropagarea erorii, ilustrându-se cauzele unor posibile rezultate nesatisfăcătoare şi oferindu-se câteva indicaţii utile în aplicaţiile practice [S. Haykin, 94.2], [Y.H. Hu, 02]. 4.3.1 Crearea bazei de date Crearea bazei de date solicită cel mai îndelungat efort în dezvoltarea unei aplicaţii şi are o importanţă majoră în succesul sau eşecul acesteia. Această etapă presupune:

• adunarea datelor; • analiza datelor; • alegerea variabilelor; • preprocesarea variabilelor de intrare, astfel încât RN să poată învăţa eficient;

Din practica curentă specialiştii afirmă că 9/10 din dezvoltarea unei aplicaţii este soluţionată prin colectarea datelor adecvate. Selectarea datelor de intrare implică adesea alegerea dintre mai multe variabile, astfel încât familiaritatea cu domeniul aplicaţiei este de nepreţuit. Specialiştii în RN colaborează cu experţii în domeniul aplicaţiei pentru dezvoltarea RN.

Page 50: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

50

Analiza datelor de intrare se face din perspectiva tehnicilor statistice. Corelaţia dintre o anumită intrare şi o anumită ieşire poate sugera includerea sau excluderea variabilei. O corelaţie puternică dintre două variabile poate duce la eliminarea uneia dintre ele. După alegerea celor mai semnificative intrări se pune problema examinării distribuţiei lor şi în general se elimină valorile în afara distribuţiei tipice. Este de dorit ca perechile de date intrare-ieşire folosite în procesul de antrenare să fie cât mai diferite, pentru ca reţeaua să aibă la dispoziţie un număr de "scenarii" cât mai mare pentru problema concretă considerată. În setul de antrenare se inserează câteodată (în special atunci când baza de date este redusă sau puternic redundantă) şi date provenind din suprapunerea unor nivele de zgomot peste valorile originale, ceea ce are ca efect îmbunătăţirea capacităţii de generalizare a reţelei. Analiza datelor poate duce la identificarea de tendinţe, cicluri sau alte relaţii care pot fi extrase prin preprocesare. Preprocesarea transformă datele astfel încât ele să poată fi mai uşor învăţate de RN. Preprocesarea poate implica calculul de sume, diferenţe, derivate, puteri, radicali, medii, transformate Fourier sau extragere de caracteristici. O RN poate pregăti datele de intrare pentru o altă RN, realizând de exemplu o grupare, înainte de o clasificare mai rafinată. Cantitatea datelor suficiente este o problemă complexă, adeseori afectată de consideraţii practice, ca de exemplu costul colectării datelor. Datele de antrenament trebuie să asigure un eşantion reprezentativ şi suficient pentru un antrenament corect. Seturi mari de date reduc riscul subeşantionării funcţiei de învăţat, dar în acest caz RN necesită un timp îndelungat de antrenare. Seturi mici de date implică o antrenare rapidă, dar reţeaua poate eşua în faza de utilizare. Suficienţa datelor depinde de mai mulţi factori, ca de exemplu: mărimea RN, distribuţia intrărilor şi ieşirilor, cerinţele testării. Din practica curentă s-a ajuns la concluzia că pentru un antrenament eficient sunt suficiente aproximativ zece modele pentru fiecare interconexiune a reţelei. O altă regulă empirică apreciază că trebuie să existe următoarea relaţie între dimensiunea bazei de date considerate D, folosite în procesul de învăţare, numărul ponderilor Nw şi valoarea finală a erorii pătratice E(∞):

)(∞=

END w (4.15)

Împărţirea judicioasă a bazei de date, într-un set de antrenare şi altul de validare, este

hotărâtoare în obţinerea unor performanţe de generalizare satisfăcătoare. Există rezultate teoretice care justifică alegerea dimensiunii setului de date de antrenament la aproximativ 90% şi a celui de validare la aproximativ 10% din baza de date originală. 4.3.2 Modalităţi de antrenare

Strategia uzuală presupune antrenarea RN multistrat ″off-line″, cu date disponibile în baza de date. Există două metode de antrenare ″off-line″, pentru o RN multistrat cu algoritmul cu retropropagarea erorii:

1. Modul ″model cu model″ ( ″pattern by pattern mode″) constă în modificarea setului de ponderi după câte o prezentare a unei singure perechi de date model de intrare- model de ieşire dorit. Se recomandă o prezentare aleatoare a datelor de antrenament, pentru a evita ca reţeaua să considere, în mod eronat, că acestea au un caracter periodic, intrinsec. Există indicaţii empirice că viteza de convergenţă a algoritmului este mai mare în acest caz.

2. Modul ″pachet″ (″batch mode″) în care ponderile sunt ajustate după prezentarea întregului set de date de antrenament. Aplicarea datelor de antrenament o singură dată se numeşte epocă de antrenare. Varianta optimă de antrenare depinde de aplicaţia concretă.

Antrenarea în timp real, ″on-line″, este mai apropiată de condiţiile reale de utilizare a RN. Datele de antrenare sunt obţinute în timp real, din măsurători curente ale procesului de modelat şi determină modificarea imediată a parametrilor RN.

Page 51: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

51

Dezavantajul constă în faptul că în urma unei modificări radicale a parametrilor, la prezentarea unei perechi model de intrare - model de ieşire dorit, RN îşi poate pierde capacitatea de interpolare a unor date ulterioare. Dacă dimpotrivă, noua asociere este prea aproape de cea anterioară, modificarea parametrilor poate fi nesemnificativă.

4.3.3 Criterii de oprire a învăţării Există mai multe criterii de oprire a antrenării unei RN multistrat cu algoritmul RPE, ca

de exemplu: • După un număr de iteraţii predefinit, dar există riscul ca eroarea să nu scadă suficient; • La o valoare impusă a erorii, dar numărul de iteraţii ar putea fi prea mare; • La o valoare dată a variaţiei erorii pentru două iteraţii consecutive. Metoda este

inadecvată pentru situaţiile în care eroarea are paliere de-a lungul cărora se modifică foarte puţin, deşi în valoare absolută este considerabilă.

• Validarea prin intersecţia datelor (″cross-validation″). RN se antrenează cu datele de antrenament, timp în care eroarea descreşte continuu. Se verifică funcţionarea RN cu datele de testare, timp în care eroarea descreşte, apoi creşte din nou, ca în figura 4.2.

Fig.4.2 Evoluţia erorii în funcţie de numărul de iteraţii pentru faza de antrenament,respectiv testare

În acest interval, aşa numit de supraantrenare (″overfitting″), RN nu mai modelează procesul care a generat asocierile model de intrare - model de ieşire dorit, ci învaţă chiar datele. Ponderile RN se îngheaţă la un număr de iteraţii optim, corespunzător momentului în care eroarea din faza de testare începe să crească. 4.3.4 Generalizarea Odată antrenată RN, se pune problema cât de bine generalizează. A generaliza, conform dicţionarului explicativ, înseamnă a formula principii sau concluzii din detalii obţinute prin experienţă. Abilitatea unei RN de a generaliza se referă la identificarea de reguli ce-i permit să facă predicţii corecte asupra unor date necunoscute. Capacitatea de generalizare a unei RN se verifică pe setul de date de testare. Factorii care o influenţează sunt: numărul eşantioanelor de date, complexitatea problemei, mărimea reţelei. Există studii care stabilesc limita inferioară şi superioară a capacităţii de generalizare a unei RN (măsură cunoscută sub denumirea de ″dimensiunea Vapnik-Cervonenkis″), în funcţie de dimensiunea modelelor de intrare, numărul neuronilor ascunşi, numărul total al neuronilor RN, numărul ponderilor RN.

Eroare

Iteraţii

Antrenament

Test

Număr optim

Supraantrenare

Page 52: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

52

4.3.5 Funcţia de activare Utilizarea unei funcţii de activare neliniare conferă unei RN avantajul unui potenţial de

procesare superior comparativ cu cazul utilizării unei funcţii liniare. Astfel o RN cu o funcţie de activare neliniară va necesita un număr mai mic de neuroni ascunşi, chiar de straturi, decât o RN cu o funcţie de activare liniară pentru a rezolva o aceeaşi problemă. Uzual, funcţia de activare a unui neuron este o funcţie neliniară bipolară (4.16) sau unipolară (4.17), funcţii de inspiraţie biologică:

ax

ax

eeaxxf −

+−

==11)tanh()( (4.16)

axexf −+

=1

1)( (4.17)

S-au observat creşteri semnificative ale vitezei de convergenţă în cazul utilizării unei

funcţii de activare bipolare. Ajustarea parametrului a, cu valori în intervalul (0,1), respectiv scăderea sa în timp, are efecte benefice în special în faza iniţială a procesului de învăţare.

Un avantaj major al acestor funcţii îl constituie simplitatea obţinerii derivatelor de ordinul I cu relaţia (4.3), care permite evaluarea rapidă a erorilor δ în algoritmul RPE. Găsirea tipului adecvat de neliniaritate pentru o aplicaţie dată conferă forţă de calcul superioară unei reţele neuronale.

În aplicaţiile de clasificare se utilizează adeseori funcţia denumită softmax, care permite interpretarea ieşirilor reţelei neuronale ca probabilităţi condiţionate:

∑=

j

x

x

i j

i

eexf )( (4.18)

Derivata funcţiei de activare are un efect semnificativ asupra vitezei de convergenţă.

Observaţia conform căreia variaţia ponderilor, direct proporţională cu derivata funcţiei de activare, este neglijabilă pentru semnale mari (pentru care derivata se anulează) a impus creşterea artificială a valorii derivatei. Prin adăugarea unei constante de 0,1 s-a redus în unele situaţii timpul de procesare la jumătate.

4.3.6 Funcţia de eroare În cazul unei reţele neuronale multistrat, funcţia de eroare este o funcţie

multidimensională neliniară, ai cărei parametrii sunt valorile interconexiunilor şi pragurile neuronilor. Un algoritm de antrenare oarecare urmăreşte modificarea acestor parametrii în sensul minimizării erorii.

Într-o formă generală, pentru o RN cu N neuroni, funcţia de eroare poate fi dată de relaţia:

∑∑=

−=p

N

j

Rpjppj dWoE

1);(X (4.19)

unde:

-djp este răspunsul dorit pentru modelul p de intrare; -opj este ieşirea curentă a neuronului j pentru modelul p de intrare; -W reprezintă totalitatea parametrilor reţelei (ponderile şi pragurile);

Page 53: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

53

-Xp este modelul de intrare p;

Pentru R=2 se obţine eroarea medie pătratică.

Observaţii: • Eroarea pătratică medie este extrem de sensibilă la prezenţa unor erori particulare mari, pentru

modelele de intrare atipice ("outliers"). Performanţe superioare se obţin pentru alte tipuri de distanţe metrice, ca de exemplu, pentru distanţa Manhattan, care are R=1.

• Funcţia de eroare definită anterior este specifică modului de antrenare de tip "pachet" (batch) (ajustarea parametrilor reţelei se face după fiecare prezentare integrală a bazei de date disponibile). Reprezentarea geometrică a funcţiei de eroare pune în evidenţă existenţa unui minim global şi a mai multor minime locale, ca în figura 4.3. Este important de observat că aspectul funcţiei de eroare este independent de algoritmul de învăţare. În cazul unei funcţii de activare neliniare suprafaţa funcţiei eroare nu este concavă, astfel încât există posibilitatea ca algoritmul de antrenament să se oprească într-unul dintre minimele locale. În acest minim local, eroarea poate fi mare. Pentru unele aplicaţii, oprirea într-unul dintre minimele locale reprezintă o soluţie a problemei, din moment ce eroarea obţinută este acceptabilă. Un exemplu în acest sens îl reprezintă implementarea funcţiei SAU EXCLUSIV.

• Observând natura statistică a algoritmului retropropagării erorii, White a propus tehnici de optimizare robuste ale statisticii pentru a creşte insensibilitatea RN la perturbaţii. Eroarea se poate înlocui cu o funcţie de eroare, ca de exemplu:

( ) ( ) ( )[ ]iiiiii xeeeee ,min,max;1/;2/tan 2 −+ . În alegerea funcţiei de eroare se apelează adesea la metoda încercării.

Fig.4.3 Aspect tipic al funcţiei de eroare

Tehnicile de optimizare utilizate în prezent se încadrează într-una dintre următoarele două

categorii: a) Metode în care funcţia de eroare descreşte sau rămâne constantă de la o iteraţie la alta,

fără posibilitatea de a creşte temporar. Dezavantajul acestora este imposibilitatea de a "evada" din minimele locale. Exemple din această categorie sunt algoritmul RPE de tip gradient conjugat, algoritmul RPE de tip quasi-Newton, precum şi varianta "tampon" a algoritmului RPE cu scădere după gradient.

Minime locale

Minim global

woptim w

E(w)

Page 54: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

54

b) Metode în care eroarea evoluează în medie către valoarea minimă, permiţând creşteri temporare ale valorii acesteia. Din această categorie sunt varianta "model cu model" a algoritmului RPE cu scădere după gradient şi varianta RPE cu impuls.

Unele dintre metodele performante de optimizare neliniară, ca de exemplu algoritmul RPE de tip gradient conjugat şi algoritmul Levenberg-Marquardt, fac apel la aproximări pătratice locale ale funcţiei de eroare şi utilizează matrici jacobienne ale derivatelor parţiale de ordinul întâi sau matrici hessienne ale derivatelor parţiale de ordinul doi.

4.3.7 Iniţializarea ponderilor şi pragurilor Valorile iniţiale ale ponderilor şi pragurilor se aleg cu atenţie pentru a preîntâmpina

saturarea prematură a neuronilor şi deci scăderea vitezei de convergenţă a algoritmului. De obicei acestea se aleg aleatoriu, eventual uniform distribuit într-un interval de valori:

[-2,4/ iF ; 2,4/ iF ]

unde Fi este numărul total de intrări în neuron.

4.3.8 Viteza de învăţare Alegerea vitezei de învăţare η, în intervalul de valori (0,1) are o importanţă deosebită în

evoluţia procesării. • O viteză de învăţare mare, asigură o convergenţă rapidă, dar poate determina oscilaţii ale

reţelei; • O viteză de învăţare mică, în intervalul (0.05, 0.25) are ca efect mărirea timpului de

procesare şi poate duce la împotmolirea în minime locale cu o probabilitate mai mare; Deci, pentru a mări convergenţa algoritmului de antrenare este necesară creşterea

constantei de învăţare. Există mai multe metode folosite pentru satisfacerea acestei condiţii: Metoda impulsului Metoda impulsului a fost introdusă de Rumelhart, Hinton şi Williams, în 1986, într-o carte

de referinţă în domeniul RN, "Parallel Distributed Processing" [D.E.Rumelhart, 86]. Prin introducerea unei relaţii între variaţia curentă a ponderii Δpwij(t+1) şi modificarea ei anterioară Δpwij(t) se pot asigura paşi mai mari în procesare (convergenţă mai rapidă ) şi se evită oscilaţiile reţelei la o viteză mare de învăţare:

)(.)1( twotw ijppipjijp ∆α+ηδ=+∆ (4.20)

unde α este o constantă, numită impuls ("momentum"), ce determină efectul variaţiei anterioare a ponderilor asupra variaţiei curente.

Fig.4.4 Convergenţa algoritmului de antrenare

a) pentru o viteză mică de învăţare; b) pentru o viteză mare de învăţare; c) pentru o viteză mare de învăţare şi un termen de impuls;

Page 55: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

55

Dacă α este zero, se poate regăsi în relaţia (4.20) algoritmul clasic al retropopagării erorii. Dacă variaţia ponderii are de la o iteraţie la alta acelaşi semn, atunci, în pasul următor, ea va creşte cu αΔwij(t). Astfel este favorizată parcurgerea "dealurilor" în funcţia de eroare. Dacă Δwij(t) îşi schimbă semnul de la o iteraţie la alta atunci Δwij(t) scade în pasul următor cu αΔwij(t) Astfel metoda are un efect stabilizator, realizând practic o filtrare a variaţiilor ponderilor.

Figura 4.4 reprezintă convergenţa reţelei în spaţiul ponderilor în trei cazuri posibile: a) pentru o viteză mică de învăţare, fără impuls, când este necesar un timp îndelungat pentru

atingerea minimului; b) pentru o viteză mare de învăţare, fără impuls, când minimul nu poate fi atins datorită

oscilaţiilor reţelei; c) pentru o viteză mare de învăţare şi un termen de impuls, când minimul este atins rapid;

Metoda netezirii

Este o generalizare a metodei impulsului, introdusă de Sejnowski şi Rosenberg, în 1987, care utilizează relaţia:

])1()([)1( pipjijpijp obtwbtw δ−+∆η=+∆ (4.21)

Dacă: • constanta b=0, atunci relaţia (4.21) este forma standard a algoritmului RPE ; • b=1, atunci ponderile rămân neschimbate; • b∈ (0,1) atunci variaţia ponderii este ″netezită″ cu constanta b;

Metoda vitezei de învăţare variabile Pentru a evita oscilaţiile RN, care pot apare în jurul soluţiei optime, se poate alege o viteză de învăţare descrescătoare în timp. Descreşterea rapidă poate fi asigurată de condiţia :

∑=

∞→∞<η

1

2])[(limnn

n (4.22)

unde η[n] este viteza de învăţare la momentul n. Dacă descreşterea vitezei de învăţare este prea rapidă, există riscul ca ponderile să uite modelele deja învăţate. Astfel încât viteza de învăţare trebuie să descrească suficient de lent, satisfăcând relaţia:

∑=

∞→∞=η

1

2])[(limnn

n (4.23)

Dacă η[n]=1/n condiţiile (4.22) şi (4.23) sunt simultan satisfăcute. Cele două condiţii reprezintă aşa numita dilemă plasticitate-stabilitate, descoperită de Grossberg, care poate fi formulată astfel : O RN trebuie să satisfacă două condiţii contradictorii : 1. Trebuie să fie suficient de stabilă pentru a-şi aminti modelele anterior învăţate ; 2. Trebuie să fie suficient de plastică pentru a putea învăţa modele noi ; Satisfacerea celor două condiţii menţionate anterior nu garantează convergenţa algoritmului RPE, ci asigură doar o comportare "rezonabilă".

Page 56: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

56

4.3.9 Problema minimelor locale Există mai multe metode pentru evitarea minimelor locale:

• schimbarea constantei de învăţare; • schimbarea ponderilor iniţiale; • modificarea numărului de neuroni ascunşi;

Adăugarea unor valori aleatoare mici ponderilor, procedură cunoscută sub numele de "scuturarea reţelei", permite RN ieşirea dintr-un minim local. Dacă noua stare este suficient de îndepărtată de minimul local, procesarea se poate desfăşura într-o nouă direcţie, fără a exista riscul revenirii în minim.

Dacă performanţa obţinută într-un minim local este acceptabilă, acesta poate fi considerat o soluţie a problemei.

4.3.10 Arhitectura Prin alegerea adecvată a arhitecturii reţelei se poate diminua probabilitatea apariţiei unor

minime locale ale funcţiei de eroare. Pentru alegerea arhitecturii optime a unei RN pentru o aplicaţie dată, respectiv pentru determinarea numărului de straturi ascunse necesare şi a numărului neuronilor dintr-un strat, nu există criterii cantitative, ci doar reguli empirice. Probabil că acest aspect nu se va rezolva în cazul general, din moment ce fiecare aplicaţie are alte cerinţe pentru reţea. Numărul neuronilor trebuie să fie suficient de mare pentru a genera o configuraţie a regiunilor de decizie suficient de complexă, pentru o problemă dată.

Dimensiunea RN trebuie judicios aleasă astfel încât să nu fie subdimensionată sau supradimensionată. O reţea neuronală prea mică nu va fi capabilă să generalizeze în mod adecvat. O reţea neuronală prea mare ar putea fi prea capabilă, prezentând dezavantajul manipulării greoaie. Numărul conexiunilor ar fi în acest caz foarte mare şi pentru determinarea ponderilor ar fi necesar un număr foarte mare de date, respectiv un timp îndelungat de antrenament. Pentru determinarea mărimii optime se poate recurge la metoda empirică a încercărilor.

Literatura de specialitate consemnează mai multe modalităţi de determinare a mărimii optime a unei reţele:

• Se construieşte cea mai mică reţea posibilă pentru aplicaţia în cauză şi apoi i se adaugă treptat neuroni, până când performanţa realizată este satisfăcătoare;

• Se construieşte o reţea mare şi apoi se elimină treptat neuronii inutili, verificându-se de fiecare dată performanţa reţelei ;

Se apreciază că numărul de neuroni din primul strat ascuns, trebuie să fie de trei ori mai mare decât numărul neuronilor din al doilea strat ascuns, pentru ca acest strat să furnizeze trei sau patru laturi pentru fiecare regiune identificată de al doilea strat ascuns. În general structura unei RN multistrat trebuie să fie una de tip compresie, de la un număr mai mare de neuroni spre un număr redus de neuroni. În cazul în care problema de instruire presupune divizarea spaţiului vectorilor de intrare în m clase, RN trebuie să aibă m ieşiri, fiecare ieşire corespunzând unei clase.

În unele cazuri este necesară o creştere exponenţială a numărului de straturi pentru a obţine o creştere liniară a vitezei de învăţare. Există însă şi probleme pentru care viteza de instruire descreşte cu mărimea numărului de straturi.

Exemplu După cum am menţionat anterior, este o adevărată artă, ce implică întreaga experienţă a

proiectantului alegerea arhitecturii adecvate, a funcţiei de activare şi a algoritmului de antrenament pentru o RN care să genereze soluţia optimă într-o aplicaţie concretă.

Pentru a exemplifica impactul funcţiei de activare vom prezenta comparativ [B.J.A. Kröse, 94] performanţele obţinute de două reţele neuronale multistrat, antrenate cu algoritmul retropropagării, ce aproximează funcţia f(x)=sin(2x)sin(x).

Page 57: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

57

În figura 4.5 este reprezentată ieşirea unei RN implementată cu un neuron de intrare, un neuron de ieşire şi opt neuroni ascunşi ce procesează o funcţie de activare sigmoidă. RN a fost antrenată cu zece modele să aproximeze funcţia dorită f(x)=sin(2x).sin(x). În figură, cu linie întreruptă este reprezentată funcţia aproximată şi cu linie continuă ieşirea RN.

Fig.4.5. Ieşirea unei RN antrenate cu algoritmul retropropagării erorii să aproximeze funcţia

f(x)=sin(2x).sin(x), ce utilizează o funcţie de activare sigmoidă În figura 4.6 se prezintă ieşirea unei alte RN cu o arhitectură semnificativ redusă,

antrenată tot cu algoritmul retropropagării erorii şi cu aceleaşi zece modele. RN a fost implementată cu un neuron de intrare, un neuron de ieşire, patru neuroni

ascunşi ce procesează o funcţie de activare armonică, respectiv sin(), preluată din teoria aproximării. Se remarcă că performanţa reţelei în al doilea caz este net superioară decât în primul caz, deşi numărul neuronilor ascunşi este semnificativ mai mic. Aşadar alegerea funcţiei de activare optime poate îmbunătăţi semnificativ performanţa obţinută de o RN.

Fig.4.6 Ieşirea unei RN antrenate în aceleaşi condiţii ca în cazul Fig.4.5, dar cu o funcţie

de activare sinus în neuronii ascunşi;

Page 58: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

58

Cursul 4 Egalizoare

Introducere

Canalele de comunicaţie au, în cazul cel mai general, caracteristici de fază şi amplitudine neliniare şi variabile în timp, datorită neliniarităţilor intrinseci, condiţiilor meteo de propagare, zgomotelor aditive din mediul înconjurător şi zgomotului termic al dispozitivelor electronice. Amplificatoarele care lucrează în mod uzual în apropierea punctului de saturaţie introduc şi ele neliniarităţi fără memorie, care combinate cu efectele filtrelor de transmisie şi recepţie devin neliniarităţi cu memorie. În consecinţă, semnalele transmise sunt afectate de diferite distorsiuni neliniare, atenuări, zgomot aditiv, interferenţă intersimbol, interferenţă cu canalele adiacente, etc.

Tehnica de reconstrucţie a simbolurilor transmise este egalizarea de canal. În cazul unei dispersii mari a valorilor datelor de intrare, egalizoarele liniare se confruntă cu problema instabilităţii numerice. Deoarece, în general, canalele de comunicaţii sunt variabile în timp, egalizoarele trebuie să fie adaptive, pentru a urmări variaţiile în timp ale răspunsului în frecvenţă al canalului. În cazul distorsiunilor neliniare, generate de canalele variabile în timp, egalizoarele liniare nu au performanţe bune. Singura soluţie în cazul distorsiunilor neliniare şi severe ale canalelor de comunicaţie o reprezintă egalizoarele neliniare. Abordând problema egalizării ca o problemă de clasificare, reţelele neuronale pot genera regiuni de decizie arbitrare cu o mare precizie. Studiile realizate în ultimul deceniu au stabilit superioritatea egalizoarelor neuronale comparativ cu cea a egalizoarelor tradiţionale, în special în condiţiile distorsiunilor neliniare mari şi a semnalelor rapid variabile în timp. Implementarea prin intermediul reţelelor neuronale oferă avantajul unei viteze de procesare deosebite, în timp real, absolut necesară pentru comunicaţiile viitorului.

Deoarece comunicaţiile viitorului se vor baza pe transmisiile eficiente din punct de vedere spectral, ca de exemplu cele care utilizează semnale modulate în cuadratură, studiile internaţionale curente vizează în mod special aceste semnale. Semnalele modulate în cuadratură, având anvelopă variabilă, sunt mai puternic afectate atât în fază, cât şi în amplitudine, de neliniarităţile introduse în transmisie. Pentru a elimina distorsiunile semnalelor modulate în fază şi în cuadratură sunt necesare egalizoare pentru semnale complexe. Egalizoarele cu RN pentru semnale complexe sunt extensii directe ale celor pentru semnale reale, obţinute prin înlocuirea parametrilor relevanţi, ca de exemplu, intrările, ieşirile, ponderile, pragurile şi/sau funcţiile de activare, cu mărimi complexe [D.Jianping,02].

Literatura de specialitate prezintă diferite tipuri de egalizoare neliniare, variante clasice, variante hibride care încorporează şi tehnica neliniară a reţelelor neuronale şi variante care folosesc exclusiv reţele neuronale. Egalizoarele hibride sunt uzual combinaţii între un filtru liniar transversal şi diferite tipuri de reţele neuronale, cu sau fără reacţie inversă. Filtrul liniar transversal elimină distorsiunile liniare, ca de exemplu interferenţa intersimbol, astfel încât reţeaua neuronală se poate ocupa exclusiv de distorsiunile neliniare.

Pentru implementarea egalizoare adaptive neuronale s-au abordat diferite arhitecturi implementate cu:

• RN multistrat de tip spre înainte, antrenate cu un algoritm de tip gradient descendent, ca de exemplu algoritmul retropropagării erorii [S. Chen, 90], [A.Kantsila, 04], [T.Kim, 02];

• reţele neuronale cu legături funcţionale [A. Hussain, 97], [J.C.Patra, 99];

Page 59: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

59

• reţele neuronale cu funcţii de bază radiale [I. Cha, 95 ], [S. Chen, 94a], [Q. Gan, 99], [D.Jianping, 02], [J. Lee, 96], [J.Lee, 99], [C.Botoca, 04];

• reţele neuronale celulare [R.Perfetti, 93]; • reţele neuronale recurente [S.Bouchired, 99.1], [G.Kechriotis, 94], [R.Parisi, 97], [**, 02] ;

5. 2 Problema egalizării

Figura 1 prezintă poziţia unui egalizor într-un sistem de comunicaţie. Canalul de

comunicaţii introduce atât distorsiuni liniare cât şi neliniare. Ieşirea canalului de comunicaţii y(n), este afectată de un zgomot aditiv w(n). În cel mai simplu caz zgomotul aditiv poate fi modelat ca un proces Gaussian.

Fig.6.1 Poziţia egalizorului în sistemul de comunicaţii

Rolul egalizorului este de a genera cea mai bună estimare )(nx≈

a semnalului transmis x(n), pe baza semnalului recepţionat r(n). În proiectarea unui egalizor trebuie luaţi în considerare următorii factori: tipul canalului, zgomotul introdus de receptor în special datorită amplificării şi interferenţa intersimbol. Canalul de comunicaţie poate fi fix sau variabil în timp, de fază minimă sau nu. Un canal este de fază minimă dacă toate zerourile funcţiei de transfer H(z) sunt conţinute în interiorul cercului unitate din planul z. Interferenţa intersimbol este determinată de distorsiunile liniare. Amplificatoarele, convertoarele şi mediul de propagare introduc în special distorsiuni neliniare. Egalizorul trebuie să realizeze cel mai bun compromis între eliminarea interferenţei intersimbol şi amplificarea zgomotului la receptor.

3 O clasificare a egalizoarelor adaptive

Figura 2 prezintă o clasificare a egalizoarelor adaptive. După modul de determinare a parametrilor, familia egalizoarelor adaptive se poate împărţi în egalizoare supravegheate şi egalizoare nesupravegheate, aşa numite egalizoare "oarbe". Pentru compensarea caracteristicii canalului de comunicaţii necunoscut, este necesară adeseori excitarea periodică a sistemului cu un semnal cunoscut sau cu un semnal pilot, ce întrerupe transmisia informaţiei utile. O copie a acestui semnal este disponibilă şi la receptor şi egalizorul îl compară cu răspunsul întregului sistem de transmisie pentru a-şi reînnoi parametrii. Acest tip de egalizor se numeşte egalizor supravegheat. Constrângerile asociate cu unele sisteme de comunicaţie, ca de exemplu televiziunea digitală sau radioul digital, nu oferă însă cadrul pentru folosirea unui semnal cunoscut pentru antrenamentul egalizorului.

Canalul de comunicaţii Egalizor

x(n) y(n)

w(n)

r(n) )(nx≈

Page 60: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

60

În această situaţie egalizorul utilizează metode nesupravegheate sau cu autorecuperare pentru a-şi adapta parametrii. Acest tip de egalizor se numeşte egalizor orb. După antrenament, egalizorul funcţionează în modul de decizie direct, în care îşi poate reînnoi parametrii pe baza datelor curente detectate. Egalizarea supravegheată poate fi obţinută fie prin estimarea blocului (secvenţei) de date, fie prin estimarea simbolului. Egalizorul de bloc de date foloseşte o secvenţă a eşantioanelor recepţionate pentru refacerea întregii secvenţe a simbolurilor de date transmise. Egalizorul de secvenţe optim este cel care se bazează pe criteriul plauzibilităţii maxime (MLSE maximum likehood sequence estimator) şi poate fi eficient implementat cu algoritmul Viterbi de plauzibilitate maximă (MLVA maximum likehood Viterbi algorithm). Egalizorul MLVA poate oferi cele mai bune performanţe atunci când statistica canalului este perfect cunoscută, dar prezintă dezavantajul unei complexităţi ridicate de implementare. Acesta este unul dintre principalele motive pentru care egalizoarele cu estimarea simbolului, care necesită implementări simple, sunt folosite în mod uzual, chiar dacă performanţele lor sunt mai slabe decât cele ale clasei de egalizoare cu decizia blocului [E.S.Chng, 95]. Egalizoarele cu estimarea simbolului sunt de asemenea preferate în cazul în care canalul este variabil în timp, ca de exemplu în comunicaţiile mobile. Performanţele egalizoarelor MLVA se degradează semnificativ în comunicaţiile mobile, din cauza acumulării erorilor de urmărire ale canalului în timpul estimării blocurilor de date.

Fig. 2 Clasificarea egalizoarelor adaptive

Egalizoarele care estimează simbolul transmis realizează detecţia şi decizia simbolului recepţionat în fiecare perioadă a acestuia. În această clasă de egalizoare există două modalităţi de implementare a funcţiei de decizie, şi anume, cea care utilizează tehnicile liniare, respectiv cea care utilizează tehnicile neliniare. O abordare liniară pentru funcţia de decizie a egalizorului simbol cu simbol oferă simplitatea implementării calculelor, dar cu costul unei performanţe inferioare.

Egalizoare adaptive

Egalizoare supraveghea

Egalizoare oarbe

Egalizoare cu estimarea

secvenţei

Egalizoare cu estimarea simbolului

Egalizoare neliniare

Egalizoare liniare

Eg. ZF MMSE MBER Wiener LMS

RLS…

Eg. ZF MMSE MBER Wiener LMS

RLS…

Eg. Bayes Eg. Volterra

Eg.cu RN Eg.Mahalanob

is Eg.fuzzy

Eg.cu ZF Eg. MMSE Eg. Wiener Eg.MBER Eg.LMS Eg.RLS

Eg.MLSE

Page 61: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

61

Forma convenţională a egalizorului liniar se bazează pe teoria filtrului adaptiv liniar, ale cărui ponderi sunt adecvat ajustate de un algoritm ce minimizează eroarea dintre simbolurile de ieşire şi cele recepţionate. Diferite criterii de optimizare cum ar fi criteriul erorii medii pătratice minime (MMSE minimum mean square error), criteriul minimului erorii de bit (MBER minimum bit error rate) sau criteriul distorsiunii de amplitudine pot fi utilizate pentru proiectarea egalizoarelor liniare. Egalizorul optimizat folosind criteriul distorsiunii de amplitudine este numit egalizor cu forţare a zeroului (ZF). În ultimii ani egalizarea ZF a devenit mai puţin populară, implementările curente fiind în mod uzual bazate pe criteriile MMSE sau MBER. În cazul criteriului MMSE egalizarea liniară implică utilizarea ecuaţiilor Wiener, care necesită cunoaşterea exactă a caracteristicilor canalului. În practică, egalizarea liniară este o filtrare liniară antrenată cu un algoritm adaptiv. Uzual se foloseşte algoritmul erorii medii pătratice minime (LMS least mean square). Alţi algoritmi sunt: algoritmul recursiv al celor mai mici pătrate (RLS recoursive least square), algoritmul RLS rapid (fast RLS), algoritmul rădăcinii pătrate RLS (square root RLS) , algoritmul RLS de tip gradient (gradient RLS). Egalizoarele liniare nu au performanţe bune în cazul canalelor "cu nuluri spectrale adânci", din moment ce ele plasează un câştig mare la aceste frecvenţe, şi în consecinţă amplifică zgomotul aditiv. În absenţa zgomotului aditiv şi în cazul canalelor de fază minimă, egalizorul liniar operează ca şi un sistem invers canalului, furnizând o transmisie fără distorsiuni. Atunci când zgomotul este prezent şi canalul nu este de fază minimă, utilizarea modelului invers nu este suficientă. Amplificarea zgomotului poate fi evitată prin utilizarea tehnicilor neliniare. Implementarea neliniară include două tipuri de structuri, una fără reacţie şi cealaltă cu decizie pe baza reacţiei inverse. Egalizorul Bayes este cel care oferă performanţa optimă din punctul de vedere al erorii de bit [A.T. Georgiadis, 00]. Funcţia de decizie a egalizorului Bayes se bazează pe criteriul probabilităţii maxime aposteriori (MAP maximum a posteriori probabilitiy), derivat din teoria Bayes şi va fi prezentată într-unul din paragrafele următoare. Detectorul optim MAP simbol cu simbol (MAPSD) oferă o rată a erorii de bit mai mică, pentru o întârziere dată, decât în cazul MLSE. La valori mari ale raportului semnal pe zgomot diferenţele de performanţă a celor două tipuri de egalizoare sunt nesemnificative. Pe de altă parte, la valori mici ale raportului semnal pe zgomot, performanţa egalizorului MLSE este inferioară egalizorului MAPSD [A.T. Georgiadis, 00].

Un model clasic de egalizor neliniar este aşa numitul egalizor cu decizie pe baza reacţiei inverse (decision feedback equaliser DFE ). Egalizorul DFE utilizează pentru reconstrucţia semnalului util semnalul recepţionat şi ca reacţie deciziile sale anterioare. Acest egalizor este utilizat în special atunci când interferenţa intersimbol este mare, având la o aceeaşi complexitate performanţe superioare filtrelor liniare transversale. Datorită reacţiei, funcţia de transfer a DFE este o funcţie neliniară a semnalului recepţionat. Tehnicile moderne în procesarea semnalului oferă şi o mare varietate de alte egalizoare neliniare, ca de exemplu: egalizoarele bazate pe seriile Volterra, egalizoarele bazate pe distanţa Mahalanobis şi egalizoarele cu reţele neuronale.

Structurile ce vor fi prezentate în cele ce urmează combină un filtru liniar transversal cu reţele neuronale de diferite tipuri, într-o arhitectură cu sau fără reacţie inversă. Filtrul liniar transversal elimină distorsiunile liniare, ca de exemplu interferenţa intersimbol, astfel încât reţeaua neuronală se poate concentra asupra eliminării distorsiunilor neliniare.

4 Egalizarea ca o problemă de clasificare Un punct de vedere alternativ la ideea filtrării inverse este abordarea tehnicii de egalizare

ca o problemă de clasificare a modelelor. Obiectivul egalizării este în acest caz separarea semnalelor recepţionate în spaţiul modelelor. În situaţiile reale, când zgomotul este prezent în semnalul recepţionat, canalul de comunicaţie este variabil în timp şi nu are fază minimă, o clasificare optimă este neliniară. Datorită proprietăţii lor de aproximatoare universale RN sunt

Page 62: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

62

capabile să proceseze regiuni de decizie neliniare, cu o precizie remarcabilă. Viteza deosebită a RN datorată procesării paralele, este încă un argument pentru utilizarea lor în implementarea egalizoarelor adaptive.

În cazul unei transmisii bipolare de date, eşantioanele recepţionate, afectate de interferenţa intersimbol şi de zgomot, ar trebui clasificate ca +1 sau –1. Funcţia egalizorului este în acest caz să asocieze fiecare eşantion recepţionat cu regiunea de decizie corectă.

În cazul unor semnale complexe clasificarea trebuie realizată în spaţiul complex. Astfel pentru semnale modulate în cuadratură 4-QAM , constelaţia intrărilor posibile este:

−−=

−=

+−=

+=

=+=

jx

jxjx

jx

jxxnx IR

1

1

1

1

)(

)4(

)3(

)2(

)1(

( 1)

Din punctul de vedere al unei RN, egalizorul trebuie să clasifice semnalul recepţionat într-una dintre cele patru clase posibile:

U41

)(≤≤

=l

dd lPP ( 2)

sau:

41

,)()()( )(

≤≤

=−=

lxdnxnylP l

d ( 3)

5 Un model al problemei egalizării

Fie un semnal x(n) aplicat la intrarea unui canal liniar dispersiv cu răspuns finit la impuls (FIR) (Fig. 3), care poate fi modelat cu un filtru FIR de ordinul k, cu valori reale şi nenule ale coeficienţilor a0, a1, ..., ak-1. Semnalul aleator de intrare generează ieşirea y(n):

∑−

=

−=1

0

)()(k

ii inxany ( 4)

Fie semnalul de la ieşirea canalului de comunicaţie y(n) afectat de zgomotul aditiv w(n). În majoritatea studiilor w(n) este modelat ca un zgomot alb, gaussian, cu o dispersie σe

2. Semnalele y(n) şi w(n) se consideră semnale necorelate. Semnalul recepţionat de egalizor este:

∑−

=

+−=+=1

0

)()()()()(k

ii nwinxanwnynr ( 5)

Problema egalizării constă în determinarea unei estimări cât mai exacte a semnalului de intrare x(n), utilizând informaţia reprezentată de semnalul recepţionat, r(n) şi semnalul întârziat cu d iteraţii, x(n-d). Performanţa egalizorului poate fi evaluată prin probabilitatea clasificărilor eronate în funcţie de raportul semnal pe zgomot (RSZ), dat de relaţia:

( )[ ]( )[ ] 2

1

0

2

2

1

0

22

2

2

e

k

ii

e

k

iis aa

nwEnrERSZ

σ=

σ

σ

==∑∑

=

= ( 6)

Page 63: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

63

unde E este momentul centrat de ordinul doi, σs2 =1 este dispersia simbolurilor transmise, egală cu

1, şi σe2 este dispersia zgomotului alb.

Fig. 3 Un model al problemei egalizării În cele ce urmează vom considera structura egalizorului hibrid prezentată în Fig. 4, o

combinaţie între un filtru liniar transversal şi un egalizor neliniar. Semnalul recepţionat folosit pentru a estima simbolurile transmise este r(n)=[ r(n) r(n-1) ….r(n-m+1)]T. Semnalul corespunzător de la ieşirea canalului de comunicaţie neafectat de zgomot este vectorul y(n)=[y(n) y(n-1) …y(n-m+1)]T. Egalizorul constă dintr-un filtru pentru implementarea funcţiei de decizie şi un dispozitiv de cuantificare a funcţiei de ieşire f(r(n)) a acestuia într-unul din simbolurile posibile transmise. În cazul în care alfabetul transmis este format din simbolurile +1, -1 cuantificatorul poate fi implementat folosind funcţia sgn( ). În cazul în care semnalul transmis este 4-MAQ zgomotul aditiv se consideră şi el un semnal complex, cu partea reală wR(n) independentă de cea imaginară wI(n). În acest caz, se folosesc două circuite de cuantificare, unul pentru partea reală şi unul pentru partea imaginară. Performanţele egalizorului sunt determinate de funcţia de decizie. Se ştie că funcţia de decizie optimă este funcţia de decizie Bayes [E.S.Chng, 95]. Ea este o funcţie neliniară astfel încât şi funcţia de decizie a egalizorului trebuie să fie neliniară.

Generator de secvenţă pseuoaleatoare

Modelul echivalent de canal

Egalizor

Generator de zgomot

Întârziere

Σ

x(n) y(n)

w(n) e(n)

r(n)

x(n-d)

-

+

Page 64: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

64

Fig. 4 Structura unui egalizor hibrid

Exemplu Pentru a ilustra diferenţa de performanţă între egalizoare liniare şi cele neliniare simulările au fost orientate spre compararea performanţei de decizie a egalizorul MMSE liniar cu cea a egalizorului neliniar optim, Bayes. A fost utilizat canalul cu următoarea funcţie de transfer

21 3482.08704.03482.0)( −− ++= zzzH şi o sursă de semnale bipolare, cu constelaţia 1± . Rezultatele simulărilor, pentru o întârziere d=1 .şi un ordin al filtrului LT m=4, sunt prezentate în Fig. 5. Axa verticală a graficului indică probabilitatea deciziei eronate pe o scară logaritmică

10log=BER şi axa orizontală indică RSZ. Se poate observa că performanţele egalizorul Bayes diferă semnificativ faţă de cele ale egalizorului liniar. De exemplu, pentru o valoare a

probabilităţii de decizie eronată de 410− , egalizorul Bayes are o îmbunătăţire a raportului semnal pe zgomot de 4,4 dB faţă de egalizorul liniar de tip MMSE

r(n+m-1) r(n-1) r(n) z-1 z-1

Funcţia de decizie a egalizorului f(r)

Canal de comunicaţie Σ

y(n) x(n)

w(n)

)(nx≈

Page 65: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

65

Figura 5 Comparaţia performanţei de decizie a egalizorul liniar MMSE şi cea a egalizorul neliniar optim, Bayes, pentru canalul 21 3482.08704.03482.0)( −− ++= zzzH pentru d=1 şi m=4

6 Modelul canalului de comunicaţie În paragraful anterior s-a introdus cel mai simplu model al unui canal de

comunicaţie dispersiv liniar, şi anume, filtrul liniar transversal. În situaţiile reale canalul introduce însă şi distorsiuni neliniare. Utilizarea unor modele adecvate ale canalului, respectiv ale dispozitivelor active de pe calea de transmisie, cât mai apropiate de cele reale este esenţială în dezvoltarea sistemelor de comunicaţie ale viitorului.

Figura 6 reprezintă un model al canalului de comunicaţie care introduce atât distorsiuni liniare (L) cât şi distorsiuni neliniare (NL). Literatura de specialitate menţionează variate modele cu diferite liniarităţi, respectiv neliniarităţi.

Uzual, partea liniară este modelată cu un filtru liniar transversal, cu valori reale şi nenule ale coeficienţilor a0, a1, ..., ak.

Fig. 6 Modelul neliniar al unui canal de comunicaţie

Semnalul aleator de intrare generează ieşirea conform relaţiei ( 4):

∑−

=

≈−=

1

0

)()(k

ii inxany ( 7)

L

NL

ỹ(n) x(n) y(n)

Page 66: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

66

Pentru semnale complexe se utilizează modele de canal complexe. Modelul sugerat în referinţa bibliografică [I.Cha, 95] generează ieşirea conform relaţiei:

)2()21.034.0()1()43.087.0()()27.034.0( −−+−++−=≈

nxjnxjnxjy ( 8)

Partea neliniară este de ordinul al treilea şi furnizează ieşirea:

32 )]([05.0)]([1.0)()( nynynyny≈≈≈

++= ( 9)

Un alt model [S.Chen, 94] se bazează pe relaţiile următoare:

)2()0223.01556.0()1()2961.08890.0()()7406.07409.0(

−−++−−−−=

nxjnxjnxjy ( 10)

32 )]([14.0)]([055.0)()( nynynyny

≈≈≈+−= ( 11)

Fig. 7 Coeficienţii unui canal de comunicaţie variabil în timp

Modelarea unui canal neliniar variabil în timp, ca de exemplu un canal ai cărui coeficienţi variază în timp se poate face cu următoarea funcţie de transfer:

n

no znaznaznanazH −−− ++++= ).(...).().()()( 22

11 ( 12)

unde coeficienţii ai(n) variază cu timpul discret n şi poţi fi generaţi prin trecerea unui zgomot gaussian printr-un filtru Butterworth .

Banda filtrului determină banda relativă (fading rate) a canalului. Presupunând că avem un canal cu o bandă de frecvenţă de 2 kHz, cu o viteză de transmisie de 2400 simboluri pe secundă şi un

Page 67: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

67

filtru Butterworth de ordinul 2 cu o bandă de 0.5 Hz la 3 dB, curbele răspunsului la impuls sunt prezentate în Fig. 7.

7 Egalizoare implementate cu reţele neuronale multistrat

Structura unui egalizor pentru semnale reale, implementat cu o reţea neuronală multistrat, cu

un strat ascuns, este dată în Fig. 8. În cazul în care performanţa egalizorului nu este satisfăcătoare, între filtrul liniar transversal şi ieşire se pot introduce mai multe straturi de neuroni ascunşi.

Structura unui egalizor neliniar pentru semnale complexe, implementat cu o reţea neuronală multistrat este prezentată în Fig. 9. Se observă că partea reală este abordată separat de cea imaginară a semnalului de intrare. Variabilele de intrare în reţeaua neuronală sunt eşantioanele întârziate ale semnalului de intrare. Stratul de ieşire va avea un neuron pentru partea reală, respectiv unul pentru partea imaginară. Ieşirea acestuia se compară cu semnalul dorit, adică semnalul de intrare întârziat. Funcţia de activare este uzual o funcţie neliniară de tip sigmoidă. Pentru determinarea coeficienţilor filtrului liniar transversal şi a reţelei neuronale se utilizează în mod uzual algoritmul retropropagării erorii. Algoritmul este iterativ şi minimizează orice funcţie de cost diferenţiabilă, ca de exemplu eroarea medie pătratică.

Fig. 8 Egalizor pentru semnale reale implementat cu o reţea neuronală multistrat , cu un strat ascuns

Semnal de intrare x(n) z-1 z-1 z-1 x(n- x(n-

w0 w1 w2 wk

Σ

Σ

……

Algoritm adaptiv

+

ε eroare

Semnal de

-

Răspuns dorit

x(n-

Page 68: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

68

Fig. 9 Structura unui egalizor complex implementat cu o reţea neuronală multistrat

În cazul unor semnale complexe este necesară pentru antrenare o variantă complexă a algoritmului cu propagare inversă a erorii. (CBKP complex backpropagation), care are şi el aceleaşi carenţe ca şi varianta clasică, reală. Algoritmii de tip gradient, prezintă dezavantajele timpului îndelungat de antrenare şi a atragerii soluţiei în minimele locale ale funcţiei eroare, adesea nesatisfăcătoare din punctul de vedere al preciziei realizate. O altă problema care poate apare în CBKP este selecţia funcţiei de activare. În cazul semnalelor reale, funcţiile de activare sunt reale şi limitate. În cazul semnalelor complexe, cu excepţia constantelor, toate funcţiile de activare uzuale ar putea fi nelimitate. Pentru a satisface situaţia conflictuală între limitarea şi diferenţiabilitatea unei funcţii complexe au fost dezvoltate două variante ale algoritmului CBKP, una care utilizează o funcţie de activare complet complexă [T.Kim, 02] (fully complex activation function BKP FCBKP) şi alta cu funcţii de activare separate pentru cele două părţi ale semnalului, reală şi imaginară [A.Kantsila, 04] (split complex activation function (SCBKP).

Pentru a rezolva problema convergenţei lente a fost introdus un alt algoritm de antrenament complex resilient propagation (CRPROP). Studiile efectuate arată că din punctul de vedere al erorii de bit algoritmul CRPROP are performanţe comparabile cu CBKP, dar în condiţiile unei convergenţe mult mai rapide şi cu un cost computaţional semnificativ redus [A.Kantsila, 04].

8. Reţele pe bază de funcţii radiale 8.1 Generalităţi Având în vedere carenţele reţelelor neuronale multistrat, timpul îndelungat de antrenare şi

posibilitatea blocării în minimele locale ale funcţiei de eroare, reţelele neuronale pe bază de funcţii radiale (RBFR) au focalizat în ultimul deceniu interesul cercetării internaţionale. RBFR sunt capabile să aproximeze orice funcţie neliniară într-un spaţiu multidimensional, cu o complexitate de procesare semnificativ redusă în comparaţie cu cea a altor reţele neuronale.

În figura 10 este reprezentată structura unei RBFR, care conţine un strat de intrare, un singur strat ascuns şi un strat de ieşire.

Ieşirea canalului de comunicaţii z-1

z-1

z-1

I

I

R

R

R

I

.

.

.

.

.

. .

.

.

Page 69: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

69

Fig.10 Arhitectura unei reţelele neuronale pe bază de funcţii radiale

În cele ce urmează se prezintă câteva dintre caracteristicile RBFR, în comparaţie cu

RNM: • Ca şi RNM, reţeaua RBFR este o reţea cu procesarea informaţiei "spre înainte". Spre deosebire

de RNM care are poate avea mai multe straturi ascunse, RBFR are un singur strat ascuns. • În RBFR, neuronii stratului ascuns sunt neliniari şi neuronii stratului de ieşire sunt liniari. RNM

utilizează neuroni neliniari atât în stratul ascuns cât şi în cel de ieşire atunci când funcţionează ca şi clasificatoare. Doar în cazul în care RNM rezolvă probleme de regresie neliniară se preferă neuroni liniari în stratul de ieşire.

• În stratul ascuns, RBFR utilizează funcţii de activare radiale, de tip canal, al căror răspuns neliniar (uzual exponenţial) este localizat într-o regiune restrânsă a spaţiului modelelor de intrare. Ca şi RNM, RBFR sunt aproximatoare universale. RNM realizează o aproximare globală a transformării neliniare intrare-ieşire, în timp ce RBFR, datorită utilizării funcţiilor radiale, implementează aproximări locale. Acesta este motivul pentru care RBFR învaţă mai rapid şi sunt mai robuste, respectiv mai puţin sensibile la ordinea prezentării datelor de intrare, decât RNM.

• Funcţia de activare este reală şi pentru procesarea unor semnale complexe, nu ca în cazul RNM, o funcţie complexă. Atunci când semnalul de intrare este complex, partea reală şi cea imaginară sunt prelucrate separat, în aceeaşi manieră.

Ieşirile RBFR se determină cu relaţia:

oNjj

N

i iijiwjyh

,1,1

=θ+∑=

−φ= cx (13)

unde • yj este ieşirea neuronului j; • wji sunt ponderile asociate conexiunilor neuronului j; • θj este pragul neuronului j; • ( )•φi este funcţia radială a neuronului i ascuns; • ci reprezintă vectorul pondere a neuronului i ascuns, numit şi vectorul centru asociat

neuronului i; • reprezintă distanţa euclidiană; • Nh este numărul neuronilor din stratul ascuns; • No este numărul neuronilor din stratul de ieşire;

x1

x2

xN

θ1

θi

θNh

y1

yj

yN0

• • •

• • •

wj1

w11

θN0

θ1

θ2

• • •

Page 70: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

70

Fiind dat vectorul x de intrare, x=[x1 x2 ... xN]T, aparţinând spaţiului RN, distanţa euclidiană se defineşte prin relaţia:

( )21

21 xxx T2N

22 x.....xx =++= (14)

Parametrii RBFR sunt vectorii centru ci şi vectorii pondere wj. Fiecare dintre neuronii

stratului ascuns calculează o distanţă între vectorul de intrare al reţelei x şi vectorul său centru ci. Aceasta poate fi o distanţă metrică oarecare, uzual cea euclidiană. Cu cât un centru este mai aproape de vectorul de intrare cu atât distanţa neuronului corespunzător va fi mai mică. În cazul în care vectorul centru corespunde cu vectorul de intrare, distanţa euclidiană va fi zero. Rezultatul este trecut printr-o funcţie de activare neliniară, reală, continuă ( )ii ρ•φ , , RR →φ +: , numită funcţie radială. Aceasta dă şi denumirea reţelei neuronale. Răspunsul acestei funcţii este simetric faţă de centru. Funcţia radială depinde şi de un parametru ρi, numit rază sau împrăştiere a funcţiei. Pentru datele de intrare îndepărtate de centru, ieşirea funcţiei radiale este mică, apropiindu-se de zero pe măsură ce creşte distanţa. Pentru datele de intrare apropiate de centru ieşirea funcţiei radiale este mare, apropiindu-se de valoarea unu pe măsură ce scade distanţa. Astfel, RBFR este capabilă de o modelare locală a datelor de intrare. Pentru fiecare vector de intrare, una sau mai multe funcţii radiale ale neuronilor ascunşi va avea o ieşire diferită de zero. În cazul extrem o singură funcţie radială se foloseşte pentru fiecare vector de intrare, astfel încât vectorii centru vor fi identici cu cei de intrare. De aceea, transformarea funcţiilor radiale în orice valoare de ieşire dorită, devine o problemă simplă, realizabilă prin intermediul ponderilor interconexiunilor stratului de ieşire liniar.

Există mai multe tipuri de funcţii de activare radiale, dintre care se prezintă exemplele următoare:

• Funcţia Gaussiană:

2

2)(

)( ρ

−−

=φcx

ex (15)

Fig.11 Funcţia radială Gauss cu centrul c=0 şi rază ρ=1

Uzual se alege raza proporţională cu dispersia centrului σ2 , respectiv 22 2σ=ρ , monoton descrescătoare cu distanţa faţă de centru, ca în figura 11.

• Funcţia multipătratică este reprezentată în figura 12 şi este dată de relaţia:

)(xφ

x

Page 71: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

71

21

22 ])[()( ρ+−=φ cxx (16)

Fig.12 Funcţia radială multipătratică cu centrul c=0 şi rază ρ=1

• Funcţia inversă multipătratică este reprezentată în figura 13:

21

22 ])[(

1)(ρ+−ρ

cxx (17)

Fig.13 Funcţia radială inversă multipătratică cu centrul c=0 şi rază ρ=1

• Funcţia Cauchy, reprezentată în figura 14, se defineşte prin relaţia:

)(xφ

x

)( xφ

x

Page 72: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

])[(1)( 22 ρ+−ρ

=φcx

x (18)

Fig.14 Funcţia radială Cauchy pentru centrul c=0 şi rază ρ=1

Bineînţeles că se pot introduce şi alte funcţii de activare radiale cu proprietăţi

similare celor anterior descrise. Studiile teoretice şi practice demonstrează că tipul neliniarităţii funcţiei radiale nu este esenţial pentru performanţele RBFR [S. Haykin, 94.2].

8.2 Algoritmi de determinare a centrilor şi a ponderilor conexiunilor stratului de ieşire

Aplicaţiile iniţiale ale RBFR au fost de modelare şi identificare de sisteme

neliniare, deci au vizat transformări neliniare în spaţiul multidimensional. Aceasta a necesitat structuri mari, cu mulţi neuroni, deoarece erau necesare suficiente neliniarităţi pentru a permite modelarea şi identificarea oricărui sistem neliniar. În aceste aplicaţii toate datele de intrare au fost folosite ca centri. Evident, deoarece uzual numărul datelor de intrare disponibile este foarte mare, utilizarea lor integrală nu este practică. Pentru aplicaţiile de procesare a semnalelor, în care RBFR este uzual utilizată ca şi un estimator, se pot folosi tehnici de selecţie pentru reducerea dimensiunii. Termenul folosit în domeniul RN este de antrenare a RBFR. Antrenarea unei RBFR constă în determinarea parametrilor săi, respectiv a numărului centrilor (1), poziţiei şi razei centrilor funcţiilor radiale (2), precum şi a ponderilor conexiunilor stratului de ieşire (3). Unii algoritmi abordează aceşti paşi separat, alţii generează toţi parametrii simultan. S-au propus mai mulţi algoritmi de determinare a parametrilor RBFR, constând de obicei dintr-un algoritm fără control pentru determinarea vectorilor centru

)(xφ

x

Page 73: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

73

ai stratului ascuns al reţelei şi unul cu control pentru determinarea vectorilor pondere ai interconexiunilor stratului de ieşire.

Proiectarea şi antrenarea reţelelor RBFR depind esenţial de modul de alegere a centrilor, de aceea numeroase studii au abordat această problemă. Principalele strategii care s-au impus în practică sunt următoarele: alegerea aleatoare a unor centri ficşi din baza de date [S. Haykin, 94.2], algoritmul standard competitiv [R. Hecht-Nielsen, 90], algoritmul sensibil la frecvenţa de câştigare a competiţiei [S.C. Ahalt, 90], algoritmul competitiv cu penalizarea rivalului [L. Xu, 93], algoritmul competitiv cu penalizarea dinamică a rivalului [C. Botoca, 05], alegerea unui subset din datele de intrare prin metoda celor mai mici pătrate ortogonale (orthogonal least squares) [S. Chen, 91] şi selecţia supervizată a centrilor [S. Haykin, 94.2].

9 Implementarea funcţiei de decizie Bayes folosind o reţea neuronală pe bază de funcţii radiale

Atunci când canalul de comunicaţie este cunoscut şi zgomotul aditiv introdus

în transmisie este gaussian, egalizorul Bayes conduce la o eroare medie pe simbol minimă, întrucât el realizează o clasificare neliniară a semnalelor recepţionate cu o probabilitate minimă a erorilor. De aceea se pune problema implementării egalizorului Bayes cu o reţea neuronală, capabilă să funcţioneze şi atunci când canalul şi perturbaţiile care afectează transmisia sunt necunoscute. Din acest punct de vedere, prezintă interes reţeaua neuronală pe bază de funcţii radiale, introdusă în capitolul 5. Considerăm în figura 6.4 funcţia de decizie a egalizorului implementată cu o RBFR cu o funcţie de activare radială gaussiană. Răspunsul egalizorului implementat cu o RBFR poate fi scris şi sub forma [E.S. Chng, 95]:

( ) ∑=

ρ−φ=hN

iiiwrf

1

2 )/( cr (19)

unde: • f (r) este funcţia de decizie a unui neuron de ieşire a RBFR • wi, este ponderea conexiunii dintre neuronul ascuns i şi neuronul de ieşire; • ci reprezintă vectorul centru al neuronului ascuns i; • reprezintă distanţa euclidiană, dată de relaţia:

2i

2ii 1mnc1mnr.....ncnrnn ][][][][][][ +−−+−++−=− cr

(20)

• Nh este numărul neuronilor din stratul ascuns; • ρ este raza funcţiei radiale;

Page 74: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

74

Structura reţelei RBFR implementează chiar funcţia de decizie Bayes, dacă vectorii centru, raza funcţiei radiale şi neliniarităţile φ ( ) sunt alese adecvat. De aceea reţeaua RBFR este ideală în modelarea egalizorului Bayes.

Pentru implementarea egalizorului Bayes, folosind reţeaua RBFR, stările canalului jc , SNj ≤≤1 , devin centri RBFR. Numărul neuronilor ascunşi Nh este dat de numărul stărilor posibile la ieşirea canalului de comunicaţie, respectiv de NS.

Similaritatea cu egalizorul Bayes impune ca parametrul de împrăştiere să fie dat de relaţia ρ=2σe

2, unde σe2 este dispersia zgomotului dată de relaţia:

22 ][][ nnE ie cr −=σ (21)

În relaţia de mai sus norma poate fi de diferite tipuri, dar de obicei este folosită distanţa euclidiană. Ponderile wi fie sunt fixe, fie pot fi determinate printr-un algoritm supervizat, ca de exemplu algoritmul LMS.

Performanţele RBFR depind în mod critic de poziţiile centrilor şi mai puţin de estimarea zgomotului.

10 Egalizor complex cu reţea neuronală pe bază de funcţii radiale Structura unui egalizor pentru semnale complexe, implementat utilizând

RBFR, este prezentată în figura 15 şi este similară egalizorului optim de tip Bayes, în condiţiile prezentate în paragraful anterior. Egalizorul conţine un filtru liniar transversal de ordinul m şi o RBFR. Canalul de comunicaţie este modelat utilizând un filtru transversal de ordinul k. Fie vectorul semnalului de la ieşirea canalului de comunicaţie y[n] afectat de zgomotul aditiv complex w[n], care poate fi un zgomot gaussian cu o dispersie 2

eσ . Semnalele y[n] şi w[n] sunt considerate necorelate. Partea reală wR[n] şi cea imaginară wI[n] a zgomotului se consideră secvenţe mutual independente. Ieşirea canalului de comunicaţie se aplică la intrarea egalizorului complex.

Vectorul semnalului recepţionat aplicat la intrarea RBFR este secvenţa r[n], r[n]=[r[n] r[n-1] ….r[n-m+1]]T. Pentru că acesta presupune m termeni ai semnalului de intrare, vor trebui considerate NS combinaţii posibile ale secvenţei de intrare în canalul de comunicaţie NS=4 M+m-1 de forma x[n]=[x[n] x[n-1] …x[n-m-M+2]]T. Semnalul corespunzător de la ieşirea canalului de comunicaţie neafectat de zgomot este vectorul y[n]=[y[n] y[n-1] …y[n-m+1]]T ce are de asemenea NS stări.

Sarcina egalizorului este de a reconstitui semnalul transmis cât se poate de

exact generând o estimare ][nx≈

, pe baza vectorului semnalului recepţionat r[n] şi a semnalului întârziat x[n-d]. Partea reală, respectiv cea imaginară a semnalului

Page 75: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

75

complex 4-QAM este prelucrată în mod independent, în aceeaşi manieră. Funcţia de activare neliniară a neuronilor ascunşi este reală, şi poate fi specificată prin relaţia:

( ) ( )( ) hi

Hii Ninnnn ≤≤ρ−−φ=φ 1][][][][ crcr (22)

Unde operatorul (•)H=((•)T)*, este (•)T operatorul de transpunere şi (•)* este operatorul de conjugare complexă. Stratul de ieşire al RBFR are opt neuroni, doi neuroni pentru fiecare dintre clasele posibile ale semnalului 4-QAM, unul pentru partea reală şi celălalt pentru cea imaginară. Funcţia de activare a neuronilor de ieşire fRBF este liniară, şi ţinând cont de funcţia de activare gaussiană a neuronilor ascunşi, este dată de relaţia:

( )( ) ( )

∑=

ρ−−

=h

i

iH

iN

i

nn

iRBFR ewf1

][][][][ cnrcnr

r (23)

unde wi sunt ponderile complexe de interconexiune înspre neuronul de ieşire:

Pentru antrenarea reţelei RBFR se utilizează de obicei un algoritm fără control pentru determinarea centrilor stratului ascuns şi unul cu control pentru determinarea ponderilor interconexiunilor stratului de ieşire.

Un exemplu de algoritm cu control uzual este algoritmul erorii medii pătratice minime (LMS least mean square), care utilizează relaţia următoare pentru determinarea ponderilor interconexiunilor înspre stratul de ieşire al unei RBFR:

][][][]1[ nneαnwnw ii φ+=+ (24)

unde α este constanta de învăţare şi e[n] este eroarea complexă, determinată cu relaţia:

( )rRBFfdnxne −−= ][][ (25)

Acest algoritm minimizează media erorii pătratice (MSE mean square error ):

∑=

=N

ii ne

NMSE

1

2 ][1 (26)

unde N este numărul secvenţelor de intrare. Alţi algoritmi permit determinarea simultană a tuturor parametrilor RBFR. Un

exemplu, în acest sens este algoritmul propus de Cha şi Kassam în studiul [I. Cha, 95 ], care utilizează ca şi criteriu de eroare un gradient stohastic descendent. Algoritmul calculează gradientul curent al erorii medii pătratice şi modifică parametrii reţelei în direcţia minimizării acestuia.

Page 76: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

76

În lucrarea [D. Jianping, 02] se propune un algoritm cu învăţare secvenţială pentru antrenarea unui egalizor neuronal, numit algoritm complex cu alocare minimă a resurselor (complex minimal resource allocation network CMRAN), care permite adăugarea şi eliminarea de neuroni ascunşi astfel încât să se realizeze o structură optimă pentru aplicaţia dată.

Fig.15 Structura unui egalizor cu RBFR

Reţeaua iniţială nu are neuroni ascunşi. De fiecare dată când la intrare se aplică o pereche de date de antrenament, formată dintr-un model de intrare - model de ieşire dorit, reţeaua se construieşte pe baza a trei criterii de creştere. Algoritmul adaugă un neuron ascuns sau modifică parametrii existenţi ai RN în concordanţă cu datele de antrenament. Algoritmul CMRAN încorporează şi un mecanism de îndepărtare a neuronilor ascunşi care nu contribuie semnificativ la performanţa RN.

Studiile au demonstrat că performanţele egalizorului a cărui configuraţie a fost determinată cu algoritmul CMRAN sunt superioare egalizorului antrenat cu algoritmul

Strat ascuns

1w

Ieşire

1Φ hΦ

z-1 z-

fRBFR(r)

Canal de

zgomot alb

Σ x[n] y[n]

r[n] r[n-1] r[n-m+1] . . .

. . .

2Φ 1−Φh

][nx≈

2w hw 1−hw

Page 77: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

77

cu gradient stohastic, din punctul de vedere al erorii pe bit şi al complexităţii de procesare.

Canalele de comunicaţie de ordine ridicate au un număr mare de stări, astfel încât ele necesită structuri RBFR cu un număr foarte mare de centri. Algoritmul CMRAN reduce însă numărul centrilor astfel încât egalizorul implementat are o performanţă bună, în condiţiile unei complexităţi reduse şi deci ale unei funcţionări rapide.

11 Exemple

În cele ce urmează se prezintă câteva rezultate ale simulărilor implementate în Matlab pentru testarea unor egalizoare cu RBFR, pentru semnale complexe modulate în amplitudine în cuadratură 4-QAM, cu diferite modele neliniare şi complexe de canal, în diferite condiţii de zgomot, utilizând diferite ordine ale filtrului liniar transversal şi întârzieri d [C. Botoca, 04].

Semnalele 4-QAM au fost generate utilizând o distribuţie uniformă, partea reală în mod independent de cea imaginară. S-a generat un zgomot alb complex w[n] cu o distribuţie gaussiană, partea reală în mod independent de cea imaginară. Zgomotul s-a însumat cu ieşirea canalului de comunicaţie neliniar y[n] obţinându-se la intrarea egalizorului semnalul recepţionat r[n].

Numărul neuronilor ascunşi, adică al centrilor RBFR a fost ales mai mare decât NS, numărul stărilor posibile ale semnalului y[n], de la ieşirea canalului de comunicaţie [S. Chen, 94.1].

Alegând ordinul modelului canalului k=3 şi ordinul filtrului liniar transversal de la intrarea RBFR m=1, se obţine numărul stărilor posibile ale semnalului de la ieşirea canalului, NS = 64.

Pentru determinarea centrilor egalizoarelor RBFR au fost utilizaţi mai mulţi algoritmi competitivi, algoritmul competitiv standard ACS (expus în paragraful 5.2.2), algoritmul competitiv sensibil la frecvenţă ACSF (expus în paragraful 5.2.3) şi algoritmul competitiv cu penalizarea rivalului ACPR (expus în paragraful 5.2.4). Pentru stratul de ieşire al RBFR s-au utilizat opt neuroni, câte doi neuroni pentru fiecare clasă posibilă a semnalului 4-QAM , unul pentru partea reală şi unul pentru partea imaginară. Raza funcţiilor de activare radiale, ρ, a fost aleasă la valoarea 0.28.

Simulările au fost implementate utilizând modelele de canal introduse în subcapitolul 6.6. Pentru determinarea centrilor egalizorului RBFR au fost aplicate secvenţe de intrare x[n] de forma: x[n]=[x[n] x[n-1] x[n-2]].

Exemplul 1 Pentru antrenarea centrilor RBFR ai unui egalizor complex a fost utilizat un

număr de N=1000 de secvenţe de intrare x[n]. Simulările au fost realizate utilizând modelul de canal dat de relaţiile (8) şi (9), respectiv de referinţa [I.Cha, 95]. Un număr de 70 de centrii au fost iniţializaţi aleator, în spaţiul modelelor de intrare, aşa cum se poate vedea în figura 16. S-au utilizat diferite dispersii pentru zgomotul aditiv gaussian. În toate situaţiile algoritmul ACPR a orientat vectorii centru înspre stările dorite, lipsite de zgomot, ale canalului.

Page 78: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

78

Cele mai bune rezultate au fost obţinute pentru următoarele constante de învăţare: η=0.09, constanta de învăţare a neuronului câştigător, β=0.003 constanta de învăţare a rivalului şi α=0.01 constanta de învăţare a ponderilor în stratul de ieşire, cu algoritmul LMS.

Algoritmul ACS a eşuat în găsirea centrilor doriţi datorită problemei "unităţilor moarte ". Algoritmul ACSF a eliminat problema "unităţilor moarte ", dar nu a găsit nici el toţi centri doriţi, datorită faptului că numărul iniţial al centrilor a fost diferit de numărul claselor căutate. Algoritmul ACPR a reuşit să orienteze centrii RBFR către stările dorite, ieşirile neafectate de zgomot ale canalului de comunicaţie. Centrii nedoriţi au fost eliminaţi înafara spaţiului stărilor posibile astfel încât s-a obţinut o structură simplificată a egalizorului RBFR.

Figura 17 reprezintă stările dorite y[n] ale canalului de comunicaţie, semnalele recepţionate r[n], poziţiile iniţiale şi finale ale centrilor RBFR c[n], în cazul unui raport semnal pe zgomot RSZ=13dB după 100 de iteraţii.

Figura 18 reprezintă evoluţia erorii pătratice medii (MSE) în timpul antrenamentului, pentru egalizorul RBFR ai cărui centri au fost antrenaţi cu algoritmul ACPR, în funcţie de numărul de iteraţii, pentru un raport semnal pe zgomot RSZ =5 dB, pentru un ordin al filtrului liniar transversal de m=1 şi o întârziere d=1. Performanţa este similară cu cea a altor egalizoare RBFR [Q. Gan, 99], [D.Jianping, 02], dar cu avantajul unei complexităţi de calcul reduse.

Pentru a reprezenta regiunile de decizie ale egalizorului RBFR, spaţiul complex al semnalelor de ieşire a fost eşantionat cu un pas de δ=0.02. Figura 6.24 reprezintă regiunile de decizie, puternic neliniare ale egalizorului RBFR pentru un raport semnal pe zgomot RSZ =5 dB.

Page 79: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

79

Fig.16 Semnalele de la ieşirea canalului de comunicaţie, semnalele recepţionate

afectate de zgomot r[n], poziţiile iniţiale şi finale ale centrilor reţelei RBFR c[n], în cazul unui raport semnal pe zgomot de RSZ=13 dB, după 100 de iteraţii (Legendă: "o" - Stările dorite; "*"- stările de intrare zgomotoase; "×" - poziţiile

iniţiale ale centrilor; "+" – poziţiile finale ale centrilor)

Fig.17 Evoluţia erorii medii pătratice în funcţie de numărul de epoci de antrenare pentru un

RSZ= 5 dB şi canalul neliniar complex din [I.Cha, 95], m=1 şi d=1

Page 80: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

80

Fig.18 Regiunile de decizie ale egalizorului RBFR, pentru un canal neliniar

complex din [I.Cha, 95], în cazul: RSZ= 5 dB, m=1 şi o întârziere d=1

Exemplul 2 Pentru antrenarea centrilor RBFR a fost utilizat un număr de N=7000 de secvenţe de intrare x[n]. Simulările au fost realizate utilizând modelul de canal dat de relaţiile (10) şi (11), respectiv de referinţa [S.Chen, 94.2]. Un număr de 70 de centri au fost iniţializaţi aleator, departe de stările posibile dorite ale canalului de comunicaţie, în jurul punctului (5, 5j) aşa cum se poate vedea în figurile 19 a), b) şi c).

Page 81: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

81

a)

b)

c)

Fig.19 Semnalele de la ieşirea canalului de comunicaţie, semnalele afectate de zgomot recepţionate r[n], poziţiile iniţiale şi finale ale centrilor reţelei RBFR

c[n], în cazul unui raport semnal pe zgomot de RSZ=13dB, după 100 de iteraţii utilizând:

a) algoritmul ACS; b) algoritmul ACSF; c) algoritmul ACPR;

Page 82: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

82

(Legendă: "o" - Stările dorite; "*"- stările de intrare zgomotoase; "×" - poziţiile iniţiale ale centrilor; "+" – poziţiile finale ale centrilor; "–" evoluţia centrilor)

Cele mai bune rezultate au fost obţinute pentru următoarele constante de învăţare: η=0.05, constanta de învăţare a neuronului câştigător pentru toţi cei trei algoritmi testaţi, β=0.0001 constanta de învăţare a rivalului şi α=0.01 constanta de învăţare a ponderilor în stratul de ieşire, cu algoritmul LMS.

Figurile 6.26 a), b) şi c) reprezintă stările dorite y[n] ale canalului de comunicaţie, semnalele recepţionate r[n], poziţiile iniţiale şi finale ale centrilor RBFR c[n], în cazul unui raport semnal pe zgomot RSZ=13dB, după 100 de iteraţii, utilizând algoritmii ACS, ACSF şi ACPR.

Algoritmul ACS a eşuat în găsirea centrilor doriţi datorită problemei "unităţilor moarte". Algoritmul ACSF a eliminat problema "unităţilor moarte ", dar nu a găsit nici el toţi centrii doriţi, datorită faptului că numărul iniţial al centrilor a fost diferit de numărul claselor căutate.

Algoritmul ACPR a reuşit să orienteze centrii RBFR către stările dorite, ieşirile neafectate de zgomot ale canalului de comunicaţie. Centrii nedoriţi au fost eliminaţi înafara spaţiului stărilor posibile. În plus, centrii determinaţi cu algoritmul ACPR au avut poziţii mai apropiate de stările dorite decât centrii determinaţi cu algoritmul ACSF. Prin penalizarea neuronului rival, convergenţa ACPR este mai bună decât a algoritmului ACSF.

Figura 20 prezintă comparativ evoluţia erorii pătratice medii (MSE) în timpul antrenamentului, pentru egalizorul RBFR ai cărui centri au fost antrenaţi cu algoritmul ACSF respectiv cu algoritmul ACPR, în funcţie de numărul de iteraţii, pentru un raport semnal pe zgomot RSZ =13 dB şi pentru un ordin al filtrului liniar transversal de m=1.

Fig.20 Evoluţia comparativă a erorii pătratice medii a egalizorului RBFR , în timpul antrenamentului, pentru un raport semnal pe zgomot RSZ =13 dB şi ordinul m=1 al filtrului LT

(cu linie continuă - algoritmul ACSF; cu linie întreruptă - algoritmul ACPR)

Page 83: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

83

Figura 21 prezintă evoluţia mediei erorii pătratice (MSE) în timpul

antrenamentului unui egalizor RBFR, cu centrii determinaţi cu algoritmul ACPR, în funcţie de numărul de iteraţii pentru un raport semnal pe zgomot RSZ =10 dB şi pentru un raport semnal pe zgomot RSZ =5 dB, pentru un ordin al filtrului liniar transversal de m=1 şi m=2, pentru o întârziere a semnalului utilizat ca răspuns dorit de d=1. Performanţa realizată este similară cu cea a egalizoarelor cu reţele neuronale multistrat, în condiţiile unei complexităţi de calcul semnificativ reduse.

Fig.21 Evoluţia erorii medii pătratice în funcţie de numărul de epoci de antrenare (Legendă: linie continuă - m=1, RSZ=5dB; linie întreruptă - m=1, RSZ=5dB; linie punctată -

m=1, RSZ=10dB; linie punct - m=2, RSZ=10dB)

Page 84: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

84

Fig.22 Regiunile de decizie neliniară ale egalizorului RBFR

Pentru a reprezenta regiunile de decizie ale egalizorului RBFR, spaţiul complex al semnalelor de ieşire a fost eşantionat cu un pas de δ=0.02. Figura 22 reprezintă regiunile de decizie, puternic neliniare ale egalizorului.

12 Concluzii Dezavantajele egalizoarelor neuronale implementate cu reţele neuronale multistrat sunt

complexitatea structurală şi timpul îndelungat de antrenare. O alternativă atractivă sunt egalizoarele neuronale RBFR, având în vedere avantajele ce le oferă comparativ cu egalizoarele neuronale multistrat, respectiv: simplitatea structurii, utilizarea unei funcţii de activare reale şi în cazul abordării unor semnale complexe, rapiditatea convergenţei şi robusteţea. În plus arhitectura RBFR similară cu structura optimă de tip Bayes, garantează obţinerea performanţelor optime din punctul de vedere al erorii pe bit.

Performanţele egalizoarelor neuronale cu RBFR sunt superioare performanţelor egalizoarelor liniare convenţionale şi a egalizoarelor neuronale implementate cu reţele neuronale multistrat. [S. Bouchired, 99.2], [S. Chen, 94.2]. Algoritmii competitivi elimină dezavantajele egalizoarelor cu RNM menţionate anterior. Între algoritmii competitivi este de remarcat algoritmul competitiv cu penalizarea rivalului ce determină eficient centrii RBFR, recompensând neuronul câştigător şi penalizând rivalul. Algoritmul ACPR este simplu, generează regiuni de decizie puternic neliniare şi are o convergenţă rapidă. În comparaţie cu algoritmul ACS nu are problema "neuronilor morţi". În comparaţie cu algoritmul ACSF are o convergenţă mai rapidă şi centrii determinaţi au poziţii mai apropiate de poziţiile dorite. Astfel algoritmul ACPR este adecvat pentru egalizarea adaptivă a semnalelor complexe rapid variabile în timp, afectate de distorsiuni liniare şi neliniare. Performanţa obţinută, o eroare pătratică medie de 10-2, pentru un raport semnal pe zgomot de 5 dB este similară cu cea a altor egalizoare neuronale cu RBFR raportate în literatură, testate în aceleaşi condiţii.

Page 85: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

85

Pentru a îmbunătăţi performanţa egalizorului RBFR ar trebui mărit ordinul filtrului liniar transversal, ceea ce ar duce însă la creşterea complexităţii structurale şi a calculelor. O alternativă este introducerea reacţiei de la ieşire spre intrare, respectiv implementarea unui egalizor cu o reţea neuronală recurentă..

Reţelele neuronale recurente (RNR) sunt cazul cel mai general de RN, având fiecare neuron conectat cu toţi ceilalţi neuroni ai reţelei. În acest caz, reţeaua neuronală se numeşte complet conectată. Neuronii RNR au funcţii de activare neliniare şi o comportare dinamică complexă, astfel încât aceste RN sunt în mod special recomandate pentru aplicaţiile în timp real. Ieşirea unui neuron la un moment dat depinde nu numai de intrările externe şi de ieşirile altor neuroni, ca în cazul RNM şi RBFR, dar şi de ieşirile sale anterioare. RNR cu o aceeaşi structură au comportări dinamice diferite în funcţie de algoritmul de antrenament. În consecinţă o RNR este complet definită prin specificarea atât a arhitecturii cât şi a algoritmului de antrenament.

Algoritmul uzual pentru antrenarea unei RNR capabile să proceseze semnale complexe este învăţarea recurentă complexă în timp real (Complex Real Time Recurrent Learning CRTRL ) [G. Kechriotis, 99]. Acest algoritm se bazează pe o procedură de minimizare a erorii medii pătratice de tip gradient descendent, astfel încât se caracterizează printr-o viteză redusă de convergenţă şi poate fi afectat de o condiţionare numerică defectuoasă. Complexitatea numerică a calculelor este de ordinul N4,

unde N este numărul neuronilor reţelei.

Dimensiunea redusă a RNR în comparaţie cu a RNM şi RBF pentru o aceeaşi performanţă sunt principalul argument pentru utilizarea în aplicaţiile de reconstrucţie a semnalelor afectate de neliniarităţi rapid variabile în timp.

Există structuri de RN recurente obţinute prin combinaţii ale unor filtre liniare transversale şi egalizoare, ce încorporează RN, cu decizie pe baza reacţiei inverse [A. Guntsch, 98]. De exemplu, în [S. Bouchired, 99.1] se utilizează o RBFR şi o reţea neuronală competitivă, combinate cu un filtru liniar transversal pentru a îmbunătăţi decizia unui egalizor cu decizie pe baza reacţiei inverse, pentru semnale 16-QAM.

Aceste arhitecturi sunt prezentate în figurile 23 a) şi b). Centrii reţelei RBFR din figura 23 a) au fost calculaţi cu algoritmul ACS. Pentru etichetarea neuronilor stratului de ieşire s-a utilizat algoritmul ce minimizează eroarea medie pătratică LMS.

În reţeaua competitivă din figura 23 b) pentru determinarea neuronului câştigător a fost utilizată regula lui Kohonen [R. Hecht-Nielsen, 90]. Fiecare neuron al reţelei Kohonen a fost apoi asociat cu unul dintre simbolurile transmise printr-un tabel de referinţă.

RBFR-Centri determinaţi

FLT Ponderi W LMS

∑ Decizie

Decizie

Tabel de referinţă

Reţea competitivă FLT

1+j Neuron câştigător

1-j

-1+j

-1-j Algoritm de etichetare

a)

b)

Page 86: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

86

Fig.23 Structura unei reţele neuronale recurente obţinute prin: a) combinaţia unui filtru liniar transversal (FLT) cu o RBFR

b) combinaţia unui filtru liniar transversal (FLT) cu o reţea competitivă Structurile cu RNR au depăşit performanţele egalizoarelor clasice în special în cazul unor neliniarităţi mari şi atunci când au fost utilizate scheme de modulaţie complicate [S. Bouchired, 99.2].

În figura 24 sunt reprezentate curbele de separare a semnalelor reconstruite, 16-MAQ modulate în amplitudine în cuadratură, în spaţiul modelelor de ieşire, implementate de trei tipuri de egalizoare cu RN ([S. Bouchired, 99.1], cu permisiunea scrisă a autorilor), obţinute prin combinaţia dintr-un filtru liniar transversal şi o reţea neuronală de tip multistrat cu două straturi ascunse (LF-NLN), prin combinaţia dintr-un filtru liniar transversal şi o reţea competitivă (LTE-SOM) respectiv prin combinaţia dintr-un filtru liniar transversal şi o reţea pe bază de funcţii radiale (LTE-RBFR).

Fig 24 Curbele de separare implementate de trei tipuri de egalizoare cu RN, obţinute prin

combinaţia dintr-un filtru liniar transversal şi o reţea neuronală de tip multistrat cu două straturi ascunse (LF-NLN), prin combinaţia dintr-un filtru liniar transversal şi o reţea competitivă (LTE-

SOM) respectiv prin combinaţia dintr-un filtru liniar transversal şi o reţea pe bază de funcţii radiale LTE-RBFR

Figura 25 reprezintă eroarea pe bit în funcţie de raportul semnal pe zgomot pentru egalizarea unui canal de transmisie prin satelit, conexiunea în jos, pentru semnale 16-QAM, pentru o viteză de deplasare de 150 km/h ([S. Bouchired, 99.1], cu permisiunea scrisă a autorilor). Egalizorul recurent de tip LTE- RBF are cea mai bună performanţă, respectiv cu un ordin de mărime mai bună decât egalizorul transversal.

Page 87: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

87

Fig. 25 Eroarea pe bit în funcţie de raportul semnal pe zgomot exprimat în dB pentru diferite egalizoare obţinute cu: un filtru liniar transversal (LTE antrenat cu algoritmul LMS); o reţea neuronală de tip multistrat (MLP); o reţea neuronală recurentă, combinaţie dintre un filtru liniar transversal şi o reţea pe bază de funcţii radiale (LTE-RBF); o reţea neuronală recurentă combinaţie dintr-un filtru liniar transversal şi o reţea competitivă (LTE-SOM) şi o reţea neuronală recurentă, combinaţie dintre un filtru liniar transversal şi o reţea neuronală de tip multistrat cu două straturi ascunse (LF-NLN);

RNR sunt reţele neuronale recomandate în mod special procesării de semnale în timp real. Deoarece RNR depăşesc performanţele egalizoarelor tradiţionale şi ale celorlalte egalizoare neuronale atunci când canalul de telecomunicaţii este variabil în timp şi are distorsiuni neliniare, este previzibilă o evoluţie a cercetării în direcţia aplicării în telecomunicaţii a acestor reţele. În mod deosebit prezintă interes reţelele neuronale recurente cu o structură de tip filtru liniar transversal- reţea neuronală pe bază de funcţii radiale, care îmbină avantajele RBFR, simplitatea structurii şi robusteţea de procesare, cu avantajele algoritmilor competitivi, respectiv convergenţa rapidă şi precizia.

Page 88: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

88

Cursul 5 Caracterizarea şi predicţia parametrilor traficului Caracterizarea şi predicţia parametrilor traficului la nivelul celulelor, respectiv a

legăturilor de transmisie, se poate face fie utilizând modelele analitice ale surselor de trafic şi ale componentelor B-ISDN, fie procesând parametrii măsuraţi ai traficului la nivelul acestor componente. Deoarece tehnicile analitice se bazează pe operaţii de convoluţie care devin prea complexe pentru traficul real este de preferat să se utilizeze RN deoarece pentru acestea predicţia este o aplicaţie directă.

Modelarea componentelor traficului B-ISDN Modelarea componentelor traficului B-ISDN, adică a nodurilor de comutare şi a

legăturilor de transmisie, se poate face cu registre – buffere în care celulele sunt citite conform principiului primul intrat – primul ieşit FIFO.

Caracteristicile nodurilor de comutare şi ale legăturilor de transmisie (Fig.3) sunt: -lungimea registrului de deplasare; -capacitatea globală a nodului de comutare (throughput capacity) ; -rata de pierdere a celulelor; -întârzierea minimă introdusă ; Anumite noduri care generează apeluri încorporează şi un set de parametrii pentru a

controla generarea conexiunilor şi a celulelor. Tabelul de rutare din nodul de comutare pointează:

• pentru fiecare conexiune către conexiunea de ieşire a apelului; • pentru fiecare legătura de transmisie către legătura destinaţie;

Toate nodurile şi legăturile de transmisie monitorizează traficul curent şi caracteristicile sale statistice, adică :

-numărul celulelor şi al conexiunilor fiecărui serviciu ; -ocuparea bufferelor, respectiv ocuparea minimă şi maximă ; -întârzierea, variaţia întârzierii şi rata de pierdere a celulelor ;

Arhitectura RN pentru caracterizarea şi predicţia traficului

Arhitectura RN poate fi multistrat, de tip feedforward, cu două straturi de neuroni adaptivi (cum se poate vedea în Fig.3) Stratul de intrare şi cel ascuns au o funcţie de activare sigmoidă. Stratul de ieşire are o funcţie de activare liniară. Intrările în RN sunt eşantioanele întârziate ale traficului. Algoritmul de antrenare al RN poate fi algoritmul retropropagării erorii.

Timpul de predicţie adică întârzierea trebuie aleasă adecvat, în corespondenţă cu mediul de operare BISDN. Adică timpul de predicţie trebuie să fie de acelaşi ordin de mărime cu constantele de timp ale surselor de trafic şi fereastra de măsurare a parametrilor QoS ai serviciilor.

Page 89: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

89

Viteza de învăţare poate fi adaptivă. Dacă variaţie erorii în raport cu ponderile dWdE

îşi

schimbă semnul de la o iteraţie la alta, viteza de învăţare scade cu o valoare mică, constantă; dacă nu creşte. Faza de învăţare durează câteva sute de epoci pentru câteva mii de modele de antrenare. Ea este urmată de faza de operare.

Rezultatele simulărilor (Fig.4) arată că funcţiile de activare bipolare simetrice dau o precizie mai bună decât funcţia sigmoidă unipolară. Astfel, pentru funcţiile arctangentă şi tangentă

hiperbolică eroarea pătratică medie scade la 1

10 din eroarea obţinută în cazul utilizării funcţiilor

unipolare.

Page 90: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

90

Cerinţele unei RN în caracterizarea şi predicţia traficului Există două modalităţi de antrenament al unei RN : • OFF LINE cu date eşantionate din traficul măsurat sau cu date obţinute din simulări pe

computer ; O metodă • ON LINE, în timp real, cu date obţinute din traficul monitorizat curent ;

Dacă am ales un set de date de antrenament bun şi un bun model pentru comportamentul bufferului se poate utiliza RN fără antrenament on line. De obicei antrenamentul on line se foloseşte pentru rafinarea ponderilor obţinute după antrenarea off line, deoarece există diferenţe între traficul real şi cel simulat.

Viteza de calcul este dată de numărul cererilor de set-up care sosesc într- o secundă.Tipic

1 ms este necesară pentru manipularea a 1000 de cereri pe secundă. Timpul de antrenament este important doar pentru procesarea în timp real.

O altă cerinţă a antrenamentului în timp real este controlul "sigur". Modul sigur de control cere ca parametrii QoS să fie estimaţi pentru un caz mai defavorabil decât cel curent. Estimarea QoS trebuie să aibe deci o marjă de eroare faţă de traficul curent. Dacă controlerul de trafic supraapreciază parametrii QoS şi acceptă mai multe conexiuni, atunci toţi utilizatorii care folosesc acelaşi buffer vor avea parametrii QoS mai slabi decât cei ceruţi şi nici unul dintre ei nu-şi poate continua comunicaţia. Acceptarea unui număr mai mic decât posibil de conexiuni este mai bună decât cazul anterior expus. Astfel se rejectează mai multe conexiuni decât este necesar dar utilizatorii îşi continuă comunicaţiile aşa cum au prevăzut. Variabilele de antrenare trebuie alese corespunzător cu cerinţele procedurii de control al fluxului.

Parametrii de calitate ai serviciilor unui nod de comunicaţie sunt determinaţi de combinaţia parametrilor de trafic ai tuturor conexiunilor care trec prin el. Când numărul conexiunilor este mare estimarea acestor parametrii QoS nu este deloc uşoară. O problemă este şi diferenţa dintre valorile curente şi cele declarate ale QoS. Valorile declarate sunt valorile QoS în condiţiile de trafic maxim. Traficul curent este însă în general mai redus decât cel maxim estimat. Când numărul conexiunilor este mare şi diferenţa este mare.

Intrarile într-o RN pot fi starea registrului şi ieşirile din RN, adică parametrii de trafic QoS estimaţi. Numărul întrărilor în RN este numărul categoriilor de parametrii de trafic. Un număr practic este mai mic decât o sută. Numărul ieşirilor este numărul parametrilor QoS.

Page 91: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

91

Pentru starea unui registru există mai multe modalităţi de definire, dintre care numărul conexiunilor este uşor de manipulat. Conexiunile pot fi clasificate în grupuri, în funcţie de parametrii de trafic. Cea mai simplă modalitate de clasificare este în comunicaţii video nV, comunicaţii audio nA şi date numerice nD. Fiecare grup ar putea fi subîmpărţit la rândul său în altele mai mici, în funcţie de modalitatea de codare, de caracteristicile de generare a celulelor.

RN estimează deci parametrii QoS ca o funcţie de numărul acestor conexiuni şi matricea ponderilor :

)W,n,n,n(fq DVA=

O altă modalitate simplă de caracterizare a traficului este prin numărul celulelor care

sosesc într-o perioadă de timp Tm. Se estimează:

[ ] [ ] [ ]),)(()( WiHfmiH =+ unde W este matricea ponderilor şi H(i) este un vector cu dimensiune m, care reprezintă valorile instantanee ale ratei de bit în ultima perioadă Tm măsurată până în momentul curent i. Valorile ratei de bit sunt obţinute prin eşantionarea procesului de sosire a celulelor după fiecare perioadă TS de eşantionare.

sm mTT = Alegerea perioadei de măsurare este importantă şi se face astfel încât să ofere o fereastră de predicţie rezonabilă. Perioada de eşantionare se alege astfel încât H(i) să capteze caracteristicile traficului în timp ce se menţine un număr rezonabil m al eşantioanelor. (deoarece de m depinde şi dimensiunea RN).

Metoda tabelului Uzual perioada de antrenare a unei RN pentru predicţia parametrilor traficului este foarte

scurtă pentru că starea registrelor se schimbă continuu, deci numărul datelor obţinute este foarte mare. Un tabel de modele este o memorie mare utilizată pentru a înmagazina o cantitate foarte mare de date, care la un moment dat s-ar putea umple. În acest caz , dacă se observă date noi în trafic o intrare în tabel este aleasă aleatoriu şi vechea informaţie este suprascrisă cu cea nouă, astfel încât se pot pierde date utile antrenamentului. Pe de altă parte, pentru antrenarea unei RN sunt necesare atât exemple bune cât şi exemple proaste, dar situaţiile în care parametrii QOS sunt nesatisfăcători sunt mai rare decât cele în care parametrii QOS sunt adecvaţi. De aceea se recomandă utilizarea de tabele separate pentru exemplele "bune" şi cele "rele", pentru a preveni înlocuirea în tabel a unor exemple "rele" cu cele "bune". Avantajul metodei constă în faptul că raportul exemplelor bune şi a exemplelor proaste poate fi uşor ponderat prin rata de selecţie a tabelului corespunzător în timpul antrenamentului.

Reţele cu reacţie (feedback) Dezvoltarea reţelelor cu reacţie are ca inspiraţie diferite idei preluate din fizica statistică.

Câteva din caracteristicile comune tuturor acestor RN sunt: • neuroni neliniari; • conexiuni simetrice; • reacţie de la ieşire la intrare;

Aceste RN pot fi implementate ca şi sisteme dinamice continue: )u),t(x(F)t(x W=& ( 1)

Page 92: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

92

sau discrete: )u],n[x(F]1n[x W=+ ( 2)

parametrizate de o matrice W (sau mai multe ) care codează informaţiile, unde: -x este starea sistemului;

-•

x este derivata stării sistemului; -u este intrarea, care poate fi independentă sau aplicată ca o condiţie iniţială x(0), respectiv x[0].

Sistemele discrete se numesc recursive. Câteva exemple de reţele cu reacţie sunt:

1.Reţeaua Hopfield Implementată de cercetătorul căruia îi poartă numele în 1981, RN Hopfield are un singur strat în care fiecare dintre neuroni este conectat cu toţi ceilalţi. Aplicaţiile sunt de memorie asociativă şi de optimizare combinatorială.

2. Maşina Bolzmann (Hinton şi Sejnowski 1983) este o generalizare a reţelei Hopfield

care combină caracteristicile reţelelor multistrat cu cele a reţelei Hopfield . Are deci o structură multistrat cu neuroni ascunşi şi conexiuni simetrice. Principiul care stă la baza funcţionării este răcirea simulată, în care energia sistemului considerat scade cu temperatura. Denumirea a fost aleasă în memoria lui Bolzmann care a fost primul care a observat că mişcarea aleatorie a moleculelor unui gaz are o energie legată de temperatură.

3. Mean-field theory (Peterson şi Anderson 1987) este derivată din maşina Bolzmann şi funcţionează pe baza metodei aproximării câmpului mediu (mean-field approximation). Pentru a reduce excesiva capacitate de procesare s-au înlocuit neuronii binari aleatorii a maşinii Bolzmann cu unităţi deterministe analogice. 1 Noţiuni teoretice generale:

Într-o bază de date (memorie) implementată pe un calculator clasic, memorarea se face sub formă de liste imbricate. Apelul unui model din memorie se face secvenţial, ceea ce implică un timp îndelungat de acces, dependent de numărul elementelor memorate.

În memoriile asociative neuronale apelul unei informaţii din memorie se face printr-un proces de relaxare, de minimizare a unei funcţii de cost. Timpul de acces nu depinde de numărul modelelor memorate, ci este o caracteristică a arhitecturii reţelei.Acest mecanism de căutare reprezintă avantajul major al memoriilor asociative neuronale faţă de cele clasice . El este similar recunoaşterii de modele în sistemele nervoase biologice şi explică de ce timpul necesar recunoaşterii figurilor familiare este acelaşi la vârsta de cinci, douăzeci şi cinci , sau cincizeci de ani.

Memoriile asociative implementează o transformare neliniară între o mulţime de modele aparţinând spaţiului de intrare Fx şi o mulţime de modele aparţinând spaţiului de ieşire Fy (Fig. 1). Ori de câte ori la intrare se aplică un model particular , la ieşire se obţine modelul asociat acestuia.

Page 93: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

93

Fig. 1 Structura unei memorii heteroasociative

Un caz particular este autoasocierea, când un model aplicat la intrare este asociat cu

el însuşi la ieşirea reţelei neuronale (Fig. 2). Scopul procesării este completarea de model sau eliminarea zgomotului, asociindu-se modelul de intrare incomplet sau afectat de zgomot cu el însuşi la ieşire.

Fig. 2 Structura unei memorii autoasociative

Există trei modalităţi de proiectare a reţelelor neuronale ca şi memorii asociative, care

asigură convergenţa înspre: • puncte de echilibru stabil; • soluţii periodice; • traiectorii haotice; Fig. 3a prezintă o structura unei reţele neuronale formată din unităţi stabile şi Fig. 3b

structura unei RN formate din oscilatoare. Conexiunile de autoreacţie şi cele dintre diferitele unităţi sunt reprezentate prin linii, iar sensul legăturii prin săgeţi.

Fy Fx

Page 94: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

94

Fig. 3 Structura unei memorii asociative a) formată cu unităţi stabile b) formată cu oscilatoare

Metodele uzuale de proiectare a MA urmăresc memorarea informaţiei ca puncte fixe de

echilibru ale sistemului. S-au înregistrat rezultate promiţătoare în memorarea informaţiei ca oscilaţii periodice stabile şi nestabile (generate de sisteme haotice). Cercetările neurologice (în special în simţul mirosului) din ultimii ani vin să confirme ipoteza că modul procesare al informaţiei în creierul uman este de tip “haotic”. Din păcate până în prezent se ştie foarte puţin despre proiectarea unui sistem haotic care să memoreze modele dorite. Exploatarea potenţialului de procesare a sistemelor haotice deschide noi perspective MA.

Implementarea unei memorii asociative are loc în două faze: • învăţarea celor p perechi de modele de asociat; • aplicarea la intrarea reţelei a oricăruia dintre modelele memorate va genera la ieşire modelul

asociat (recall); Literatura de specialitate consemnează mai multe metode de implementare a unei

memorii asociative cu puncte de echilibru stabil: regula Hebb ( reţeaua Hopfield, memoria bidirectională associativă a lui Kosko), la decompunerea în valori singulare (proprii) a modelelor de înmagazinat, metoda pseudoinversei, regula delta generalizată şi reguli de tip probabilistic ( în teoria armoniei,, maşina Bozmann) ou des autres règles pour adapter les poids.

Proiectarea se face astfel încât să fie îndeplinite câteva cerinţe esenţiale; • O capacitate de memorare cât mai mare. Capacitatea de memorare este numărul

modelelor distincte pe care sistemul le poate învăţa cu precizie şi rememora, deci coda şi decoda.

• O bună capabilitate de corecţie a erorilor. Dacă se aplică la intrarea reţelei unul dintre modelele de intrare, afectat de zgomot, reţeaua ar trebui să conveargă către modelul asociat dorit ( în condiţiile unei erori cât mai mari);

• Evitarea modelelor nedorite (spurious patterns) Un model nedorit este un model parazit, pe care reţeaua şi-l aminteşte deşi el nu a fost codat. Parametrii reţelei trebuie ajustaţi astfel încât reţeaua să memoreze doar modelele dorite, nu şi altele, parazite;

• Un număr redus de interconexiuni. Sunt de dorit interconexiuni de ordinul întâi, ştiut fiind faptul că cele de ordin superior generează probleme în implementările VLSI;

• Un algoritm de determinare a ponderilor interconexiunilor rapid şi aditiv în cazul necesităţii încorporării unui model nou.

b

Page 95: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

95

a) b)

Fig.4.3 O memorie asociativă a) cu o bună performanţă a) cu o slabă performanţă

Figurile Fig.4.3a şi Fig.4.3.b ilustrează caracteristicile unei MA performante, respectiv ale

unei MA ineficiente . Modelele care reprezintă informaţia utilă sunt reprezentate prin cercuri goale, iar cele nedorite prin cercuri pline. Este de dorit, ca în cazul în care modelele nedorite nu pot fi evitate, ele să fie cât mai îndepărtate de punctele în care se memorează informaţia utilă.

Aglomerarea modelelor memorate poate afecta precizia clasificării, deoarece modelele similare pot avea bazine de atracţie care se suprapun.

Se ştie că dimensiunea reţelei trebuie să depăşească numărul de modele pe care dorim să le memorăm, pentru ca sistemul să nu înveţe modele noi cu preţul uitării altora .

Funcţia de energie a unei RN

O memorie asociativă poate fi interpretată ca un sistem gravitaţional n dimensional, în care se poate localiza orice număr de corpuri de masă egală în indiferent ce punct. Forţa gravitaţională a fiecărui corp se exercită asupra tuturor corpurilor mai apropiate. Plasând un corp într-un punct dorit al sistemului (starea iniţială) şi imprimându-i un impuls (regula de învăţare) el va fi atras de corpul care exercită asupra lui cea mai mare forţă (de obicei cel mai apropiat).

O interpretare elegantă pentru comportamentul unei RN, introdusă de Hopfield în 1982 este de a-i asocia o funcţie de energie (o funcţie Lyapunov). Funcţia de energie Lyapunov se poate reprezenta printr-un relief de energie în spaţiul intrărilor. Dintr-o stare iniţială reţeaua se deplasează în sensul minimizării funcţiei de energie până atinge un minim local.(Fig 5). Dacă starea iniţială a RN este Q, reţeaua va evolua înspre cel mai apropiat bazin de atracţie, Pi, independent de numărul bazinelor de atracţie. Procedura de învăţare va amplasa modelele dorite în minimele funcţiei de energie, respectiv în P1, P2, ....Pi, .... PN. Dacă RN evolează înspre un alt minim decât cel dorit şi învăţat în procesul de codare, modelul respectiv se numeşte nedorit spurious.

Viteza de apel a informaţiei din memorie este o caracteristică a reţelei şi nu depinde de numărul modelelor memorate.

ρ

Page 96: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

96

Fig. 5 Funcţia de energie asociată unei reţele neuronale

Spaţiul tuturor stărilor posibile ale reţelei se numeşte spaţiul de fază (phase space),

terminologie preluată din fizică. Minimele locale ale funcţiei de energie sunt punctele de echilibru stabil, adică punct din

care RN nu-şi mai schimbă starea. Aceste puncte stabile se numesc atractori, deoarece fiecare atractor exercită influenţă în jurul său într-un domeniu numit bazin de atracţie.

Din acest motiv reţelelor cu reacţie cu conexiuni simetrice se numesc şi reţele cu atractori.

Stabilitatea unei RN Un system dinamic este stabil (Elbert 1984) dacă i se poate găsi o funcţie de energie care

să-l caracterizeze (funcţia Lyapunov) descrescătoare de-a lungul tuturor traiectoriilor posibile:

0L <•

( 3) unde L este funcţia de energie asociată.

Un system dinamic este asimptotic stabil dacă

0L ≤•

( 4)

În echilibru stabil traiectoria reţelei poate trece pe lângă punctul de echilibru fără a-l atinge. În echilibru asimptotic stabil traiectoria reţelei atinge punctul de echilibru exponenţial de rapid. Condiţia de existenţă a unei funcţii de energie Lyapunov este suficientă, dar nu necesară ca o reţea să fie asimptotic stabilă. Datorită conexiunilor simetrice o reţea de tip cu reacţie inversă este global stabilă.

Page 97: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

97

Optimizarea Optimizarea este o tehnică pentru rezolvarea unor probleme ce implică minimizarea unei funcţii de cost asociate în raport cu nişte constrângeri impuse, într-un mode similar asocierii energiei sistemelor fizice . Funcţia de cost este funcţia de energie asociată RN. Prin minimizare RN converge către o stare stabilă producând o soluţie optimă (sau lângă optim).

În figura 6 s-a reprezentat funcţia de energie asociată unei astfel de reţele. Cu linie plină

s-au figurat dealurile şi cu linie punctată văile. Fiecare contur, curbă de nivel, corespunde unei aceleiaşi valori a energiei. Evoluţia reţelei, numită traiectorie, dintr-o stare iniţială, are loc înspre un minim local, înspre o vale, şi se va opri în cel mai apropiat atractor. În problemele de optimizare se urmăreşte găsirea minimului global al funcţiei de energie asociate. Pentru o memorie asociativă modelele memorate se găsesc în minimele energetice locale ale funcţiei Lyapunov care caracterizează sistemul.

Fig. 6 a)Releful funcţiei de enrgie asociate unei reţele cu reacţie

b) Traiectoriile posibile pentru RN din fig.6.a) c) Dinamica unei reţele cu reacţie

Page 98: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

98

1. Reţeaua Hopfield . Noţiuni teoretice Reţeaua Hopfield este o reţea neuronală cu reacţie, în care starea fiecărui neuron la un

moment dat depinde şi de ieşirile tuturor celorlalţi neuroni la momentul anterior. Structura ei este prezentată în Fig.1. Are un singur strat de neuroni, complet interconectaţi,

adică fiecare neuron este conectat cu toţi ceilalţi. Ieşirile neuronilor sunt binare 0 şi 1, sau bipolare -1 şi +1 . Matricea ponderilor este simetrică wij=wji.Autoreacţia est nulă wii=0 (fenomen observat de alfel şi în neuronii biologici). Aceasta îmbunătăţeşte performanţele obţinute cu modele bipolare.

Fig.1 Reţeaua neuronală Hopfield Există două modalităţi de implementare a unei reţele neuronale Hopfield determinate de

aplicaţia în care este utilizată: ca sistem discret pentru o memorie asociativă şi ca sistem continuu pentru o problemă de optimizare.

1.1 Reţeaua neuronală Hopfield ca memorie asociativă În funcţionarea unei reţele neuronale ca memorie asociativă există două faze: • de înmagazinare a informaţiilor; • de regăsire a informaţiei dorite din memorie (recall sau retrieval);

1. Înmagazinarea informaţiilor Fie un set de p modele bipolare X1, X2, X3, … XP, de dimensiune N, pe care dorim să le memorăm.Aceste modele se numesc şi modele prototip sau modele fundamentale. Ponderile interconexiunilor se determină cu o generalizare a regulii lui Hebb, regula bipolară hebbiană (outer product rule):

kj

p

1kkiij XXw ∑

=

= (1)

Ţinând cont şi de faptul că autoreacţia trebuie să fie nulă wii=0, relaţia (5.1) se poate scrie sub

formă matriceală:

∑=

−=P

1kk

Tk I.pX.XW (2)

unde :

• I este matricea unitate de dimensiune N x N ;

x1 • • • xi • • •

w12 w1i w1N

w2m wiN w2i

Page 99: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

99

]))k[net(sign]1k[net(f ii =+

• p este numărul modelelor memorate; • Xk este model prototip Xk =[ X k1 X k2 X k3 … X kN]; • termenul p.I a fost introdus pentru anularea ponderilor de autoreacţie;

De exemplu pentru a coda modelul bipolar [1,-1] într-o reţea cu doi neuroni se obţine matricea W1 :

[ ]

=

−=

−=

−−

− 2221

1211

wwww

0110

1001

1111

1001

.111.11

(3) Pentru a simplifica formalismul matematic al regăsirii informaţiei se poate utiliza şi un termen de

proporţionalitate N1 în relaţia (5.2):

∑=

−=P

1kk

Tk N

I.pX.XN1W (4)

Regăsirea informaţiei dorite din memorie

Un model de intrare bipolar x =[ x1 x2 x3 … xN] , N dimensional, este impus ca stare a RN Hopfield . Tipic el este o versiune incompletă sau afectată de zgomot al unui model memorat. Actualizarea stării neuronilor este asincronă, un singur neuron îşi schimbă starea la un moment dat în conformitate cu funcţia de activare. Intrarea netă a acestui neuron depinde de ieşirile tuturor celorlalţi:

I]k[ x.w= 1]+[knetN

1jijjii ∑

=

+ (5)

unde: • xj este starea de activare a neuronului j; • Ii este o intrare constantă, numită curent de polarizare ; • N este numărul neuronilor reţelei ; Se aplică apoi funcţia de activare care poate fi o funcţie bipolară cu prag , dată de relaţia :

θ<θ=

θ>=+

ii

iii

ii

i

]k[netdacă0]k[netdacă])k[net(f

]k[netdacă1])1k[net(f ( 6)

sau funcţia signum:

(7)

La o nouă iteraţie un alt neuron îşi schimbă starea în conformitate cu regula de actualizare.Se determină pentru acesta intrarea netă cu relaţia (5) şi apoi noua stare cu relaţia (6). În final RN ajunge într-o stare invariantă în timp care satisface condiţia de stabilitate, adică într-unul dintre atractori.

Observaţii

Page 100: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

100

1. Un artefact al codării bipolare hebbiene este faptul că prin memorarea modelului bipolar X se memorează implicit şi modelul complementar Xc , care este un model nedorit.

Fie de exemplu modelul X= [1,1] aplicat ca stare iniţială a reţelei care a memorat modelul [1 –1] (anterior introduse).

Printr-o actualizare asincronă un singur neuron îşi schimbă starea. Fie acesta neuronul unu. Doar prima coloană a matricii pondere este implicată (ponderile neuronului unu către neuronul doi). Starea neuronului 2 rămâne 1. Aplicând din nou reţelei modelul [-1,1] prin W şi actualizând neuronul 2 se obţine acelaşi model [-1,1] . Deşi s-a dorit memorarea doar a modelului [1, -1] implicit, prin codarea bipolară hebbiană a fost memorat şi modelul complementar [-1,1].

2. .Reţeaua Hopfield este stabilă. Indiferent care este starea iniţială a reţelei Hopfield ea va evolua înspre unul dintre modelele

memorate care reprezintă atractorii, adică punctele de echilibru stabil. Ca exemplu se poate lua în considerare reţeaua anterior construită.

2. Actualizarea asincronă permite interpretarea informaţiei procesate de reţeaua Hopfield

ca un proces aleator. Pentru actualizarea neuronilor uneori se stabileşte o schemă de actualizare astfel încât în medie fiecare neuron să fie actualizat de acelaşi număr de ori. Actualizarea asincronă după o lege probabilistică permite caracterizarea statistică a reţelei Hopfield (ancorarea ei în fizica statistică). Evoluţia stărilor reţelei în spaţiul 0,1N sau -1,1N nu este în mod unic definită de o anume stare iniţială, ci depinde de schema de actualizare.

3. Contribuţia cea mai importantă a lui Hopfield este introducerea unei funcţii de energie

în analiza comportamentului RN. Aceasta permite abordarea RN într-o manieră similară sistemelor fizice, marcându-le evoluţia. Fie funcţia ce caracterizează reţeaua Hopfield :

∑∑∑== =

θ+−=n

1iii

n

1i

n

1jjiij x.2x.x.w)x(E (9)

Se poate demonstra că de fiecare dată când un neuron îşi schimbă starea, E(x) descreşte:

vkk

n

kj,1j

vjij

vk

nkk

n

kj,1j

njij

nk

n

1i

vii

n

1i

n

1j

vj

viij

n

1i

nii

n

1i

n

1j

nj

niij

vn

x..2x.w.x.2x..2x.w.x.2

x.2x.x.wx.2x.x.w)x(E)x(EE

θ−+θ+−

=θ−+θ+−=−=∆

∑∑

∑∑∑∑∑∑

≠=≠=

== === =

(10) unde n

kx ( vkx ) este starea nouă (veche) a neuronului k, singurul neuron care îşi schimbă starea în

iteraţia curentă. Toţi ceilaţi neuroni i≠k rămân în aceeaşi stare nkx = v

kx astfel încât în suma dată de relaţia (10) vor exista termeni care se anulează. Există două situaţii posibile: 1.când starea neuronului k a fost 1x v

k −= şi devine 1x nk =

Pentru că ∑∑≠=≠=

=n

kj,1j

vjij

n

kj,1j

njij x.wx.w se poate rescrie relaţia (10):

[ ] [ ]110110

.11W.X 1 −=

−=

Page 101: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

101

)x.w).(xx(2E k

n

kj,1j

vjij

nk

vk θ−−=∆ ∑

≠=

(11)

Semnul celui de-al doilea factor al produsului din relaţia (11) este plus pentru că starea

neuronului k devine +1 dacă este îndeplinită condiţia 0)x.w( k

n

kj,1j

vjij >θ−∑

≠=

. Diferenţa

0)xx( nk

vk <− este negativă, deci ∆E este şi ea negativă.

2. când starea neuronului k a fost 1x v

k = şi devine 1x nk −= .

Semnul celui de-al doilea factor al produsului din relaţia (11) este minus pentru că starea

neuronului k devine –1 dacă este îndeplinită condiţia 0)x.w( k

n

kj,1j

vjij <θ−∑

≠=

. Diferenţa

0)xx( nk

vk >− este pozitivă, deci ∆E este negativă.

Practic s-a demonstrat că în conformitate cu definiţia stabilităţii unui sistem, reţeaua neuronală Hopfield este stabilă.

5. Reţeaua Hopfield est o RN auto-asociativă. Scopul procesării în cazul memoriei asociative este completarea de model sau eliminarea zgomotului, asociindu-se modelul de intrare , incomplet, sau afectat de zgomot cu el însuşi la ieşire.

Capacitatea de memorare a reţelei Hopfield este cea mai mare dintre toate memoriile

asociative cunoscute. Capacitatea de memorare este numărul modelelor distincte pe care sistemul le poate

învăţa cu precizie şi rememora, deci coda şi decoda.

NlogNC

2

= (12)

Pentru determinarea capacităţii de memorare se poate utiliza şi o relaţie empirică

aproximativă C=0,15N.

Exemplul 1

Page 102: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

102

Construiţi o reţea Hopfield care să memoreze modelele X1=[1 -1] şi X2=[-1 1], printr-o codare bipolară hebbiană. a) Determinaţi matricea ponderilor. De ce este suficientă memorarea unui singur model? b) Determinaţi stările succesive ale reţelei până în starea finală pentru toate intrările posibile. Ce observaţi? c) Se ştie că pentru cazul particular al pragurilor şi ponderilor nule funcţia de energie a reţelei

este : TX.W.X21E −= . Determinaţi evoluţia reţelei pentru intrările de la punctul b. Ce puteţi

spune despre stabilitatea reţelei ? Soluţie a) Reţeaua are 2 neuroni. Este suficientă memorarea unui singur model pentru că un artefact al codării bipolare hebbiene este memorarea modelelor complementare. Matricea ponderilor este :

[ ]

=

−=

−=

−−

− 2221

1211

wwww

0110

1001

1111

1001

.111.11

(13)

b)Intrările posibile sunt : X=[1 1], [-1 -1], [1 -1] et [-1 1].

Fie strarea iniţială X1= [1,1]. Fie neuronul 1 cel care işi schimbă starea. Starea neuronului 2 rămâne neschimbată.Noua stare va fi :

[ ] [ ]110110

.11W.X 11 −=

−= (14)

Se aplică funcţia de activare, funcţia signum. Stare reţelei rămâne aceeaşi [-1,1]. După

actualizarea neuronului 2 starea reţelei va fi tot [-1,1], care este un punct de echilibru. Dacă se aplică la intrare X2 = [-1 -1] se obţine prin actualizarea primului neuron:

[ ] [ ]110110

.11W.X 12 −=

−−−= (15)

]11[]1)1(sign[ −= (16)

Prin actualizarea neuronului 2:

[ ] [ ]110110

.11 −=

−− (17)

]11[)]1(sign1[ −=− (18)

Reţeaua va ajunge într-un alt punct de echilibru [1 -1]. Pentru celelalte stări posibile, care reprezintă modelele memorate [1 -1] şi [-1 1], reţeaua nu-şi va schimba starea . În concluzie, indiferent de starea iniţială RN, va evolua înspre unul dintre punctele sale de echilibru c) Pentru starea iniţială X1= [1 1] energia RN este:

Page 103: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

103

1)2(21

11

]11[21

11

.0110

].11[21E i1 =−−=

−−−=

−−= (19)

A doua stare , care este şi cea finală are energia următoare:

1)2(21

11

]11[21

11

.0110

].11[21E f1 −=−=

−−−=

−−−= (20)

Pentru starea iniţială X2= [-1 -1] energia reţelei este:

1)2(21

11

]11[21

11

.0110

].11[21E i2 =−−=

−−

−−=

−−

−−−= (21)

Starea finală are energia :

1)2(21

11

]11[21

11

.0110

].11[21E f2 −=−=

−−=

−−−= (22)

În mod similar se poate calcula energia şi pentru celelalte intrări care sunt puncte de echilibru ale reţelei. Pentru aceste cazuri energia rămâne la o aceeaşi valoare –1. Deci în toate cazurile energia are o evoluţie descrescătoare astfel încât satisface condiţia de stabilitate

Exemplul 2 Construiţi o reţea Hopfield cu patru neuroni care să memoreze modelul X1=[1 1 1 -1],

printr-o codare bipolară hebbiană. Fie funcţia de activare funcţia signum, pragurile şi curenţii de polarizare nuli. a) Determinaţi matricea ponderilor. b) Fie starea iniţială una dintre următoarele:

X0=[1 1 1 1] ; X0=[1 1 -1 -1] ; X0=[1 -1 1 -1] ; X0=[-1 1 1 -1] ;

Actualizaţi neuronii în ordinea 1, 2, 3, et 4. Determinaţi stările succesive ale reţelei până în starea finală pentru toate intrările posibile . c) Se ştie că pentru cazul particular al pragurilor şi ponderilor nule funcţia de energie a reţelei

este : TX.W.X21E −= . Determinaţi evoluţia reţelei pentru intrările de la punctul b. Ce puteţi

spune despre stabilitatea reţelei ?

Soluţie Structura reţelei este cea din Fig.2. Matricea ponderilor este dată de relaţia:

UX.XW 1T1 −= (23)

Page 104: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

104

[ ]

−−−−−−

=

−−−−−−

=

−−

=

0111101111011110

W

1000010000100001

1111111111111111

1000010000100001

.11111.

1111

W

(24)

b) Fie starea iniţială: X=[1 1 1 1]. În mod secvenţial, conform schemei de actualizare câte un neuron îşi actualizează starea:

[ ] [ ]1111

0111101111011110

.1111W.X 0 =

−−−−−−

= (25)

Noua stare a neuronului 1 este [ ] [ ]1111111)1(f = . (26)

Într-un mod similar se actualizează neuronul 2, [ ]11)1(f1 , apoi neuronul 3 , a cărui stare devine [ ]1)1(f11 . Neuronii 2 şi 3 rămân în aceeaşi stare 1. Doar neuronul 4 îşi schimbă starea :

Fig.2 Structura reţelei din exemplul 2

z-1

z-1

z-1

z-1

Page 105: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

105

[ ] [ ]1111

0111101111011110

.1111 −=

−−−−−−

(27)

Stare finală va fi [ ] [ ]1111)1(f111 −=− , care este un atractor al reţelei . Dacă starea iniţială este X=[1 -1 -1 1], după actualizarea primului neuron ea devine:

[ ] [ ]1113

0111101111011110

.1111W.X −−−=

−−−−−−

−−= (28)

[ ] [ ]1111111)3(sgn −−−=−−− (29)

Se actualizează al doilea neuron:

[ ] [ ]1131

0111101111011110

.1111W.X −−−=

−−−−−−

−−−= (30)

[ ] [ ]111111)3(sgn1 −−−=−−− (31)

După actualizarea celui de-al patrulea neuron starea reţelei devine:

[ ] [ ]1311

0111101111011110

.1111 −−−=

−−−−−−

−−− (32)

[ ] [ ]11111)3(sgn11 −−−=−−− (33)

Starea finală va fi:

[ ] [ ]3111

0111101111011110

.1111 −−−=

−−−−−−

−−− (34)

[ ] [ ]1111)3(sgn111 −−−=−−− (35)

Modelul X=[-1 –1 –1 1] este un model nedorit, dar este un atractor al reţelei memorat printr-o codare bipolară hebbiană .

Page 106: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

106

d) Pentru starea iniţială X= [1 –1 –1 1] energia reţelei este:

[ ] [ ] 0

1111

.111321

1111

.

0111101111011110

.111121Ei =

−−

−−−−=

−−

−−−−−−

−−−= (36)

Pentru starea succesivă, care este şi cea finală energia este:

[ ] [ ] 6

1111

.133321

1111

.

0111101111011110

.111121Ef −=

−−−

−−−−=

−−−

−−−−−−

−−−−= (37)

Asfel încât evoluţia energiei reţelei este descrescătoare, deci satisface condiţia de stabilitate..

2. Reţeaua Hopfield continuă Reprezintă o generalizare a RN Hopfield discrete. Este o RN dinamică asimptotic stabilă. Evoluţia reţelei în spaţiul de fază este continuă în

timp, în sensul minimizării funcţiei de energie asociate E(x(t))- de unde denumirea de RN Hopfield de tip gradient. În final, reţeaua se va stabiliza într-unul dintre atractorii spaţiului stărilor posibile, într-un minim energetic.

Dacă funcţia de energie asociată RN este o funcţia de cost supusă unor constrângeri într-o problemă de optimizare, starea finală a reţelei va fi soluţia problemei. Astfel încât pentru reţeaua Hopfield optimizarea este o aplicaţie directă. Prin minimizarea funcţiei asociate RN converge către o stare stabilă producând o soluţie optimă (sau lângă optim).

O RN de tip gradient poate fi complet descrisă printr-uN set de ecuaţii diferenţiale neliniare cu termeni constanţi

Aplicaţiile RN Hopfield continue În toate problemele de optimizare: -comutarea de pachete -controlul admisiei conexiunii -rutare Comutarea de pachete În reţelele de comunicaţii de mare viteză poate apare fenomenul de congestie atunci cand

două sau mai multe pachete intră în competiţie ptr. acelaşi nod de comutare. Pentru controlul comutării de pachete se folosesc metodele cozilor de aşteptare:

-la intrare -la ieşire Metoda cozii de aşteptare la ieşire asigură cea mai bună performanţă din punctul de vedere al

întarzierii sau al capacităţii globale, dar comutatorul de dimensiune NXN trebuie să opereze de N ori mai repede decat regitrul de ieşire şi necesită mai multe registre ptr. fiecare port de ieşire

Metoda cozii de aşteptare la intrare este mai simplă şi pot fi atinse performanţe comparabile

cu metoda cozii de aşteptare la ieşire dacă se rezolvă problema blocării la cap de linie (head of line blocking)

Page 107: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

107

Blocarea la cap de linie este fenomenul prin care un pachet dintr-o coadă de aşteptare care funcţionează pe baza principiului primul intrat primul ieşit FIFO nu poate accesa portul de ieşire deoarece pachetul din faţa lui în registru este blocat la intrarea în portul de ieşire. Datorită acestui fenomen capacitatea globală a unui comutator de tip crossbar NXN scade pană la 0,58 din capacitatea disponibilă pentru valori mari ale lui N.

Metoda bypass poate soluţiona problema permiţând şi altor pachete, înafara primului din coada de aşteptare să fie transmise, atunci când primul este blocat.

Folosind şi un controler neuronal pentru programarea pachetelor capacitatea globală a comutatorului va fi maximizată

Comutare de pachete cu controler neuronal Controlerul neuronal va programa transferul pachetelor de date astfel încât capacitatea

globală a comutatorului să fie maximizată Cozile de bypass sunt amplasate la intrarea reţelei de comutare. Lungimea F a ferestrei este relativ mică faţă de lungimea cozii de aşteptare. Toate pachetele din fereastra F sunt în competiţie ptr. destinaţie în fiecare slot. Este selectat un set de pachete nonblocante astfel încât să fie maximizat numărul de pachete selectate cu condiţia ca să fie evitată transmisia înafara succesiunii Trebuie satisfăcute următoarele constrângeri: 1. în fiecare rand, din fereastră, este selectată ptr. transmisie cel mult o celulă 2. fiecare celulă selectată într-un slot trebuie să aibe o adresă destinaţie distinctă 3. celulele cu o aceeaşiadresă destinaţie sunt programate succesiv

Reţeaua neuronală va avea un număr de NxF neuroni, unde N este numărul registrelor de

intrare şi F este dimensiunea ferestrei din care se face selecţia celulelor ptr. transfer. Deci fiecare neuron corespunde unei celule din fereastră.

Prin minimizarea funcţiei de energie, în fiecare rand, respectiv coloană, va fi activ un singur neuron. Fiecare neuron are doi indici i pt registrul de intrare şi j pentru poziţia celulei pe cre o reprezintă în fereastră. Dacă un neuron este activ, celula corespunzătoare este selectată pentru transfer în slotul curent. Ponderile interconexiunilor dintre neuroni sunt determinate în timpul fiecărui slot, prin identificarea cu funcţia de energie generală a reţelei Hopfield. Ele codează constrangerile impuse transferului.

Page 108: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

108

Comutator de pachete cu controler neuronal de tip Hopfield

Funcţia de activare a neuronilor este:

ijnetije110 β−+

=

unde • oij este ieşirea • Netij este intrarea netă • β este un parametru de castig

Din cele 3 constrangeri se formulează următoarea funcţie de energie

∑∑∑∑∑∑∑∑ ∑= == =

≠= == = =

θ−−+−=N

1i

F

1jijij

N

1i

F

1j

N

ip1p

F

1qpqijpq,ij

N

1i

F

1j

F

1q

2iqij o)D(Coot

2B)oI(

2AE

unde

• A,B,C,D sunt constante positive. • Iij sunt intrări externe cu valoarea 1 dacă poziţia j a registrului i conţine o celulă şi 0 în

rest • θij este pragul neuronului j

Reţea de comutare

Porturi de intrare

Porturi de ieşire

Controler neuronal

Fereastră j=1.....F

2

N

1 1

2

N

Page 109: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

109

Matricea T cu elemente tij,pq este o matrice împrăştiată, dependentă de modelul de trafic şi

desemnează conectivitatea dintre neuronul ij şi neuronul pq

=restîn0

identicadestinatieaupqcelulaşiijceluladacă1t pq,ij

Primul termen este minimizat dacă un singur neuron este activ în fiecare rand.

Iij va forţa neuronul ij pe ON dacă poziţia corespunzătoare a registrului este ocupată de o celulă

Al doilea termen este nul, minim, doar dacă nu există blocare, adică nu există celule selectate ptr. transfer cu aceeaşi destinaţie.

Al treilea termen forţează transmisia în succesiune. Pragurile neuronilor θij sunt dependente de poziţia neuronului în fereastră.

)Fj1(Fj

ij ≤≤=θ

Deoarece θij este o funcţie de indexul j al coloanei toţi neuronii din aceeaşi coloană au

acelaşi prag şi neuronii cei mai din stanga au cele mai mici praguri. Termenul al treilea are valoare minimă dacă suma pragurilor tuturor neuronilor activi este maximizată. D este un termen de polarizare cu rol de a mări convergenţa. Includerea a astfel de termeni este importantă, dar este doar o chestiune de experienţă. Prin minimizarea funcţiei de energie în final în fiecare rand, respectiv coloană, va fi activ un singur neuron . Stările neuronilor reprezintă un set optim de celule nonblocante în timpul unui slot. O problemă care poate apare este oprirea într-un minim local şi nu într-unul global dorit. Experimentele arată că oprirea într-un minim local atrage doar o degradare uşoară a calităţii soluţiilor şi nu o violare a constrangerilor problemei.

Page 110: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

110

Figura 5 arată că probabilitatea de pierdere a celulelor este mai mică cu controlerul neuronal pentru o aceeaşi mărime registrului, a ferestrei şi încărcare a traficului, decat cele obţinute prin metoda cozii de aşteptare la ieşire şi cea metoda secvenţială bypass (convenţională).

Page 111: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

111

Figura 6 prezintă variaţia raportului între capacitatea globală obţinută cu

controlerul cu RN şi cea obţinută prin căutarea exhaustivă, în funcţie de mărimea comutatorului N. Căutarea exhaustivă generează soluţii globale optime în timp. Ptr. N=128 şi F=8 capacitatea maximă obţinută prin căutarea exhaustivă a fost 0,973. Raportul dintre capacitatea obţinută pentru controlerul neuronal şi cea prin căutarea axhaustivă a fost peste 0,98 pentru valori mari ale lui N. Practic s- a înregistrat o scădere de 2% faţă de soluţiile optime globale.

Page 112: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

112

Cursul 6 Reţele neuronale autoorganizatoare

Reţelele neuronale abordate în capitolele precedente învaţă să implementeze o transformare MN RR:F → , din perechile de modele intrare xp- modele de ieşire dorite op. Există însă probleme în care nu dispunem de setul de modele dorite ci doar de modelele de intrare. Reţeaua neuronală trebuie să găsească singură informaţia relevantă din exemplelexp care i se aplică la intrare, pe baza similarităţii acestora. Câteva probleme din această categorie sunt următoarele:

• Gruparea în categorii RN trebuie să găsească singură criteriul de clasificare şi să realizeze gruparea modelelor de intrare. • Cuantizarea vectorială RN trebuie să determine discretizarea optimă a spaţiului continuu de intrare. Intrarea în sistem este modelul x, n dimensional, iar ieşirea este o reprezentare discretă a spaţiului de intrare. • Reducerea dimensiunii Modelele de intrare sunt grupate într-un subspaţiu care are dimensiune mai redusă decât dimensiunea spaţiului de intrare. Sistemul neuronal trebuie să înveţe transformarea optimă astfel încât cea mai mare parte din distribuţia modelelor de intrare să se regăsească la ieşire. • Extragerea de caracteristici. RN trebuie să extragă trăsăturile caracteristice esenţiale ale datelor de intrare. Adesea aceasta implică şi o reducere a dimensiunii.

Dacă există şi modelele de ieşire dorite, acestea pot fi folosite ulterior la o rafinare

a parametrilor reţelei autoorganizatoare.

1 Principiul învăţării competitive Într-o reţea competitivă toţi neuronii unui strat sunt complet conectaţi. Adică primesc intrări excitatorii de la toţi neuronii stratului anterior, transmit conexiuni excitatorii către toţi neuronii stratului următor şi conexiuni inhibitorii către toţi neuronii stratului din care fac parte. Vectorii pondere sunt iniţializaţi aleator, de obicei la valorile unui subset de modele de intrare. În majoritatea reţelelor autoorganizatoare atât modelele de intrare cât şi vectorii pondere sunt normalizaţi, având acelaşi număr de N elemente. Astfel atât modelele de intrare cât şi vectorii pondere au aceeaşi lungime şi pot fi interpretate ca şi puncte pe o sferă N dimensională (paragraful 6.3). La aplicarea unui model de intrare fiecare neuron procesează intrarea netă:

∑=

==N

1ij

Tijij w.xxwnet (6.1)

Se determină starea de activare a neuronilor prin trecerea intrării nete prin funcţia de activare. Se selectează apoi neuronul câştigător printr-una dintre cele două modalităţi posibile:

1. Neuronul câştigător este declarat neuronul cu cea mai mare stare de activare ac. cjaa cj =∀⟨

2. Neuronul câştigător este declarat neuronul cu cea mai mică intensitate de intrare Ij

definită de relaţia:

Page 113: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

113

)x,w(DI jJ = (6. 2) unde D este o distanţă metrică oarecare. Câteva distanţe metrice, uzual utilizate, sunt următoarele:

• Norma euclidiană, dată de amplitudinea vectorului diferenţă :

d = ||x-v || = || δ || = (δT δ )1/2 (6.3)

Fig.6.1 Reprezentarea vectorului diferenţă

• Pătratul amplitudinii vectorului diferenţă: d = || x − v ||2 = || δ ||2 = δT ⋅δ

(6.4) Relaţia (6.4 ) reprezintă o simplificare faţă de cazul anterior.

• Distanţa Manhattan, care este o sumă a valorilor absolute ale coordonatelor vectorului diferenţă:

d =∑=

δp

1ji ||

(6.5)

• Proiecţia lui x pe v. Aceasta este cea mai simplă măsură a asemănării vectorilor normalizaţi:

d = vT ⋅x = || v ||⋅|| x ||⋅cosα

(6.6)

( ) ( ) ( )222 ..... nn vxvxvx --- 2211 ++=v-x

Page 114: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

114

Fig.6.2 Proiecţia vectorului x pe v

Se recomandă ca cei doi vectori să fie normalizaţi înainte de măsurare: || x ||=|| v ||=1.

• Distanţa Hamming:

d = | |x v pentru x v pentru x vj == =

=≠

∑j

01

(6.8) Exemplu: Se calculează distanţele prezentate anterior pentru vectorii x = [1 1 -1 1] şi v = [1 -1 -1 -1].

• distanţa eulidiană = sqrt(02 + 22 + 02 + 22) = 2.83 • distanţa Manhattan = 0 + 2 + 0 + 2 = 4 • distanţa Hamming = 0 + 1 + 0 + 1 = 2 • distanţa ca produs = [1 1 -1 1]⋅[1 -1 -1 -1]T = 0

Odată selectat neuronul câştigător învăţarea are loc prin modificarea ponderilor, conform unei strategii de tip competiţie, cunoscute în literatura sub numele de "câştigătorul ia totul ".Din acest motiv RN autoorganizatoare se numesc şi RN competitive. Neuronul câştigător tinde către valoarea de activare maximă, adică 1, în timp ce toţi ceilalţi tind către valoarea minimă, zero, printr-un proces iterativ de inhibiţie laterală. În decursul anilor, mai mulţi cercetători au elaborat RN competitive, având la baza diferite reguli de învăţare: Kohonen, von der Malsburg (1973), Grossberg (1972, 1976), Fukushima (1975), Bienenstock , Cooper şi Munro (1980), Rumelhart şi Ziepser (1985). 6.3 Interpretarea geometrică Modelele de intrare şi vectorii pondere normalizaţi pot fi reprezentaţi prin puncte pe o sferă N dimensională. Conform regulii de învăţare de fiecare dată când un neuron

Page 115: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

115

câştigă competiţia, vectorul său pondere se îndreaptă înspre modelul de intrare x, mişcare ilustrată în Fig.6.3.

Fig.6.3 Deplasarea vectorului pondere a neuronului declarat câştigător

Fig.6.4 prezintă învăţarea grupelor de modele în cazul unei RN formate din trei

neuroni . Fig.6.4.a Modele similare de intrare sunt situate în puncte apropiate pe sferă.

Fig.6.4.b Când se aplică un model de intrare câştigă competiţia neuronul al cărui vector pondere este cel mai apropiat de modelul de intrare câştigă competiţia. Vectorul său pondere se roteşte înspre modelul de intrare. Fig.6.4.c Dacă există trei neuroni şi trei grupări de modele de intrare, fiecare dintre neuroni va câştiga competiţia pentru una dintre cele trei grupări.

Dacă există în RN mai mulţi neuroni de ieşire decât numărul grupărilor modelelor de intrare, pe măsură ce RN învaţă, vectorii pondere devin mai deşi acolo unde modelele de intrare sunt mai dese şi mai rari, sau chiar absenţi acolo unde modelele de intrare sunt mai puţine. Cu alte cuvinte RN se adaptează pentru a măsura funcţia densitate de probabilitate a modelelor de intrare.

2a 2b 2c

Page 116: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

116

6.4 Algoritmi competitivi 6.4.1.Algoritmul competitiv standard

Algoritmul competitiv standard (ACS) [R. Hecht-Nielsen, 90] calculează o distanţă între vectorii de intrare şi vectorii pondere RBFR. Această distanţă poate fi de mai multe tipuri, dar uzual este folosită distanţa euclidiană. Neuronul j având distanţa minimă dintre vectorul său pondere şi vectorul de intrare este declarat câştigător:

hNinn ,1,][][minarg=j =i- wx (6.9) unde x[n] este vectorul de intrare, ci[n] este vectorul vectorul pondere i şi n este timpul discret. Vectorul pondere câştigător este mutat înspre vectorul de intrare cu o fracţiune η, numită viteză de învăţare: [ ]][][][]1[ nnnn iii wxww −+=+ η (6.10) Viteza de învăţare, aparţinând intervalului (0,1), poate fi constantă sau variabilă, de exemplu, dată de relaţia:

hNnn 1][]1[ −η=+η (6.11)

unde Nh reprezintă numărul vectorilor vectorul pondere. Vectorii pondere RBFR sunt iniţializaţi aleator, uzual la valori ale vectorilor de intrare. Ecuaţiile (6.9), (6.10) şi (6.11) sunt aplicate iterativ până când algoritmul converge, adică atunci când viteza de învăţare atinge o valoare foarte mică sau zero, respectiv îngheaţă atunci când se atinge un număr de iteraţii predefinit.

Deficienţa majoră a algoritmului este necesitatea cunoaşterii apriori a numărului de grupări k ale modelelor de intrare. În cazul în care acest număr este necunoscut clasificarea eşuează. Din păcate, în aplicaţiile practice numărul k al grupărilor este adesea necunoscut. O altă problemă ce poate apare în procesarea algoritmului ACS este aşa numita problemă a "unităţilor moarte". În cazul în care un vectorul pondere este iniţializat prea departe de datele de intrare, în comparaţie cu ceilalţi vectori pondere, este posibil ca acesta să nu câştige niciodată competiţia, deci să nu se adapteze, astfel încât practic el este mort din punctul de vedere al învăţării. Fig.6.5 prezintă poziţia unei unităţi moarte în spaţiul vectorilor pondere. Cu cerculeţe cu steluţă s-au reprezentat modelele de intrare şi cu cerculeţ s-au reprezentat vectorii pondere.

unitate "moartă"

Page 117: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

117

Fig.6.5 Izolarea neuronului al cărui vector pondere a fost iniţializat prea departe

de modelele de intrare

6.4.2 Algoritmul competitiv sensibil la frecvenţă Pentru a evita problema "unităţilor moarte " s-a introdus algoritmul competitiv sensibil la frecvenţă (ACSF) [S.C.Ahalt, 90], numit şi algoritm "cu conştiinţă". În ACSF fiecare neuronii ţin evidenţa situaţiilor în care au câştigat competiţia şi îşi reduc viteza de învăţare invers proporţional cu numărul acestora. Astfel sunt crescute şansele neuronilor care n-au câştigat niciodată competiţia, în raport cu ceilalţi neuroni. Algoritmul este o extensie a algoritmului ACS obţinut prin modificarea relaţiei (6.9) în următoarea:

hii ,Ninnj 1,][][minarg =−= wxγ (6.12) Frecvenţa relativă γi a vectorul pondere wi se defineşte cu relaţia:

∑=

=hN

ii

ii

s

1

(6.13)

Unde si este numărul situaţiilor în care neuronul cu vectorul pondere wi a câştigat competiţia. După selectarea neuronului câştigător vectorul său pondere se actualizează cu relaţia (6.10) într-un mod similar algoritmului ACS, ajustându-se şi parametrul si cu relaţia:

1][]1[ +=+ nsns ii (6.14)

Prezenţa "conştiinţei" evită apariţia neuronilor morţi şi garantează că toţi neuronii vor câştiga odată competiţia. Figura de mai jos prezintă modul de apropiere a vectorului pondere al unei unităţi, în cazul algoritmului competitiv sensibil la frecvenţă.

Algoritmul ACSF distribuie întotdeauna cei Nh vectori pondere în spaţiul modelelor de intrare, fără problema "unităţilor moarte", dar necesită cunoaşterea exactă a numărului k al grupărilor. Câteva dintre aplicaţiile în care algoritmul ACSF a avut rezultate remarcabile sunt: extragerea de caracteristici [H.C.Card, 98] şi compresia imaginilor [C.H.Chang, 05].

Fig.6.6 Apropierea vectorului pondere îndepărtat de modelele de intrare, prin mecanismul cu "conştiinţã"

Page 118: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

118

6.4.3. Algoritmul competitiv cu penalizarea rivalului

Algoritmul competitiv cu penalizarea rivalului (ACPR) realizează o grupare adecvată fără a cunoaşte apriori numărul grupărilor modelelor de intrare [L. Xu, 93]. El determină nu numai neuronul câştigător j, cu relaţia (6.12) ci şi următorul neuron cel mai apropiat, numit rival r, cu relaţia:

ji,Ni,nnr= h ii ≠= 1][][minarg wx -γ (6.15)

Vectorul pondere al neuronului câştigător este mutat înspre vectorul de intrare cu o

viteză de învăţare η, aparţinând intervalului (0,1). Vectorul pondere al rivalului este îndepărtat de vectorul de intrare cu o viteză de învăţare β, mult mai mică decât η, uzual cu două ordine de mărime. Toţi ceilalţi vectori pondere rămân neschimbaţi. Regula de învăţare poate fi sintetizată în relaţia:

≠≠

=−−

=−+

=+

rişijidacăn

ridacănnn

jidacănnηn

n

][

]][][[][

]][][[][

]1[

i

ii

ii

iw

wxw

wxw

w β (6.16)

Dacă viteza de învăţare η este mult mai mare decât β, cu cel puţin două ordine de

mărime, reţeaua va determina automat numărul claselor semnalelor de ieşire. Altfel spus, presupunând că numărul claselor este necunoscut şi că numărul neuronilor din stratul ascuns Nh este mai mare decât numărul claselor, atunci vectori pondere vor converge înspre centrii grupărilor semnalelor de intrare. Algoritmul competitiv cu penalizarea rivalului va îndepărta în fiecare iteraţie cel mai apropiat rival şi va converge mult mai rapid decât algoritmii ACS şi ACSF, anterior menţionaţi. Vectori pondere în exces, al căror număr este dat de diferenţa dintre Nh şi numărul de clase k vor fi îndepărtaţi din spaţiul modelelor de intrare. Dacă numărul neuronilor din stratul ascuns este mai mic decât numărul claselor, atunci reţeaua va oscila în timpul antrenamentului, indicând necesitatea creşterii numărului neuronilor ascunşi.

Algoritmul realizează gruparea modelelor de intrare fără problema unităţilor moarte şi fără a fi necesară cunoaşterea apriori a numărului de clase, îndepărtând vectorii pondere în exces din spaţiul modelelor în mod automat. Algoritmul ACPR este simplu şi are o mai bună convergenţă decât algoritmul ACSF. Algoritmul ACPR a fost aplicat cu succes în egalizarea canalelor de comunicaţie [C. Botoca, 04], segmentarea color a imaginilor [L.T. Law, 03] şi în extragerea de caracteristici [T. Nakamura, 98]. Dezavantajul acestui algoritm este sensibilitatea la alegerea vitezei de învăţare a rivalului, care trebuie să fie cu câteva ordine de mărime mai mică decât cea a neuronului câştigător.

4.Algoritmul competitiv cu penalizarea dinamică a rivalului Algoritmul

competitiv cu penalizarea dinamică a rivalului (ACPDR) este o variantă a algoritmului ACPR care elimină dependenţa convergenţei de alegerea vitezei de învăţare a rivalului [C. Botoca, 05]. Comparativ cu ACPR, algoritmul competitiv cu penalizarea dinamică a rivalului introduce un parametru, numit putere de penalizare, pentru penalizarea dinamică a vectorul ponderelui rival:

][][

][][,][][min()(

nnnnnn

prw

rwwi ww

wwwxw

−−−

= (6.17)

Page 119: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

119

unde ww[n] este vectorul pondere câştigător şi wr[n] este vectorul vectorul pondere rival. Viteza de învăţare a vectorului pondere rival, β din ecuaţia (6.16) devine: )( ip wηβ −= (6.18)

Se poate observa că valoarea puterii de penalizare a rivalului p(wi) din relaţia (6.18) este

întotdeauna între 0 şi 1, astfel încât poate fi privită ca o probabilitate. Dacă ][][][][ nnnn rww wwwx −≥− , atunci rivalul va fi complet penalizat cu viteza de învăţare η.

În caz contrar, rivalul va fi penalizat cu viteza de învăţare η p(wi), care este gradual atenuată pe măsură ce distanţa dintre vectorul ponderel câştigător şi rivalul său creşte. Astfel algoritmul ACPDR este de fapt o generalizare a algoritmului ACPR, care permite îndepărtarea rivalului cu o viteză de învăţare mai mare decât acesta, deci are o convergenţă mult mai rapidă înspre vectori ponderei doriţi.

Exemple

Algoritmii ACSF, ACPR şi ACPDR au fost utilizaţi pentru clasificarea unor date de intrare complexe [C. Botoca, 05], [C. Botoca, 06]. În cele ce urmează se prezintă rezultatele experimentelor, pentru un număr diferit de vectori pondere şi de grupări. Partea reală şi cea imaginară a datelor de intrare au fost generate independent, pornind de la numere alese în mod aleator în spaţiul complex, prin suprapunerea unui zgomot gaussian, cu valori diferite ale dispersiei σ². Vectori ponderei au fost iniţializaţi aleator la un subset de valori ale datelor de intrare. Viteza de învăţare a vectorul ponderelui câştigător a fost aleasă la η=0.001, pentru toţi algoritmii. Viteza de învăţare a rivalului a fost aleasă la β=0.0001. Exemplul 1 Au fost generate 600 de date de intrare complexe, utilizând un zgomot gaussian în jurul a trei puncte: (1; j), (1; 5j) şi (5; 5j) [C. Botoca, 05]. Datele de intrare au format trei grupări aşa cum se poate vedea în figurile 6.7 a), b) şi c). Cei şase vectori pondere aleşi au fost următorii: (0.2580; 0.2849j), (1.4659; 5.1359j ), (0.3893; 5.3331j), (5.2045; 5.1298j), (1.9193; 5.4489) şi (5.5869; 5.1937j).

Figurile 6.7 a), b) şi c reprezintă stările dorite (datele complexe iniţiale, neafectate de zgomot), datele de intrare afectate de zgomot x[n], respectiv poziţiile iniţiale şi finale ale vectori ponderelor c[n], în cazul unei dispersii a zgomotului de σ²=0.36, după 100 iteraţii, în cazul utilizării celor trei tipuri de algoritmi ACSF, ACPR şi ACPDR. Reprezentările s-au făcut pentru acelaşi număr de iteraţii, pentru toţi cei trei algoritmi, pentru a evidenţia diferenţele dintre rezultatele procesării, chiar dacă graficele obţinute au scări diferite.

Se poate observa că algoritmul ACSF a eşuat în determinarea stărilor dorite, pentru că el trebuie să cunoască apriori numărul grupărilor, astfel încât nu poate manipula un număr de vectori pondere diferit de numărul grupărilor. Ceilalţi doi algoritmi, ACPR şi ACPDR au reuşit să orienteze corect vectori ponderei spre stările dorite. Comparând figura 6.7 b) cu figura 6.7 c) se poate observa că algoritmul ACPDR a îndepărtat mai rapid vectori ponderei în exces decât algoritmul ACPR şi a găsit poziţii mai apropiate de cele dorite, în acelaşi număr de iteraţii, deci convergenţa sa este mai bună.

Page 120: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

120

a)

b)

c)

Fig.6.7 Stările dorite , stările de intrare zgomotoase x[n], poziţiile iniţiale şi cele finale ale vectori ponderelor c[n] în cazul unei dispersii a zgomotului de σ²=0.36, după 100 iteraţii,

utilizând: a) algoritmul ACSF; b) algoritmul ACPR; c) algoritmul ACPDR

(Legendă: "o" - Stările dorite; "*"- stările de intrare zgomotoase; "×" - poziţiile iniţiale ale vectori ponderelor; "+" – poziţiile finale ale vectori ponderelor; "–" evoluţia vectori

ponderelor)

Exemplul 2 Au fost generate 600 de date de intrare x[n] obţinute în jurul a 16 puncte din planul complex, reprezentând stările dorite, peste care s-a suprapus zgomot alb cu o dispersie de σ²=0.1

Page 121: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

121

[C. Botoca, 06]. Au fost iniţializaţi 20 de vectori pondere în mod aleatoriu în mulţimea datelor de intrare.

Figurile 6.8 a), b) şi c) reprezintă rezultatele simulărilor după 30 de iteraţii, utilizând algoritmii ACSF, ACPR şi ACPDR. După cum se poate observa în figura 6.8.a), algoritmul ACSF a eşuat în determinarea stărilor dorite. Ceilalţi doi algoritmi, ACPR şi ACPDR au reuşit să orienteze corect vectori ponderei înspre stările dorite. Este de remarcat faptul că algoritmul ACPDR a îndepărtat mult mai rapid vectori ponderei în exces decât algoritmul ACPR şi a găsit poziţii mai apropiate de cele dorite, în acelaşi număr de iteraţii, deci convergenţa sa este mai bună.

Algoritmii ACPR şi ACPDR recompensează vectorul ponderel câştigător şi penalizează următorul vectorul pondere câştigător, numit rival. Comparativ cu algoritmul competitiv standard cei doi elimină problema unităţilor moarte. Dacă se compară cu algoritmul competitiv sensibil la frecvenţă, algoritmii ACPR şi ACPDR nu necesită cunoaşterea numărului de grupări şi în plus elimină vectori ponderei în exces în afara spaţiului modelelor, asociind câte un singur vectorul pondere fiecărei categorii. Ambii algoritmi sunt adecvaţi pentru clasificarea adaptivă a semnalelor complexe afectate de zgomot. Algoritmul competitiv cu penalizarea dinamică a rivalului elimină dezavantajul selecţiei destul de delicate a vitezei de învăţare a rivalului, controlând-o în mod dinamic, în funcţie de distanţa faţă de vectorul ponderel câştigător.

a)

b)

Page 122: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

122

c)

Fig.6.8 Stările dorite, stările de intrare zgomotoase x[n], poziţiile iniţiale şi cele finale ale vectori ponderelor c[n] în cazul unei dispersii a zgomotului de σ²=0.1, după 30 iteraţii,

utilizând: a) algoritmul ACSF; b) algoritmul ACPR; c)algoritmul ACPDR

(Legendă: "o" - Stările dorite; "*"- stările de intrare zgomotoase; "×" - poziţiile iniţiale ale vectori ponderelor; "+" – poziţiile finale ale vectori ponderelor; "–" evoluţia vectori

ponderelor) Comparând algoritmul ACPR cu algoritmul ACPDR, cel din urmă are o convergenţă mai

rapidă. Algoritmii competitivi reprezintă un instrument eficient în rezolvarea problemelor de

clasificare, larg aplicat într-o mare varietate de probleme din procesarea semnalelor cum ar fi: compresia datelor [T. Hofmann, 98], cuantizarea vectorială a semnalelor [S.C. Ahalt, 90], [H.C. Card, 98], [C.H. Chang, 05] [R. Gray, 84], egalizarea adaptivă de canal de comunicaţie [C. Botoca, 04], [S. Bouchired, 99.1], [X. Wang, 02], procesarea de imagini [L.T. Law, 03], [T. Nakamura, 98] şi regăsirea de imagini [C. Carson, 99].

6.5 Estimarea funcţiei densitate de probabilitate Aproape toate informaţiile referitoare la date din unele domenii ca de exemplu teoria informaţiei, recunoaşterea formelor , statistică se regăsesc în funcţia distribuţie de probabilitate

Se doreşte ca vectorii pondere ai RN, wj să se aranjeze în spaţiul RN astfel încât să înveţe funcţia densitate de probabilitate a modelelor de intrare. Dar regula de învăţare competitivă standard (Kohonen) nu asigură, în general, un set de vectori pondere echiprobabili. Cu alte cuvinte, fiind dat un model de intrare x din spaţiul RN, în conformitate cu funcţia densitate de probabilitate ρ, probabilitatea ca x să fie cel mai aproape de wj să fie 1/N ∀ j=1,2,...N. Pot apare următoarele probleme: • ca unele regiuni, acolo unde densitatea de probabilitate este mică, să nu fie

reprezentate; • regiunile cu densitate de probabilitate mare să fie supraeşantionate ;

S-au elaborat o serie de soluţii pentru rezolvarea acestor probleme cum sunt:

Page 123: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

123

1. Metoda radial sprouting este adecvată pentru distanţa euclidiană şi alte măsuri similare [Hecht Nielsen]. Vectorii pondere sunt iniţializaţi la zero şi modelele de intrare x sunt multiplicate cu

β (un număr pozitiv mic, 0 < β≤1). Procesul de învăţare începe cu o valoare scăzută a lui β , aproape de zero. Astfel toţi vectorii pondere sunt aproape de vectorii de intrare. Pe măsură ce reţeaua neuronală învaţă β creşte, vectorii pondere sunt forţaţi să se îndepărteze de zero şi să urmeze modelele de intrare. Câţiva vectori pondere pot rămâne în urmă şi sunt irosiţi în procesul de clasificare.

Dezavantajul metodei constă din faptul că procesul de învăţare este încetinit. 2. O altă soluţie a fost de a adăuga vectori de zgomot uniform distribuiţi intrărilor, în

scopul pozitivării funcţiei densitate de probabilitate. Iniţial nivelul zgomotului este mult mai mare decât valoarea modelelor de intrare. În timp puterea zgomotului scade. Învăţarea în prezenţa zgomotului este însă şi mai lentă decât în cazul metodei "radial sprouting".

3. Adăugarea unui termen numit "conştiinţă" pentru fiecare neuron , care monitorizează numărul de situaţii succesive în care acesta a câştigat competiţia. Această metodă rezolvă problema echiprobabilităţii vectorilor pondere.

Conceptul de bază al mecanismului de învăţare cu conştiinţă este de a ţine o evidenţă a timpului fi în care neuronul i a câştigat competiţia:

])k[f-o.(]k[f ]1k[f iiii β+=+ (6.18)

unde: • o este ieşirea 0 sau 1 a neuronilor după ce s-a terminat competiţia; • β este o constantă pozitivă mică, cu o valoare tipică de 0,0001;

Se determină apoi curentul de polarizare (pragul) ci conform relaţiei:

−⋅γ ii f

N1=c (6.19)

unde γ este o constantă pozitivă, tipic de valoare 10.

Termenul ci reprezintă cantitatea prin care frecvenţa de câştigare a competiţiei de către neuronul i este sub nivelul de echiprobabilitate 1 ⁄ N. Neuronul cu cea mai mică diferenţă min[D(x,wi) −ci] este declarat câştigător şi îşi va modifica ponderile conform regulii de învăţare, apropiindu-se de modelul de intrare. Spre deosebire de cazul uzual când un singur neuron işi modifică ponderile, şi ceilalţi neuroni îşi modifică ponderile îndepărtându-se de intrare. Elementele de procesare care câştigă prea des competiţia au valori ci negative mari. Cele care nu câştigă prea des competiţia au valori de polarizare pozitive astfel încât favorizate de relaţia de declarare a neuronului câştigător. În final vectorii pondere se vor distribui într-o configuraţie aproape echiprobabilă Metoda este cunoscută şi sub denumirea de învăţare competitivă sensibilă la frecvenţă "frequency competitive learning" . .

Page 124: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

124

6.5 Reţeaua MAXNET În reţeaua MAXNET fiecare neuron este cuplat cu el însuţi excitator şi îi inhibă pe toţi ceilalţi:

=≠α−

=jipentru1jipentru

w ij (6.20)

unde α = 1N

< 1 este o constantă pozitivă mică, iar N numărul de neuroni din RN

Relaţia (6.20) se poate scrie ca o matrice de dimensiune NxN:

α−α−

α−α−α−α−

1............1...1

=WN

(6. 21) Modelul de intrare este activ doar în momentul iniţial x[0]. Fiecare neuron procesează intrarea sa netă conform relaţiei (6.1), adică sub formă matricială:

TN ]0[x.W]0[net = (6.22)

Apoi se determină ieşirea aplicându-se funcţia de activare intrării nete:

])k[net(f]1k[o =+ (6.23)

Funcţia de activare este definită de relaţia:

θ<θ≥

=]k[netpentru0

]k[netpentru]k[net])k[net(f (6.24)

Ieşirile tuturor neuronilor la momentul k+1 se folosesc pentru a determina intrarea netă în neuroni la momentul următor de timp k+2. Se poate demonstra că aplicându-se în mod recursiv relaţiile (6.23) şi (6.24) reţeaua MAXNET va converge înspre o situaţie în care doar neuronul cu cea mai mare intrare netă iniţială va rămâne activ în timp ce toţi ceilalţi vor converge spre activarea zero. Din acest motiv reţeaua MAXNET se numeşte şi reţea de tipul (" câştigătorul ia totul " în engleză winner-takes-all). O reţea similară este MINNET care la ieşire va avea un singur neuron activ, acela cu cea mai mică stare de activare iniţială. Exemplu

Tipic o reţea neuronală competitivă este alcătuită din două straturi de neuroni: -stratul de măsurare al distanţei;

Page 125: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

125

-stratul competitiv, de tip MAXNET sau MINNET; Structura unei reţele neuronale competitive este reprezentată în figura 6.9:

Fig.6.9 Structura reţelei neuronale competitive

Fie un clasificator neuronal de caractere, implementat cu o reţea Hamming ca prim

strat şi o reţea Maxnet ca al doilea strat. Literele C, I, T sunt modelele prototip . RN va selecta clasa căreia îi aparţine modelul aplicat la intrare, respectiv clasa la distanţa Hamming cea mai mică faţă de acesta. Stratul Hamming va avea la ieşire un neuron cu cea mai mare stare de activare , dacă distanţa Hamming dintre modelul de intrare şi categoria reprezentată de acel neuron va fi minimă. Stratul MAXNET suprimă ieşirile tuturor neuronilor cu excepţia celui care a avut cea mai mare stare de activare iniţială. Fie modelul prototip pentru o clasă m, ]s...s[s s m

Nm2

m1

m = . Matricea ponderilor pentru stratul Hamming care realizează o clasificare în p

categorii este dată de relaţia:

=)p(

N)p(

2)p(

1

)2(N

)2(2

)2(1

)1(N

)1(2

)1(1

H

sssssssss

21W

L

L

L

Pentru litera C, modelul prototip, conform imaginii de mai jos, are structura

s1=[1 1 1 1 -1 -1 1 1 1 1]. În mod similar pentru litera I modelul prototip este s2=[-1 1 -1 -1 1 -1 1 -1 1 ] şi

pentru litera T modelul prototip este s3=[1 1 1 -1 1 -1 -1 1 -1 ]. Matricea ponderilor pentru reţeaua Hamming este:

x(n d(nD(x,W)

Strat Maxn

Regulă de învăţare

m m p ∫ ∫ ∫

y(n

Page 126: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

126

−−−−−−−−−−

−−=

111111111111111111

111111111

21WH

Intrarea netă pentru reţeaua Hamming este dată de relaţia

2Nxs

21net Tm

m +⋅⋅= , pentru m=1,2, … , p

sau de : )s,x(HDNnet )m(

m −=

unde HD este distanţa Hamming, numărul de poziţii în care cei doi vectori diferă. Practic net ne dă numărul de poziţii în care cei doi vectori x şi sm se aseamănă.

mm netN1)net(f ⋅=

Intrările reţelei Hamming sunt date de:

[ ] 729

25

29

111111111

11111111121net1 =+=+

⋅−−=

Page 127: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

127

[ ] 329

23

29

111111111

11111111121net 2 =+−=+

⋅−−−−−−=

[ ] 529

21

29

111111111

11111111121net 3 =+=+

⋅−−−−=

Ieşirile reţelei Hamming sunt intrări pentru reţeaua Maxnet la momentul 0 :

97net

91)net(f 11 =⋅=

93net

91)net(f 22 =⋅=

95net

91)net(f 33 =⋅=

Într-o formă vectorială modelul de intrare în reţeaua Maxnet este:

=

95

93

97]0[x

Dacă se alege ε=0.2 (care respectă condiţia ε<1/3), matricea ponderilor pentru reţeaua Maxnet WN este :

Page 128: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

128

−−

−−

−−

=⋅

151

51

511

51

51

511

WN

Intrarea netă în MAXNET este la momentul initial :

=

−−

−−

−−

=⋅=333.0067.0599.0

959397

151

51

511

51

51

511

]0[xW]0[net N

Ieşirile reţelei Maxnet, respectiv intrările nete la iteraţiile succesive sunt:

==

333.0067.0599.0

])0[net(f]1[o

−=

−−

−−

−−

=⋅=120.0120.0520.0

333.0067.0599.0

151

51

511

51

51

511

])0[net(fW]1[net N

==

120.00520.0

])1[net(f]2[o

−=

−−

−−

−−

=⋅=096.0140.0480.0

120.00520.0

151

51

511

51

51

511

])0[net(fW]2[net N

==

096.00480.0

])2[net(f]3[o

Page 129: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

129

−−=

−−

−−

−−

=⋅=−7

N

10115.0461.0

120.00520.0

151

51

511

51

51

511

])2[net(fW]3[net

==

00461.0

])3[net(f]4[o

Ieşirea reţelei MAXNET rămâne pentru toate iteraţiile succesive aceeaşi :

[ ]00461.0]4[o =

Aşadar modelul de intrare, prototipul afectat de zgomot va fi clasificat ca litera C.

Page 130: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

130

Optimizarea traficului ATM cu un controler neuronal de tip competitiv

Se propune o metodă de planificare a celulelor din memoria tampon a unui nod de comunicaţie, ce utilizează un algoritm competitiv cu conştiinţă. În Fig. 1 este reprezentată schema bloc a RN ca planificator de celule. Sistemul de comunicaţii controlat are surse multiple la intrare şi o singură ieşire. Sursele generează date în perioade ON-OFF independente, după o distribuţie exponenţială. Fiecare intrare a nodului de reţea are câte o memorie tampon de aceeaşi capacitate maximă xb. Numărul celulelor dintr-o coadă particulară s-a notat cu xi. Numărul celulelor într-o coadă particulară a nodului variază în timp după o distribuţie Poisson. Prebufferele netezesc datele generate de surse. RN selectează celulele de la intrări pentru transferul optim la ieşire.

Fig. 1 Schema bloc a controlerului neuronal Reţeaua neuronală are trei straturi: unul de intrare, unul ascuns care determină o distanţă

metrică şi unul de ieşire de tipul "câştigătorul ia totul" . Primul strat formează componentele vectorului de intrare x=[x1,x2,...,xN]T, unde prin xN se reprezintă numărul de celule la un moment dat din memoria tampon N. Al doilea strat conţine neuroni adaptivi care calculează distanţa metrică D(x,wi) între vectorul de intrare şi propriul vector pondere wi = [wi1, wi2, ...,wiN ]T. Elementele de procesare furnizează distanţa dintre vectorul de intrare x şi vectorul pondere w, D(x,wi). Distanţa poate fi de tipul distanţă euclidiană, distanţă Manhattan, distanţă Minkovski sau altele . Ultimul strat este competitiv de tipul "câştigătorul ia totul". Neuronul cu diferenţa minimă [D(x,wi)-ci] dintre distanţa D(x,wi) şi pragul său ci, este declarat câştigător şi din coada de aşteptare xi este selectată o celulă pentru transfer spre ieşire. Ieşirea se calculează cu relaţia următoare:

… 1

… 2

… N

.

.

Strat Kohonen

x =[x1,x2,…xN]

Strat WTA

c =[c1, c2,…cN] f =[f1, f2,…fN]

z =[z1,

Server Ieşire

Reţea neuronală

Intrări

Page 131: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

131

restîn 0)c-x),min(D(w=c-x),D(wpentru 1

=ziiii

i (1)

Elementul de procesare declarat câştigător îşi va modifica ponderile în conformitate cu legea de învăţare Kohonen :

iiwii z)).k(wx.(a)k(w)1k(w −+=+ (2) unde aW este viteza de învăţare cu valori între 0 şi 1;

Şi neuronii care au pierdut competiţia îşi modifică ponderile, dar cu o constantă aL mai mică decât a neuronului câştigător:

1a a 0z)).k(wx.(a)k(w)1k(w

WL

iiLii

<<<−+=+

(3)

Astfel, toţi vectorii pondere se deplasează spre vectorii de intrare cu fracţiuni diferite, ca

în figură. Vectorii pondere vor deveni mai deşi acolo unde modelele de intrare sunt mai dese şi mai rari sau chiar absenţi acolo unde modelele sunt mai puţine.

Fig. 2 Rotirea vectorului pondere spre vectorul de intrare

atât a neuronului m câştigător cât şi a neuronului p învins. Dar legea de învăţare Kohonen nu asigură, în general, un set de vectori pondere echiprobabili, existând riscul ca odată declarat câştigător un neuron el să rămână câştigător. Problema echiprobabilităţii vectorilor pondere se poate rezolva introducând pentru fiecare neuron un termen numit "conştiinţă" care monitorizează numărul de dăţi succesive în care acesta a câştigat competiţia.

Page 132: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

132

Prezenţa "conştiinţei" evită şi apariţia neuronilor morţi. Neuronii morţi au ponderile prea îndepărtate de intrări, astfel încât ei nu au şansa de a câştiga vreodată competiţia. Mecanismul cu de învăţare cu conştiinţă oferã şanse şi acestora şi garantează că toţi neuronii vor câştiga odată competiţia.

a) b)

Fig. 3a)Izolarea neuronului cu vectorul pondere depãrtat de modelul de intrare b)Apropierea vectorului pondere cu ajutorul mecanismului cu “conştiinţã”.

Dacă un neuron câştigă prea des competiţia , de mai multe ori decât valoarea medie 1/N, conştiinţa îl elimină din competiţie mărindu-i distanţa metrică faţă de intrare Fracţiunea fi de timp în care care neuronul i a câştigat competiţia este dată de relaţia :

1b0)]k(fz.[b)k(f)1k(f iiii

<<−+=+ (4)

unde • b se determină conform relaţiei:

N

1-N 1-k1

-1=bd

(5)

• termenul kd reprezintă numărul de situaţii în care un neuron a câştigat succesiv competiţia; Această evaluare se face în pasul imediat următor al terminării competiţiei. Pentru fracţiunea fi se calculează apoi un termen de polarizare care se sustrage din distanţa iniţială D(wi,x):

))(xq+fN1(g=c iii i i φ−⋅ ⋅ (6)

unde g este o constantă, de acelaşi ordin de mărime ca şi D, care se determină în fiecare slot cu relaţia:

⋅ ∑

N

1=i

i x),D(wN1=g (7)

Page 133: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

133

Termenul qi oferă posobilitatea de a acorda priorităţi cozilor de aşteptare.

Termenul (xi) depinde de lungimea cozii de aşteptare xi.

kx

001.0 ]k[x

1 1

1][ i

i

ki ∆∆

++−

=φ (8)

Toţi termenii xi sunt normaţi la capacitatea maximă a cozii de aşteptare xb, astfel încât valoarea maximă a lui xi este 1. Constanta 0.001 evită situaţia de împărţire la zero, dacă xi este aproape de 1. Termenul Δk este intervalul de timp corespunzător transferului unei celule, adică un slot. Primul termen al relaţiei (8) permite creşterea polarizării pentru neuronul corespunzător cozii celei mai lungi. Rolul celui de al doilea termen este de a implica şi rafalele în algoritmul de programare.

Se observă în relaţia (6) că pragul ci creşte cu lungimea cozii de aşteptare, astfel încât el determină descreşterea diferenţei [D(x,wi)-ci]. De fiecare dată când un neuron câştigă competiţia fi creşte, în consecinţă ci descreşte şi diferenţa D(x,wi)-ci] va creşte.Se observă din relaţiile (6) şi (8) că un neuron care câştigă des competiţia are un prag negativ semnificativ. Acest prag îl îndepărtează de ceilalţi neuroni concurenţi. Un neuron care câştigă rar competiţia are un prag pozitiv , care determină creşterea probabilităţii ca să câştige competiţia.

Regula implementată de RN este că va fi deservită coada de aşteptare cea mai lungă, asigurându-se transferul de celule spre ieşire şi evitându-se depăşirea capacităţii.

Observaţii 1.) Un punct slab al controlerului neuronal îl reprezintã determinarea empiricã a coeficienţilor b şi g. 2.)Problema stabilitãţii În cazul în care vectorii de intrare nu sunt iniţializaţi spre grupãri potrivite şi viteza de învãţare este mare, aplicarea unui vector de intrare face ca sã se modifice configuraţia acestora, deci sistemul sã nu mai ajungã într-o stare stabilã ci sã evolueze continuu ca în Fig.4.

Fig. Reprezentarea instabilitãţii reţelei neuronale în cazul unei rate de învãţare mare

Soluţia este scãderea treptatã a ratei de învãţare.

Page 134: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

134

Rezultatele simulării Pentru a testa RN propusă s-au utilizat trei surse independente de tipul ON-OFF, cu o distribuţie Poisson a generării celulelor. Rata de vârf a celulelor a fost (3, 3, 1) celule pe slot, în perioadele active. Factorii corespunzători au fost (100/237, 307/167, 57/121) sloturi. Registrele de intrare au funcţionat pe baza principiului primul venit, primul plecat şi au avut o capacitate de xb=100 de celule.Fig.5a, b şi c reprezintă cozile de aşteptate de la intrare xi generate de cele trei surse într-un interval de timp de 550 sloturi. Se observă că ele reprezintă condiţii relativ dificile pentru transferul către o singură ieşire.

Fig.5 a Coada de aşteptare de la sursa A în funcţie de timp

(sute de sloturi)

Fig.5 b Coada de aşteptare de la sursa B în funcţie de timp (sute de sloturi)

Fig.5 c Coada de aşteptare de la sursa C în funcţie de timp (sute de sloturi)

Page 135: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

135

Ieşirea primului neuron din stratul competitiv (sute de sloturi)

Ieşirea celui de-al doilea neuron din stratul competitiv

(sute de sloturi)

Ieşirea celui de-al treilea neuron din stratul competitiv (sute de sloturi)

Page 136: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

136

Rata de pierdere a celulelor din cozile de aşteptare

Page 138: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

138

Cursul 7 1.1 Reţele neuronale celulare Generalităţi

Leon Chua si Lin Yang au fundamentat în 1988, la Berkeley, reţelele neuronale celulare

(RNC), o nouă categorie de reţele neuronale, cu o evoluţie spectaculoasă în ultimul deceniu, ce au

generat o direcţie de cercetare distinctă .

În articolul fundamental, “Cellular Neural Networks: Theory” ei introduc următoarea

definiţie :

“Like a neural network, a cellular neural network is a large scale nonlinear analog circuit,

which processes signals in real time. Like cellular automata, is made of massive aggregate

of regularly spaced circuit clones, called cells, which communicate with each other directly

only through its nearest neighbors. Each cell is made of a linear capacitor, a nonlinear

voltage controlled current source and a few resistive linear circuit elements.

Cellular neural networks share the best features of both worlds; its continuous time

feature allows real time signal processing found wanting in the digital domain and its local

interconnection feature makes it tailor made for VLSI implementation”.

Tamás Roska dă ulterior o descriere mai sintetică :

“Analog processor arrays placed on a 3D regular grid interacting within a finite

neighbourhood: this is the CNN (cellular neural network) paradigm. Using other words: it

is a programmable prototype machine performing nonlinear dynamic spatial convolutions in

real time”

Din definiţiile prezentate se conturează câteva caracteristici esenţiale ale RNC: structura geometrică regulată, localitatea conexiunilor şi programabilitatea , ceea ce le conferă un potenţial de procesare deosebit, în timp real.

Datorită conexiunilor locale, RNC oferă un model relativ simplu şi în acelaşi timp puternic

pentru o reprezentare deterministă a fenomenelor spaţio-temporale (descrise prin ecuaţii diferenţiale

neliniare şi cu întârziere în timp). RNC reprezintă cadrul adecvat pentru modelarea fenomenelor din

diverse domenii : mecanică (analiza rezistenţei materialelor), chimie (modele de coroziune),

Page 139: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

139

electromagnetism , geofizică (dinamica poluării), biologie (modelul retinei, modele de morfogeneză

şi de difuzie).

De la arhitectura de bază până la inventarea maşinii universale RNC , şi a

supercomputerului, în 1992, reţelele neuronale celulare au cunoscut o dezvoltare fără precedent în

ştiinţă , concentrând interesul cercetătorilor din lumea întreagă, conducând la formarea unor

colective puternice, care colaborează între ele şi a căror activitate le este dedicată, în mod special.

De remarcat sunt :

• “The Nonlinear Electronics Laboratory” condus de profesorul L. O. Chua la “University of

California at Berkeley”;

• “The Analogic and Neural Computing Laboratory” condus de profesorul T. Roska la

“Computer and Automation Institute, Hungarian Academy of Sciences” din Budapesta;

• “The Vision Research Laboratory” condus de profesorul F. Werblin la “University of

California at Berkeley”;

• “The Neurobiology Laboratory” condus de professorul J. H. Mori, la “University of Medicine

in Budapest”;

• “The Analog Integrated Circuit Design Laboratory “ condus de profesorul A. Rodriguez-

Vasquez la “University of Seville”;

• Laboratorul condus de profesorul A. Ushida la “University of Tokushima”;

• Laboratorul condus de profesorul P. P. Civalleri la “The Technical University of Torino”;

• “The Laboratory PASTIC” condus de professorul J. Zerubia la INRIA, Sophia - Antipolis,

Franţa;

• Laboratorul condus de profesorul J. A. Nossek, la “The Technical University of Munich”;

• “The Signal Processing Laboratory “ condus de profesorul G. Moschytz la ETH Zurich;

• Laboratorul condus de profesorul D. Wolf, la “Goethe University”, Frankfurt;

• Laboratorul condus de prof. J. Vandewalle, la ”Catholic University of Leuven”, Olanda;

• Laboratorul condus de M. Tanaka la “Sophia University”, Tokyo;

Cercetarea în domeniul RNC abordează o problematică cu o paletă extrem de largă, care

acoperă aproape toate domeniile activităţii umane (vezi fişierul în powerpoint):

1. prelucrări de imagini statice şi dinamice

• extragere de contur, filtrare, halftoning, skeletonizare, sortare de obiecte în funcţie de orientare

sau dimensiune, detecţie de minime şi maxime, mărire şi micşorare de imagine;

• extragerea unui anumit model din imagine (detecţia gurii şi a ochilor pe imaginile faciale în

mişcare, detecţia mânerelor de uşă din imagini pentru protezarea orbilor);

Page 140: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

140

• reconstrucţie de obiecte tridimensionale prin interpolare şi aproximare, rotaţia obiectelor 3D;

• îmbunătăţirea imaginilor prin eliminarea zgârieturilor, prin accentuare, prin mărirea contrastului (în

microscopie, neurologie, analiza amprentelor digitale);

• recunoaşterea caracterelor scrise ( latine şi japoneze);

• compresia şi decompresia imaginilor;

• recunoaşterea bancnotelor (copiatoare inteligente);

• în îmbunătăţirea imaginilor amprentelor digitale prin rezolvarea de ecuaţii parţiale diferenţiale în

timp real

• segmentarea imaginilor, detecţia defectelor din textura materialelor, din realizarea cablajelor;

• analiza şi detecţia mişcării;

• detecţie de ţinte multiple şi urmărire;

• navigare într-un mediu necunoscut;

• monitorizarea traficului şi detecţia coliziunii;

• stereograme;

2. modele morfogenetice- implementarea unor modele biologice pentru percepţia vizuală

(modelul retinei), pentru fenomenul de difuzie între membranele celulelor, pentru

morfogeneza blănii mamiferelor, pentru deplasarea în mediu, pentru controlul deplasării

unor roboţi (cu un sistem locomotor similar cu al viermilor, peştilor, insectelor) prin

rezolvarea ecuaţiilor parţiale diferenţiale de tipul

UD)U(FtU 2∇+=

∂∂

2

2

2

2

2

22

zyx ∂∂

+∂∂

+∂∂

=∇

3. controlul roboţilor, al deplasării lor într-un mediu necunoscut

4. baze de date prin memorii asociative;

5. în medicină:

• -dezvoltarea unui sistem RNC analogic pentru analiza mamografiilor, în vederea

diagnosticării interactive a cancerului mamar;

• -detecţia carcinoamelor bronhice şi alte analize tomografice computerizate;

• -îmbunătăţirea imaginilor din ecocardiografia ultrasonică;

• -analiza cromozomială, toolkit pentru partiţia, identificarea şi analiza defectelor

posibile;

Page 141: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

141

6. în telecomunicaţii

• Egalizoare Avantajele oferite sunt următoarele: Procesarea în timp real; Se elimină problemele de convergenţă, datorită stabilităţii RNC; Viteza de procesare depinde de constantele de timp ale circuitului şi nu de ordinul

filtrului; • Faxuri, scannere şi copiatoare cu funcţii multiple

• Controlul admisiei apelului şi al congestiei în reţelele de comunicaţii

îmbunătăţirea parametrilor globali de eficienţă

7. realizarea unor supercomputere dintr-o nouă generaţie, chipul RNC de maşina universală şi

platforma pentru testarea lui;

Sute de articole având ca subiect investigaţiile teoretice, aplicaţiile şi proiectarea RNC, cât şi

modelarea neuromorfică prin RNC au fost elaborate în ultimii ani. Majoritatea studiilor în domeniu

au fost publicate în volumele workshop-urilor sub egida IEEE dedicate reţelelor neuronale şi

aplicaţiilor lor.

“International Journal on Circuit Theory and Applications” şi “Transactions on Circuits and

Systems” au consacrat numere speciale RNC .

1.2 O analiză a dezavantajelor şi avantajelor reţelelor neuronale celulare

1.2.1 Dezavantajele

O analiză critică a reţelelor neuronale celulare dezvoltate până în prezent relevă câteva dintre

dezavantajele lor, moştenite de la categoria de RN, din care s-au desprins:

• lipsa unei abordări teoretice unitare;

• generarea unei soluţii particulare, adecvate numai în cazul unei aplicaţii concrete, fiind

dificilă adaptarea ei pentru o altă aplicaţie ;

• lipsa unor informaţii referitoare la arhitectura necesară într-o aplicaţie dată, date sub forma

unor reguli de construcţie clară (de exemplu numărul de straturi, numărul de neuroni-strat,

reţea cu sau fără reacţie). Majoritatea implementărilor au evoluat experimental, prin metoda

″trial and error″ , strict orientate spre găsirea soluţiei într-o aplicaţie concretă.

• structurile cu vecinătăţi de ordin superior ridică probleme, deşi datorită localităţii

interconexiunilor RNC sunt mult mai uşor implementabile;

În cazul RNC cu matrici de interconexiune variante în spaţiu calculul este distribuit în toată

masa reţelei , în concluzie, depanarea este dificilă, deşi mult mai accesibilă decât în cazul altor

Page 142: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

142

RN şi greu este posibilă localizarea componentei care duce la funcţionare eronată la un moment

dat.

1.2.2 Avantajele reţelelor neuronale celulare

Avantajele reţelelor neuronale celulare sunt date de caracteristicile care le particularizează

în marea clasă a reţelelor neuronale şi sunt:

Localitatea conexiunilor ,de inspiraţie biologică, reprezintă caracteristica esenţială a RNC

şi a fost practic determinată de necesitatea implementării VLSI. Fiecare procesor elementar (celulă)

interacţionează cu celelalte procesoare din reţeaua neuronală, într-o vecinătate finită . Raza vecinătăţii

este mult mai mică decât numărul celulelor din reţea. Matricea de interconexiuni se numeşte

“cloning template” . În majoritatea aplicaţiilor aceasta este aceeaşi pentru toate procesoarele

,proprietate cunoscută sub numele de invarianţă în spaţiu.

Marele avantaj faţă de alte RN este că depanarea , în cazul RNC cu matrici de

interconexiune invariante în spaţiu, este uşor de realizat , datorită acţiunii locale a operatorilor.

Structura geometrică regulată Toate procesoarele sunt identice ca structură electrică, şi

pot fi specificate în mod unic prin câţiva parametrii, cel mult 19 numere reale [86]. Funcţionarea unei

RNC de orice dimensiune poate fi controlată prin modificarea a 19 parametrii a unui singur tip de

circuit. Independenţa de dimensiune este cheia programabilităţii atât din punct de vedere soft, cât şi

hard.

Programabilitatea Din punct de vedere soft , cele 19 numere pot fi interpretate ca un

program ce implementează un anumit tip de funcţionare a neuronului, un anumit algoritm.

Implementarea aceluiaşi algoritm pe un computer digital convenţional ar necesita scrierea unui

program cu mii de instrucţiuni. Dacă luăm în considerare faptul că aceşti parametrii se pot permuta

între ei de 19! ori, fiecare situaţie corespunzând unei RNC distincte, compresia este impresionantă,

faţă de cazul instrucţiunilor unui computer digital Von Neumann.

Din punct de vedere hard sunt necesare doar 19 conexiuni spre exteriorul chip-ului. Acestea

permit programarea externă ,fără restricţii datorate mărimii reţelei. Faţă de calculatoarele clasice

seriale, unde timpul de procesare depinde exponenţial de mărimea numărului de procesoare , timpul

de stabilizare al unei RNC depinde linear în multe dintre cazuri. De fapt, pentru multe aplicaţii

timpul de procesare este independent de dimensiunea reţelei.

Page 143: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

143

Posibilitatea implementării VLSI

Prin localitatea conexiunilor şi structura geometrică regulată, RNC sunt un concept natural

pentru implementările VLSI .Acesta reprezintă avantajul major al RNC faţă de celelalte arhitecturi

neuronale. Datorită proprietăţii de invarianţă în spaţiu este posibilă construirea de reţele mari prin

potrivirea condiţiilor la limită, dintre chip-uri. Aceasta înseamnă că mărimea unei RNC nu este

restricţionată de numărul neuronilor ce pot fi implementaţi într-un chip.

Performanţa realizată, de 0.3 Terra operaţii analogice pe secundă, pe o suprafaţă de 1 cm2,

reprezintă o viteză de procesare fără precedent, care nu face decât să confirme supoziţiile teoretice.

Implementările optice sunt în fază experimentală, capabile de procesări cu viteze superioare.

Potenţialul de procesare

Programabilitatea interconexiunilor de control, reacţie şi de polarizare le conferă RNC un

potenţial de procesare deosebit, permiţându-le o comportare variată şi complexă, inclusiv ca oscilator

sau simulator de haos, în aplicaţii ce necesită o deosebită capacitate de procesare (ca de exemplu

probleme de optimizare globală, de sortare ,de numărare, de filtrare mediană). RNC pot simula unde

autogeneratoare (autowaves) pot produce “ Turing pattern-uri1” (într-un mod similar reacţiei de

difuzie studiate de Turing) sau pot genera alte fenomene dinamice spectaculoase, cum ar fi undele

concentrice, spiralele .

Evident comportarea reţelei depinde de condiţiile iniţiale, de condiţiile la limită, de structura

geometrică şi de dimensiunile domeniilor spaţiale.

În colaborare cu neurologii a fost elaborat modelul retinei umane. Comportarea deosebit

de complexă a RNC a permis şi generarea modelului difuziei chimice dintre două membrane

celulare, a unor modele morfogenetice. Astfel prin RNC se elaborează modele cu plauzibilitate

biologica, ce permit o mai bună înţelegere atât a anatomiei creierului, cât şi a procesării cunoaşterii

umane. În acelaşi timp modelele RNC oferă un cadru experimental al degradării funcţiilor biologice

la deteriorările structurale.

Cea mai recentă invenţie în domeniu, maşina universală RNC combină abordarea analogică

cu cea digitală . Ea este singura reţea neuronală cu o dinamică similară funcţiilor de “tip analogic”

implementate în emisfera dreaptă a creierului şi a funcţiilor de “tip discret” implementate în emisfera

1Pattern - starea staţionară de curent continuu obţinută prin comportarea dinamică diferenţiată a unor elemente identice, cuplate într-o distribuţie spaţială regulată. Altfel spus: celulele unei RNC generează pattern-uri dacă au ieşiri inegale în starea de curent continuu. Fenomene similare care implică o rupere a simetriei sunt studiate în biologie (modelele morfogenetice), biochimie (modelul de difuzie între membranele celulare), fizică, ecologie, electronică.

Page 144: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

144

stângă a creierului uman. Cu alte cuvinte, maşina universală RNC este o primă încercare grosolană a

implementării asimetriei a creierului uman.

S-a demonstrat că maşina universală RNC este o maşină Turing analogică , ea fiind capabilă

să rezolve orice problemă ce poate fi soluţionată cu un calculator clasic.

Dezvoltarea unor algoritmi de învăţare adaptivi şi utilizarea tehnologiilor optice, electromagnetice

şi cuantice în implementarea pe scară industrială deschid noi perspective RNC.

2.1 Reţele neuronale celulare generalizate

2.1.1 Arhitectura reţelelor neuronale celulare generalizate

In 1993, L.Chua şi Guzelis au reunit in conceptul de reţea celulară neuronală generalizată

(RNCG) toate variantele cunoscute de RNC .

Definiţia 1

O reţea celulară neuronală generalizată este un sistem neliniar, analogic, dinamic,

format dintr-un număr mare de subcircuite cu o aceeaşi structură, plasate pe o grilă

tridimensională. Subcircuitele sunt sisteme dinamice, de ordin arbitrar, conectate local, într-o

vecinătate finită.

Altfel spus, o RNCG este un procesor paralel programabil ce efectuează convoluţii dinamice

spaţiale în timp real. RNCG se pot considera o alternativă tridimensională analogică pentru

automatul celular bidimensional inventat de von Neumann .

O RNCG are, în cazul cel mai complex m straturi. Fiecare strat, la rândul său poate avea o

arhitectură unidimensională, cu N1 celule, notată Π1 ,bidimensională, de N1 x N2,celule, notată Π 2,

sau o arhitectură n dimensională, de N1 x N2 x ... x Nn celule, notată Π n (Nj fiind un număr întreg).

Numim reţea n dimensională cu m straturi, o RNCG formată din m straturi cu n dimensiuni.

Fig.2.1 reprezintă structura unei reţele bidimensionale cu trei straturi. Ca în figură, numărul celulelor

şi tipul conexiunilor dintre ele pot diferi de la un strat la altul. Fiecare unitate poate fi conectată atât

cu vecinii (în conformitate cu definiţia 2) de pe stratul ei cât şi cu cei de pe alte straturi. In cazul cel

mai general fiecare celulă a fiecărui strat poate fi conectată la celulele mai multor straturi.

Ca de exemplu, în Fig.2.1 fiecare celulă a fiecărui strat are conexiuni într-o vecinătate de r=1.

Stratul doi este complet conectat cu celelalte două straturi, adică fiecare celulă a stratului doi este

conectată cu toate celulele stratului unu, respectiv trei.

Fig. 2.2 ilustrează câteva tipuri de conexiuni posibile într-o reţea cu trei straturi.

Page 145: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

145

În Fig.2.2a ieşirile unităţilor dintr-un strat k, Π k, sunt cuplate la intrările unităţilor din stratul

următor Π k+1, caracterizând o RNCG de tip feed-foward. În Fig.2.2b, într–o RNCG de tip cascadă,

ieşirile unitaţilor stratului k sunt conectate nu numai la intrările stratului k+1, ci şi la cele ale

straturilor consecutive , k+2, k+3, şamd. RNCG recurentă din Fig.2.2c. are conexiuni bidirecţionale

şi/sau o buclă de reacţie.

Unităţile de procesare au ca indici coordonatele spaţiale. O celulă din stratul k al unei RNCG n

dimensionale cu m straturi se notează Ci1,i2,...,in,k unde ij =1,2, ...,Nj pentru toţi j =1,2, ...,n şi

k =1,2, ...,m.In particular pentru n=1 o celulă se notează Ci,k respectiv pentru n=2, Ci,j,k.

Fig.2.1 Reţea neuronală celulară generalizată cu trei straturi

Page 146: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

146

Fig.2.2 Tipuri de RNCG a) feed-foward b) cascadă c) recurentă

Definiţia 2

Vecinătatea Ni,l ,din stratul l, a unei celule Ci din stratul k, al unei RNCG n

dimensionale, cu m straturi se defineşte prin relaţia:

i,l v k,l k,l 1 2 n

j j

N = C / d (i; v) r , i v = (v , v , . . ., v , l)

v 1,2, . . . , N ptr. j 1,2, . . . n

≤ ≠

∀ε ε (2.1)

unde: dk,l,(i,v) este distanţa metrică dintre vectorii de numere întregi (i1, i2, ..., in, k)T şi (v1,v 2, ...,v

n,l)T şi rk,l este un număr pozitiv întreg.

Se pot alege distanţe metrice diferite, pentru diferite valori k şi l. Setul celor mai apropiate

vecinătăţi pentru o celulă Ci, este dat de reuniunea tuturor vecinătăţilor Ni,l, din diferite straturi

Ul

l,iI NN = .

Se observă că în cazurile extreme, vecinătatea cea mai apropiată a unei celule poate fi

mulţimea vidă

(nici o conexiune cu celulele învecinate) sau poate conţine toate celulele RNCG, ca în cazul reţelei

Hopfield. In cazul general, se pot alege r şi d diferite pentru aceeaşi celulă dintr-un strat, şi/sau

perechi de straturi. Acest caz generează o topologie neuniformă, ceea ce nu este de dorit pentru o

arhitectură neuronală. Vom considera în cele ce urmează reţele cu aceleaşi valori rk,k şi dk,k pentru

celulele aparţinând unui strat k, si respectiv aceleaşi valori rk,l şi dk,l pentru celulele din două straturi

diferite k, l.

a b c

Page 147: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

147

Fig.2.3 Modalităţi de conectare a unei celule intrastrat

Fig.2.4 Modalităţi de conectare a unei celule interstraturi pentru o RNCG

unidimensională, cu două straturi

Fig.2.3 prezintă câteva tipuri de conexiuni intrastrat pentru o reţea bidimensională.

• In Fig.2.3a conexiunile sunt date de rk,k=1 şi şi dk,k=|i1 – v1| + |i2 – v2|;

• In Fig.2.3b rk,k=1 şi dk,k=max(|i1 – v1|, |i2 – v2|);

• In Fig.2.3c rk,k=2 şi dk,k=|i1 – v1| + |i2 – v2|;

Fig. 2.4 prezintă câteva posibilităţi de interconectare a unei celule între straturi. Vecinătăţile

sunt date pentru cazul din Fig.2.4a de rk,k+1 = 1 şi dk,k+1= |i1 – v1|+ 1, respectiv în Fig.2.4b de rk,k+1 = 1

şi dk,k= max (|i1 – v1|,1).

Pentru celulele aparţinând vecinătăţii Ni, ponderile conexiunilor de control Biv, respectiv cele

de reacţie Ai,v se pot reprezenta sub formă unor matrici. Aceste matrici de conexiune pot fi aceleaşi

sau pot diferi de la o celulă la alta.

Definiţia 3

a b c

Page 148: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

148

O RNC cu matrici de control, reacţie şi polarizare invariante la transformările de

coordonate, adică , independente de i , se numeşte invariantă în spaţiu.

În prezent există diferite variante de RNC, ca de exemplu:

• RNC cu interconexiuni neliniare

• RNC cu diferite neliniarităţi

• RNC cu întârziere în timp

• RNC cu vecinătăţi multiple

• RNC cu diferite tipuri de vecinătăţi

Instrucţiunile RNC universale funcţionând ca un procesor în timp real sunt succesiuni de

matrici de interconexiune numite templates. Se pot defini algoritmi spaţio-temporali, ca succesiuni

de matrici de interconexiune: un template operează într-un anumit interval de timp, apoi altul

operează asupra datelor generate la ieşirea RNC, ş.a.m.d. Există şi posibilitatea de învăţare prin

adaptarea ponderilor.

Pentru determinarea matricilor de conexiune există mai multe metode ce se încadrează în 2

direcţii clare, distincte, vizând aplicaţiile RNC ca:

1. operatori spaţiali

2. memorii asociative

• Algoritmi pentru convergenţa la puncte fixe

• Metode de tip gradient, pentru învăţare de traiectorii prescrise pentru

reţelele neuronale celulare analogice

• Metode de învăţare de traiectorii prescrise în reţelele neuronale celulare

discrete

• Algoritmi globali pentru reţelele neuronale celulare discrete

• Algoritmi orientaţi spre implementarea hard

• Algoritmi genetici

2.2 Reţele neuronale celulare analogice

2.2.1 Dinamica reţelei

Page 149: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

149

Reţelele neuronale celulare analogice (RNCA) au fost primele introduse în 1988 , de L

Chua şi L Yang. Ele reprezintă un caz particular al RNCG, faţă de care se fac următoarele

simplificări:

• reţeaua are straturi bidimensionale. Dimensiunea unui strat k fiind de M x N celule, vom nota o

celulă cu Ci,j unde i ∈ 1,2, ...,M şi j ∈ 1,2, ...,N;

• subcircuitul liniar dinamic este de ordinul întâi;

• neliniaritatea aplicabilă în unitatea de ieşire este o funcţie continuă, liniară pe porţiuni, definită de

relaţia:

f x = 12

(|x + 1| - |x - 1| ) i i( ) (2.3)

unde:

• |.| reprezintă valoarea absolută ;

• bi = ci = 1, hi = 0 ;

• constantele ai = -a < 0 sunt aceleaşi pentru toate celulele;

• fiecare celulă este conectată într-o vecinătate Nr(i,j) dată de distanţa metrică d(i,j;k,l):

d(i, j;k, l) = (|i - k|, |j - l| ) rmax ≤

(2.4)

După cum se vede în Fig.2.6 vecinătatea unei celule pentru r=1 conţine 8 celule, pentru r=2

conţine 24 de celule, şamd.

Fig.2.6 Vecinătatea unei celule pentru r=1,r=2,r=3

In aceste condiţii sistemul de ecuaţii (2.2) se poate scrie sub forma:

Page 150: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

150

Ecuatia de stare

Cx (t) =-1R x (t) + A y (t) + B u (t) + I

pentru 1 i, k M si 1 j, l N

i, j i, jC N (i, j)

i, j;k,l k,lC N (i, j)

i, j;k,l k,lk, l r kl rε ε

∑ ∑

≤ ≤ ≤ ≤

Ecuatia de intrare: u = E i, j i, j (2.5)

Ecuatia de iesire: y (t) = 12

(| x (t) + 1| - | x (t) - 1 | )i, j i, j i, j

Conditii de stare: |y (0)| 1 ; |u | 1 i, j i, j≤ ≤

Conditii asupra parametrilor: A = A ; C 0, R 0i, j;k,l k,l;i, j ≥ ≥

unde:

• u este intrarea independentă;

• x este starea celulei;

• y este ieşirea;

• Nr este vecinătatea de ordin r a celulei;

• A este matricea de conexiune de reacţie, B este matricea de conexiune de control şi I matricea de

polarizare;

• R şi C sunt constante pozitive;

Figura următoare reprezintă schema bloc a ecuaţiei de stare.

Page 151: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

151

2.2.2 Structura unei celule

Sistemul descris de ecuaţiile (2.5) poate fi modelat prin circuitul din Fig.2.7

u ij x ij y ij Ry E ij I C Rx Ixu (i,j;k,l) Ixy Iyx(i,j;k,l)

Fig.2.7 Un exemplu de circuit pentru o celulă Ci,j

Fiecare circuit Ci,j conţine o sursă independentă de tensiune, Eij, o sursă independentă de

curent, I, o capacitate liniară C, două rezistenţe liniare Rx şi Ry şi cel mult 2m (m reprezintă numărul

celulelor învecinate) surse liniare de curent controlate în tensiune, cuplate la celulele vecine prin

tensiunea de control ukl şi reacţia de la tensiunea de ieşire ykl a tuturor celulelor vecine Ckl .

Page 152: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

152

Fig 2.8 Caracteristica sursei neliniare de curent controlate în tensiune

In particular, sursele de curent controlate în tensiune sunt liniare Ixy(ij,kl) = Aij,kl şi

Ixu(ij,kl) = Bij,kl. Singurul element neliniar este o sursă de curent controlată în tensiune Iyx = (1/Ry)

f(xi,j) cu caracteristica f(.) dată în Fig.2.8.

In practică, amplitudinea semnalului poate fi normalizată pentru a îndeplini condiţiile

parametrilor. Valorile rezistenţelor pot fi convenabil alese, ele determinând şi puterea disipată de

circuit. Rezistenţele Rx şi Ry au valori cuprinse între 1kΩ şi 1MΩ. CRx este constanta de timp a

circuitului şi este uzual aleasă de ordinul 10-5 - 10-8s.

2.3 Reţele neuronale celulare discrete

2.3.1 Dinamica reţelei

Aproximând ecuaţia diferenţială de stare din sistemul (2.5) cu o ecuaţie cu diferenţe finite,

unde t=nT, T fiind o constantă unitară de timp se poate obţine sistemul de ecuaţii (2.6), care

caracterizează o reţea neuronală în timp discret (RNCD) [47], [48]:

i, jC N (i, j)

i, j;k,l k,lC N (i, j)

i, j;k,l k,lx [n + 1] = A y [n] + B u [n] + I

ptr. 1 i M ; 1 j N

k, l r k, l rε ε∑ ∑

≤ ≤ ≤ ≤

(2.6)

Page 153: curs intreg 2009 - tc.etc.upt.ro · PDF file3 O tehnologie cheie pentru B-ISDN, o reprezint modul de transfer asincron, al informaciei ATM (Asynchronus Transfer Mode), prin care informacia

153

y n f x ndaca x ndaca x n

[ ] ( [ ])[[ ]

+ = + =+ >

− + <

1 11 1 01 1 0

Spre deosebire de RNCA sistemul discret are doar ieşiri binare ponderate prin operatorul de

reacţie. Ieşirea binară a unei celule este determinată de semnul tensiunii de stare a celulei, din iteraţia

anterioară şi este nedeterminată pentru o tensiune nulă. Practic însă, există întotdeauna un zgomot

care determină o stare diferită de zero. Algoritmul este relativ insensibil la variaţiile date de toleranţa

parametrilor reacţiei , controlului şi polarizării, dacă este îndeplinită condiţia:

∆ = | A y [n] + B u [n] + I|

ptr. 1 i M ; 1 j N

k, l r k, l rC N (i, j)(i, j;k,l) k,l

C N (i, j)(i, j;k,l) k,lmin

ε ε∑ ∑

≤ ≤ ≤ ≤

(2.7)

Comparativ cu modelul analogic, cel în timp discret, are câteva avantaje importante:

a) Datorită utilizării semnalelor binare, interconectarea mai multor chipuri este foarte simplă.

b) Insensibilitatea parametrică dată de ecuaţia (2.7) determină robusteţea reţelei la toleranţele de

fabricaţie, dacă ponderile conexiunilor au fost proiectate corect.

c) Viteza de propagare poate fi controlată într-un domeniu larg schimbând doar frecvenţa tactului.

Aceasta facilitează şi testarea circuitului.

RNC au aplicaţii în diverse domenii ce implică:

• procesarea de imagini;

• modelarea neliniară şi optimizare;

• modelarea spaţio- temporală

• controlul structurilor distribuite în spaţiu

Cea mai recentă realizare hard, computerul analogic este prima încercare de simulare a modului de

operare analogico -logic al creierului.