01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת...
-
date post
15-Jan-2016 -
Category
Documents
-
view
255 -
download
0
Transcript of 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת...
01/01/01 אמיר ווינשטוק עירן חוף
1שקופית מס’
מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק
הוקי - אויר
מגישים :אמיר עירן חוף
ווינשטוק
מנחה :שי מנור
לישראל טכנולוגי מכון - הטכניון TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY
חשמל להנדסת הפקולטהורובוטיקה לקרה המעבדה
01/01/01 אמיר ווינשטוק עירן חוף
2שקופית מס’
מטרת הפרויקט
תכנון ובניית בקר לומד למשחק הוקי אוויר•
בעיות עיקריות:מרחב המצבים של המשחק רציף•
זמן הלימוד ארוך מאוד•
בחירת הפרמטרים של האלגוריתם •
(ANNאופטימיזציה של המימוש להאצת זמן הריצה )•
01/01/01 אמיר ווינשטוק עירן חוף
3שקופית מס’
רקע:
•Reinforcement Learning
•Q-Learning Algorithm
•Instance-Base function approximate
01/01/01 אמיר ווינשטוק עירן חוף
4שקופית מס’
Instance-Baseתאור
01/01/01 אמיר ווינשטוק עירן חוף
6שקופית מס’
במהלך הפרויקט מימשנו: Q-Learning. בקר בסיסי מבוסס על אלגוריתם 1
עם מימוש טבלאי עבור מודל פשטני
. בקר השולט על התאוצות השחקן בשני צירים, 2-Instace ואלגוריתם Qמבוסס על אלגוריתם
Based
. אלגוריתם חמדן לשיפור הפרמטרים הדרושים 3 Instace-Basedבאלגוריתם
להצגת המשחקMFC. אפליקציה מבוססת 4
01/01/01 אמיר ווינשטוק עירן חוף
7שקופית מס’
תוצאות:
דוגמאות נבחרות מתוך הדו”ח עבור הנושאים הבאים:
•Q-Learningטבלאי עבור מודל מפושט
•Q-Learning עם קירוב Instance-Base
אלגוריתם חמדן•
01/01/01 אמיר ווינשטוק עירן חוף
8שקופית מס’
Q-Learningטבלאי מספר השערים כפונקציה של מספר האיטרציות עבור ערכי קצבי
עדכון שונים:
0 1 2 3 4 5 6 7 8 9 10
x 105
0
50
100
150
200
250
Game Iterations
Num
ber
Of G
oals
Number of goals in the game vis game iterations and step size
gamma=0 gamma=0.1gamma=0.2gamma=0.3gamma=0.4gamma=0.5gamma=0.6gamma=0.7gamma=0.8gamma=0.9gamma=1
01/01/01 אמיר ווינשטוק עירן חוף
9שקופית מס’
Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות
0
50
100
150
200
250
300
350
400
00.20.40.60.811.21.41.6
tD
case
ה ר
פס
מ
(tD איטרציות כפונקציה של ערך הסף )200000 לאחר casesמספר ה
01/01/01 אמיר ווינשטוק עירן חוף
10שקופית מס’
Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות
0
200
400
600
800
1000
1200
1400
1600
1800
2000
מספר איטרציות פיסיקליות
םלי
גור
פס
0.5מ
0.6
0.7
1.1
מספר הגולים המצטבר כפונקציה של האיטרציות של המודל הפיסיקלי עבור מספר tDערכי
01/01/01 אמיר ווינשטוק עירן חוף
11שקופית מס’
Q-Learning עם קירוב Instanced-Baseשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות
תלות בפרמטרים:
•Dtערך סף להוספת מקרה חדש
•Ktערך סף למציאת שכנים קרובים
גודל צעד•
(explorationיחס חקר )•
מטריקה•
תלות בתגמול•
01/01/01 אמיר ווינשטוק עירן חוף
12שקופית מס’
Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית באותה מהירות ממקום אקראי
משקול אחידכמה דוגמאות לתלות במטריקה:
צפיפות גולים לאיטרציות כפונקציה של ערך המשקולות
0.00920.00930.00940.00950.00960.00970.00980.0099
00.050.10.15ערך המשקולות
םלי
גות
פופי
צ
כלהמשקולות
חלקמהמשקולות
01/01/01 אמיר ווינשטוק עירן חוף
13שקופית מס’
יחס בלימות לגולים כפונקציה של יחס המשקולות
0246810
05101520
יחס המשקולות
םלי
גו ל
תמו
לי ב
חסי
מספר המקרים הנוצרים כפונקציה של יחס המשקולות
0
10000
20000
05101520
יחס המשקולות
םcי
ase
ה ר
ספמ
משקול יחסי
01/01/01 אמיר ווינשטוק עירן חוף
14שקופית מס’
דוגמא למשחק מול שחקן יוריסטי:
ביצועים )מצטברים( כפונקציה של מספר האיטרציות
0
2000
4000
6000
8000
10000
12000
14000
0100200
] x10000[ מספר האיטרציות
תמו
ליב
ם ורי
שער
פס
מ
שער שספגהשחקן הלומד
שער שספגהשחקן היוריסטי
בלימות שלהשחקן הלומד
01/01/01 אמיר ווינשטוק עירן חוף
15שקופית מס’
אופטימיזציה לפרמטרים ע”י אלגוריתם חמדן:
01/01/01 אמיר ווינשטוק עירן חוף
16שקופית מס’
אלגוריתם חמדן המשך
01/01/01 אמיר ווינשטוק עירן חוף
17שקופית מס’
סרט אנימציה...
01/01/01 אמיר ווינשטוק עירן חוף
18שקופית מס’
מסקנות:תלות חזקה בפרמטרים של האלגוריתם.•
תלות חזקה בפונקצית הגמול.•
מספר האיטרציות להתכנסות גדול מאוד.•
( גדול casesבמודלים מורכבים מספר המקרים )•מאוד )בעיה חישובית(.
שימוש באלגוריתם חמדן למציאת פרמטרים •מיטביים משפר את התוצאות.
01/01/01 אמיר ווינשטוק עירן חוף
19שקופית מס’
נושאים להמשך:Annealingאלגוריתם חמדן עם •אלגוריתם חמדן לאופטימיזצית פונקצית הגמול•למידת התקפה, מודל היררכי••Co - Learningשכלול המודל הפיסיקלי של השולחן )למשל אלמנטים •
סטטיסטיים ומכשולים(מודל של רובוט המדמה זרוע אנושית•לימוד של בקרה אנושית למשחק הוקי אוויר•מימוש מערכת אמיתית•