Download - רגרסי ה לינארית, ניתוח שונות ו תכנון ניסויים סטטיסטיים הרצאה 1 רגרסיה פשוטה

Transcript
Page 1: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

רגרסיה לינארית, ניתוח שונות ותכנון ניסויים סטטיסטיים

1הרצאה רגרסיה פשוטה

מרצה: אולגה גרצ'קו

המחלקה לניהול תעשייתיסמסטר א', תשע"ב

1

Page 2: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

מבנה הקורס

2

בתאום מראש15:30-16:30יום ה' שעת קבלה: [email protected] דוא"ל:

:דרישות הקורסנוכחות בהרצאות – מומלץ.•הכנת תרגילי בית. •

תרגילים עם 2התרגילים יימסרו בזוגות. במהלך הסמסטר, ייבדקו לכל סטודנט לפחות 80%ציון, אך לא תינתן הודעה מראש איזה תרגיל ייבדק. חובת הגשה: לפחות

מהתרגילים. הציון הסופי יהיה פרופורציית התרגילים שנמסרו )יחסית למספר התרגילים שיש חובה למסרם( מוכפלת בציון הממוצע של התרגילים שנבדקו. תרגיל

לא מלא או ברמת איכות ירודה לא ירשם.מבחן סוף סמסטר.•ציון הקורס: 

.10%תרגילי בית .90%מבחן סוף סמסטר –

חובת קבלת ציון עובר במבחן סוף סמסטר: כןספרי הקורס:

1. Montgomery, D. C., Peck, E. A., Vining, G. G. Introduction to Linear Regression Analysis, Wiley-Interscience, 4th edition, 2006. Chapters 1-4.

2. Montgomery, D.C. Design and Analysis of Experiments, 6th edition, Wiley, 2005. Chapters 1, 2, 3, 4, 5, 6, 10.

Page 3: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

הגדרת רגרסיה

3

•y משתנה מקרי התלוי במשתנים בלתי תלויים – )"משתנים מסבירים"(.

מודל של רגרסיה הוא מודל סטטיסטי שבא להחליף •מודל המקשר משתנה תלוי ומשתנים בלתי תלויים דרך

קשר פונקציונאלי )חד ערכי(:0 1 1 2 2i i i n ni iy x x x

כאשר:x1,x2,…,xnמשתנים מסבירים ב"ת –

β1, β2,…, βn פרמטרים קבועים באוכלוסיה )מקדמי – הרגרסיה(

εi שגיאה )גורמי רעש( בתצפית – i כתלות בקבוצת המשתנים yנחפש קשר בין התוחלת של

המסבירים.נתאר קשר זה בעזרת קשר מתמטי: 1 2 1 2| , , , ,n nE y x x x f x x x

Page 4: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

הגדרת רגרסיה

4

מודל רגרסיה לינארית מגדיר קשר סטטיסטי בין משתנה •תלוי לקבוצת משתנים בלתי תלויים.

לדוגמא:••yכמות יבול שבועי בחלקה מסוימת בחממה – •x1 כמות השקייה יומית –•x2 כמות חומר דשן בחלקה –•x3 אחוז לחות בחממה עליו ניתן לשלוט –)x1, x2, x3(y=fקשר מתמטי )פונקציונאלי, דטרמיניסטי( – •אולם קשר זה לא קיים במציאות כי סביר להניח שקיימים •

גורמים נוספים שלא נלקחים בחשבון. גורמים אלו נקראים גורמי רעש. במקרה שלנו למשל, טמפרטורה,

טפילים, שגיאות מדידה וכו'.

Page 5: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

רגרסיה לינארית פשוטה

5

)רק גורם אחד xמבוססת על משתנה בלתי תלוי אחד – •משפיע(

x ל-yמניחה קשר ליניארי בין התוחלת של • בהתאמה, אזיy ו- x של משתנים i הינן דגימות xi, yiאם •

0 1i i iy x

הינם פרמטרים )מקדמי i, β0, β1 הינה שגיאה ה- εi כאשר •הרגרסיה( לא ידועים שאפשר לאמוד אותם על סמך

קו רגרסיה תיאורטי על סמך כל •מדגם.אוכלוסיה:

המודל הוא מודל ביחס לכל •האוכלוסיה.

פרמטר – גודל קבוע שמאפיין •התפלגות לא ידועה.

•yi פחות ערך הקו זוהי שגיאהεi 0

0 1x

Page 6: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

הנחות המודל

6

הינו קבוע או משתנה מקרי xi ,כלומר 1.

סופג את כל הרעש.εiמנוון,

.2εi הינו משתנה מקרי מפולג נורמלית

(. cov=0 בלתי מתואמים )3.

0,iV x i

2~ 0, ,i N i ,i j i j

Page 7: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

7

הסיבות להפרעה:•שגיאות מדידה•החסרת משתנים )יתכן וקיימים משתנים נוספים שלא •

נלקחו בחשבון ולא נמדדו(טעות בקביעת המודל )למשל, מודל לא ליניארי(•

מטרות המודל:•כוח הסבר לתופעות•יכולת ניבוי•בקרה על תהליכי החלטה•

Page 8: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

טענות המודל

8

.1yi הינו משתנה מקרי כי εi.הינו משתנה מקרי 2 .

הוכחה:

שינוי שולי:

הקשר בין תוחלת משתנה התלוי לבין המשתנה הבלתי תלוי הוא קשר ליניארי – הנגזרת קבועה. כלומר, שינוי שולי

.β1 בערך קבוע y משנה את xב-

0 1|i i iE y x x

0 1 0 1

0 1 0 10i i i i i

i i

E y E x E x E

x x

1i

i

E yx

Page 9: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

טענות המודל

9

)מידת פיזור סביב קו רגרסיה( קבועה ולא y. השונות של 3:xתלויה ב-

. מדידות של משתנים תלויים לא מתואמים ביניהן:4

0 1i i i iV y V x V

cov , 0,i jy y i j

Page 10: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

אמידת הפרמטרים

10

ונקבל את b1 ו-b0נאמוד בעזרת אומדנים β0, β1את •".ישר מותאםמשוואת הישר הידוע גם כ-"

)קריטריון מינימום הריבועים הפחותים נשתמש בשיטת •SSE.כדי למצוא את הישר המותאם )

0 1

0 1

0 1ˆ

i i i

i i i

y xy b b xy b b x

0 1y b b x

ieהמרחק בין

תצפית לישר המותאם

0

0 1x

0 1b b x

0b

המרחק בין תצפית לישר

התוחלות המותנות

ˆiy

iyi

ערך החזוי )ערך שמעריכים

שיהיה על סמך הישר אותו

אמדנו באמצעות

המדגם

Page 11: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

שיטת ריבועים הפחותים לאמידת הפרמטרים

11

, כלומר סכום ריבועי המרחקים •בין התצפיות לישר המותאם

כך ש- b1 ו-b0 )נחשב SSEאנו רוצים את מינימום של •SSE:)יהיה מינימאלי

0 1y b b x ˆi i ie y y 2

iSSE e

2 220 1

1 1 1

ˆn n n

i i i i ii i i

SSE e y y y b b x

0 11 10

0n n

i ii i

SSE y nb b xb

2

0 11 1 11

0n n n

i i i ii i i

SSE x y b x b xb

0 1b y b x

1xy

xx

Sb

S

משוואותנורמליות

של ריבועים הפחותים

1 1,

n n

i ii i

x yx y

n n

Page 12: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

שיטת ריבועים הפחותים לאמידת הפרמטרים

12

0 1b y b x 1xy

xx

sb

s

1 1

1 1

n n

i in ni i

xy i i i ii i

y xS y x y x x

n

2

212

1 1

n

in ni

xx i ii i

xS x x x

n

1 1

11 2

2 1

1

n n

i ini i

i ii

n

ini

ii

y xy x

nbx

xn

Page 13: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

פיתוח נוסחאות עבור ריבועים הפחותים

13

0 110

2 0n

i ii

SSE y b b xb

1 1,

n n

i ii i

x yx y

n n

0 11 1 1

0n n n

i ii i i

y b b x

0 11 1

0n n

i ii i

y nb b x

0 11 1

n n

i ii i

nb y b x

1 10 1

n n

i ii i

y xb b

n n

0 1b y b x

:b0מציאת

Page 14: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

פיתוח נוסחאות עבור ריבועים הפחותים

14

:b1מציאת 0 1

11

2 0n

i i ii

SSE y b b x xb

20 1

1 1 1

0n n n

i i i ii i i

y x b x b x

20 1

1 1 1

n n n

i i i ii i i

y x b x b x

21 1

1 1 1

n n n

i i i ii i i

y x y b x x b x

21 11 1

1 1 1

n n

i in n ni i

i i i ii i i

y xy x b x b x

n n

Page 15: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

פיתוח נוסחאות עבור ריבועים הפחותים

15

)המשך(:b1מציאת

2

1 1 121

1 1

n n n

i i in ni i i

i i ii i

y x xy x b x

n n

21 11 1

1 1 1 1

n n

i in n n ni i

i i i i ii i i i

y xy x x b x b x

n n

1 1

11 2

2 1

1

n n

i ini i

i ii

n

ini

ii

y xy x

nb

xx

n

Page 16: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

16

(yהם משתנים מקריים )כי הם תלויים ב- •

הם אמדים ליניאריים כפונקציה של תצפיות•

β1 ו- β0הם אמדים חסרי הטיה ל- •

מבין כל אמדים הליניאריים שהם פונקציות של תצפיות •

וחסרי הטיה הם מסיגים שונות מינימאלית

b1 ו- b0תכונות של

Page 17: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

17

בוחנים את הקשר בין גודל מנת הייצור לשעות העבודה שיש להשקיע כדי לייצר מנה זו.

תצפיות(:10נתונים נתוני המדגם )

דוגמה

i xi yi1 30 732 20 503 60 1284 80 1705 40 876 50 1087 60 1358 30 699 70 14810 60 132

יש למצוא:משוואת קו רגרסיה בשיטת א(

הריבועים הפחותים.כמה שעות עבודה נצפה ב(

להשקיע במנת ייצור על פי 30שגודלה

החישובים בסעיף א'?

Page 18: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

18

תחילה נחשב נתונים :b1הדרושים לחישוב

iפתרון דוגמה xi yi xi*yi xi^21 30 73 2190 9002 20 50 1000 4003 60 128 7680 36004 80 170 13600 64005 40 87 3480 16006 50 108 5400 25007 60 135 8100 36008 30 69 2070 9009 70 148 10360 490010 60 132 7920 3600

סכומים 500 1100 61800 28400

1 1

11 2

2 1

1

n n

i ini i

i ii

n

ini

ii

y xy x

nbx

xn

1

61800n

i ii

y x

1

1100n

ii

y

1

500n

ii

x

2

1

28400n

ii

x

2

1

25000n

ii

x

1100 5006180010 2250002840010

Page 19: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

19

:b0כעת נחשב את פתרון דוגמה

0 1b y b x

1 1100 11010

n

ii

y

n

1 500 5010

n

ii

x

n

i xi yi xi*yi xi^21 30 73 2190 9002 20 50 1000 4003 60 128 7680 36004 80 170 13600 64005 40 87 3480 16006 50 108 5400 25007 60 135 8100 36008 30 69 2070 9009 70 148 10360 490010 60 132 7920 3600

סכומים 500 1100 61800 28400ממוצעי

ם 50 110    0 110 2 50 10b

תשובה לסעיף א': משוואת קו רגרסיה הינה:ˆ 10 2i iy x

Page 20: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

20

סעיף ב': כמה שעות עבודה נצפה להשקיע במנת ייצור על פי החישובים בסעיף א'?30שגודלה

פתרון סעיף ב'::30נציב במשוואת קו רגרסיה שמצאנו בסעיף א'

פתרון דוגמה

ˆ 10 2 10 2 30 70i iy x

שעות ייצור.70 יש להשקיע 30כלומר עבור מנה בגודל נתונה דגימה של 30בפועל לפי נתוני השאלה, עבור מנה של

73.1 1ˆ 70, 73y y

נחשב שגיאה:1 1 1ˆ 73 70 3e y y

( השגיאה היא שונה:x8=30, y8=69 )8עבור תצפית מס' 8 8 8ˆ 69 70 1e y y

הערך החזוי לפי רגרסיה שונה מערך במדגם בפועל.

Page 21: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

21

β1 ו- β0בניית רווחי סמך לפרמטרים

2~ , ~ 0,1xx N Z N

כאשר:nגודל המדגם – p מספר הפרמטרים הנאמדים לצורך –

חישוב

מצאנו אמדים נקודתיים עבור מקדמי הרגרסיה. כעת נמצא :β1 ו- β0רווחים בהם נמצאים

2ˆ~ , ~ˆ n p

xx N t

22ˆ

1ix xn

Page 22: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

22

β1 ו- β0בניית רווחי סמך לפרמטרים (.b0, b1 פרמטרים )2 מאחר ואמדנו p=2במקרה שלנו

2

210 0~ ,

n

ii

xx

xb N

nS

2

1 1~ ,xx

b NS

b1 :מתפלג

b0 :מתפלג

(.MSEלא ידועה, לכן נציב במקומה אמד ) 2

Page 23: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

23

β1 ו- β0בניית רווחי סמך לפרמטרים

ולכן:

0

0 02~

ˆ nb

b t

נבנה רווח סמך ברמת

:αמובהקות

1

1 12~

ˆ nb

b t

Page 24: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

24

β1 ו- β0בניית רווחי סמך לפרמטרים הינו: b0אמד לסטיית תקן של

0

2

n

ii

bxx

xMSE

nS

הינו: b1אמד לסטיית תקן של

)ממוצע ריבועי הטעויות( הינו:MSEכאשר

1ˆb

xx

MSES

2SSEMSEn

Page 25: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

25

β1 ו- β0בניית רווחי סמך לפרמטרים הינו: b0אם כך, רווח סמך עבור

0

0 0

2,1 2,12 2

1ˆn nb

bP t t

הינו: b1ובאופן דומה, רווח סמך עבור

0 00 0 02,1 2,12 2

ˆ ˆ 1b bn nP b t b t

1 11 1 12,1 2,12 2

ˆ ˆ 1b bn nP b t b t

משמעות של רווח סמך: אם נדגום הרבה מדגמים וכל מדגם מקדם באמת ייפול תחום α-1נבנה רווח סמך, אזי בהסברות

זה.

Page 26: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

26

: כעת נחשב β1עבור :את

נחזור לדוגמה ונמצא רווחי סמך למקדמים

2

212

1

50028400 340010

n

ini

xx ii

xS x

n

2 60 7.52 2 10 2

eSSEMSEn n

ˆ 10 2i iy x

1ˆbi xi yi ei e^2

1 30 73 70 3 92 20 50 50 0 03 60 128 130 -2 44 80 170 170 0 05 40 87 90 -3 96 50 108 110 -2 47 60 135 130 5 258 30 69 70 -1 19 70 148 150 -2 410 60 132 130 2 4

סכומים 500 1100 1100 0 60

ˆiy

1

7.5ˆ 0.0473400b

xx

MSES

:β1נציב בנוסחא של רווח סמך עבור 8,0.975 1 8,0.9752 0.047 2 0.047 0.95P t t

11.89 2.11 0.95P 2.11 1.89 0.22 אורך רווח סמך:

Page 27: רגרסי ה לינארית, ניתוח שונות ו תכנון  ניסויים סטטיסטיים הרצאה  1 רגרסיה פשוטה

27

כעת נחשב רווח סמך עבור β0:

נחזור לדוגמה ונמצא רווחי סמך למקדמים

ˆ 10 2i iy x

i xi yi ei e^21 30 73 70 3 92 20 50 50 0 03 60 128 130 -2 44 80 170 170 0 05 40 87 90 -3 96 50 108 110 -2 47 60 135 130 5 258 30 69 70 -1 19 70 148 150 -2 410 60 132 130 2 4

סכומים 500 1100 1100 0 60

ˆiy

0

2

1 28400 7.5ˆ 2.510 3400

n

ii

bxx

xMSE

nS

:β0נציב בנוסחא של רווח סמך עבור 8,0.975 0 8,0.97510 2.5 10 2.5 0.95P t t

14.235 15.765 0.95P 15.765 4.235 1.53 אורך רווח סמך: