רגרסיה ליניארית

54
הההההה הההההההה1

description

רגרסיה ליניארית. מתאם פירסון בודק : האם יש קשר לינארי בין שני משתנים , ואם כן, מה עוצמתו וכוונו אך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו?. 2. 3. 3. אופי הקשר בין המשתנים -. 4. 4. חוזק הקשר בין המשתנים -ככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר. רגרסיה לינארית. - PowerPoint PPT Presentation

Transcript of רגרסיה ליניארית

Page 1: רגרסיה ליניארית

רגרסיה ליניארית

1

Page 2: רגרסיה ליניארית

2

: האם יש קשר מתאם פירסון בודקלינארי בין שני משתנים , ואם כן, מה

עוצמתו וכוונו

אך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו?

Page 3: רגרסיה ליניארית

3

אופי הקשר בין המשתנים -

3

Page 4: רגרסיה ליניארית

4

חוזק הקשר בין המשתניםככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר-

4

Page 5: רגרסיה ליניארית

5

רגרסיה לינארית

כאשר ידוע לנו שקיים קשר בין שני משתניםוהקשר הוא לינארי )קו ישר(, אנחנו יכולים לבנות

מודל של רגרסיה משוואת הרגרסיה מאפשרת לנו לנבא את הערך

מתוך הערך של המשתנה התלוישל המשתנה .הבלתי-תלוי

או במילים פשוטות - בכמה יחידות עולהY כאשר Xעולה ביחידה אחת

Page 6: רגרסיה ליניארית

רגרסיה לינארית

מחפשים מהי הנוסחה המתמטית שמבטאת את רגרסיה :דפוס הקשר בין שני המשתנים

כאשר המטרה הראשונה שלנו היא ניבוילדוגמא – רוצים לנבא את ציונו

הסופי של תלמיד תואר ראשון על

סמך ציון הפסיכומטרי שלו

איך?

בונים קו רגרסיה על סמך הנתונים

הידועים

עבור מועמד חדש –

BAמציבים ציון פסיכו' וחוזים ערך

Page 7: רגרסיה ליניארית

7

רגרסיה לינארית

ניתן ללמוד מרגרסיה מספר דברים: מידת ההשפעה שלX על Y ניבויY על פי X)או להפך( אחוז שונות מוסברת – מהי התרומה של המשתנה הבלתי

תלוי להסבר השונות בתופעה הנחקרת ]המשתנה התלוי[. עד כמה המשתנה המנבא יכול להסביר הבדלים

במשתנה המנובא

Page 8: רגרסיה ליניארית

בעולם מושלם..

כאשר הקשר ביןX הוא קשר קווי Yל-

מלא, ניתן לנבא מתוך Yבמדויק את

X בעזרת משוואת – הרגרסיה הליניארית.

8

האהובה בנוסחא bxayנשתמש ˆ

Page 9: רגרסיה ליניארית

..ובמציאות..

?מה קורה כאשר הקשר הקווי אינו מלאגם במקרים אלו נשתמש במודל של רגרסיה

ליניארית שתתאר, בצורה הטובה ביותר, את הקשר Y ל-Xבין

9

Page 10: רגרסיה ליניארית

10

התאמת מודל ליניארי לנתוניםשלב ראשון - הצגה גראפית של ההתפלגויות

המשותפות של המשתנים כדי לוודא שאנחנו עומדים מול קשר ליניארי.

הדרך הטובה ביותר להצגה גראפית של קשר בין משתנים אינטרוווליים ומעלה:

scatterplots.

10

Page 11: רגרסיה ליניארית

11

גרף המתאר קשר בין שני המשתנים –

מה מראה גרף שכזה?ערכי המשתנה הבלתי תלוי מופיעים על הציר האופקי -(X)ערכי המשתנה התלוי מופיעים על הציר -

(Yהאנכי )כל המקרים מוצגים על הגרף כנקודות על -

פי ערכיהם על שני המשתנים

Page 12: רגרסיה ליניארית

12

987654321

80

70

60

50

40

30

Height

Dru

gY ל-Xקשר בין

Y

X

סביר להתייחס אל הקשר כאל

קשר ליניארי

Page 13: רגרסיה ליניארית

איך בוחרים את הקו עם ההתאמה הטובה ביותר

Page 14: רגרסיה ליניארית

14

בנית קו רגרסיה

Page 15: רגרסיה ליניארית

."הקו המבוקש הוא מעין קו "ממוצע הוא קו שסך המרחקים ממנו הוא קטן ביותר

בהשוואה לכל קו ישר אחרכאשר המרחק נמדד כריבוע מסטיות הקו

15

Page 16: רגרסיה ליניארית

16

אם נעלה בריבוע את כל הסטיות של הנקודות מהקו.

Sum of )‘ כל ריבועי הסטיותונסכם את squares נוכל לקבוע את מידת ההתאמה של -– )’

הקו לנקודות

ככל שהמספר שקיבלנו גדול יותר, כך ההתאמה גרועה יותר.

קו הרגרסיה מוגדר כקו הישר הטוב ביותר לפי קריטריון הריבועים הפחותים.

רגרסיה קו בנית

Page 17: רגרסיה ליניארית

מסויםY ננבא Xניבוי בעזרת הקו הישר פירושו שלכל

.לכל תצפית שאיננה על הקו הישר, אנו טועים בניבוי

-יש לנו את ערכי הY ,הערכים האמיתיים הנתונים . על הקו הישרY המנובאים, שהם ערכי Yיש לנו את ערכי ה-

Y = a + bX.

המנובא, היא הסטייה, הטעות.Y האמיתי ל-Yההפרש בין

בנית קו רגרסיה

Page 18: רגרסיה ליניארית

אנו מחפשים את אותו קו ניבוי שעבורו סך ריבועיהסטיות של הערכים האמיתיים מהניבויים, יהיה

מינימאלי.בעית אופטימיזציה – שכבר פתרו בעבורנו

Page 19: רגרסיה ליניארית

X מתוך Yבנית קו רגרסיה – ניבוי

Page 20: רגרסיה ליניארית

הקשר בין קו הרגרסיה לבין משוואת הרגרסיה

20

Dep

end

ent

vari

able

(Y

)

Independent variable (X)

a נקודת החיתוך על ציר ה = Y=

b = שיפוע

משוואת הרגרסיה:

Y = a + bX

Page 21: רגרסיה ליניארית

קו הניבוי הטוב ביותר הוא כאשר אין הפרשים בין לבין התצפית שניבאנו. Yהתצפית האמיתית של

קוים: קו ניבוי וקו של התצפיות, הם יהיו 2אם נצייר חופפים...אך מאוד לא סביר שבמציאות שאנו

חוקרים נגיע לדבר כזה...

Page 22: רגרסיה ליניארית

רגרסיה ליניארית – כמה נקודות הבנה כלליות..

מודל הרגרסיה זוהי משוואת הניבוי. אםX נתון אפשר . X נתון אפשר לנבא את Y ואם Yלנבא את

על מנת לחשב את הרגרסיה הליניארית המשתנים צריכיםלהיות על סולם אינטרוולי ומעלה

22

Page 23: רגרסיה ליניארית

רגרסיה לינארית

משוואת קו הרגרסיהbxay ˆ

23

y נתון X עבור כל Yערך מנובא של -

Y - aהחותך: המקום בו קו הרגרסיה חותך את ציר

bשיפוע קו הרגרסיה -

b: אופציה נוספת לחישוב

xbya

nyyxx

bx

ii

)(

2 השונות של המשתנה הבלתי תלוי

Page 24: רגרסיה ליניארית

24

( או שלילי b>0)השיפוע יכול להיות חיובי (b<0.)

24

Page 25: רגרסיה ליניארית

דוגמא 6להלן ציוני(תלמידים בלשון X( ובמתמטיקה )Y:)

y X0.25 4 1 -0.5 -2 5 62.25 1 1.5 -1.5 -1 4 70.25 1 0.5 -0.5 -1 5 70.25 1 -0.5 -0.5 1 5 96.25 1 2.5 2.5 1 8 90.25 4 1 0.5 2 6 10

25

xxi yyi )()( yyxx ii 2)( xxi

2)( yyi

8x5.5y6125.9

Page 26: רגרסיה ליניארית

משוואת הרגרסיה שלy על פי x -

bxay ˆ

2

1

6

1266

)(2

x

ii

n

yyxx

b

26

5.185.05.5 xbya

xy 5.05.1ˆ

n

xxi

22 )(

במשוואת הרגרסיה:b ואת ה-aכעת נציב את ה-

Page 27: רגרסיה ליניארית

מתמטיקה(ניבוי( Y על ידי X)לשון(

כאשרx = 7Y????-יהיה שווה ל

1.5 + 0.5 * 7 =5

27

xy 5.05.1ˆ

Page 28: רגרסיה ליניארית

משוואת הרגרסיה לניבויX על פי Y בדיוק אותו( – byaxעיקרון!!!( ˆ

631.0

583.1

1

65.9

66

)(2

y

ii

n

yyxx

b

28

452.05.5631.08 ybxa

yx 631.0452.0ˆ

n

yyi

22 )(

:כעת נציב במשוואת הרגרסיה

Page 29: רגרסיה ליניארית

ניבויX)לשון( על ידי )מתמטיקה( Y

כאשרY = 4X????-יהיה שווה ל

0.452 +0.631 * 4 =2.97

29

yx 631.0452.0ˆ

Page 30: רגרסיה ליניארית

30

Page 31: רגרסיה ליניארית

31

Page 32: רגרסיה ליניארית

32

היכן יפגשו שני קווי הרגרסיה?

Page 33: רגרסיה ליניארית

33

ניבוי בעזרת ציוני התקן

ולכן אפס הוא המשתנים שני ממוצע תקן בציוניציר עם יהיה – Xחיתוך

Page 34: רגרסיה ליניארית

34

ניבוי בעזרת ציוני התקן

בערכים גולמיים שיפוע הקו הושפע גםממידת הפיזור –

בציוני תקן שיפוע הקו מושפע אך ורקמעצמת הקשר בין המשתנים

ככל שהקו תלול יותר – הקשר חזק יותר-מעלות 45ב r=1

Page 35: רגרסיה ליניארית

שונות מוסברת

Page 36: רגרסיה ליניארית

מה מסביר את השונות במשתנה המנובא?

לאובייקטים שונים ערכיYשונים ?מה קובע את המרחק שלהם מהממוצע

אם אין קשר ביןX– ל Y – X לא מסביר את הפיזור של Y ננבא את הממוצע שלY לכל ערך X

Page 37: רגרסיה ליניארית

מה מסביר את השונות במשתנה המנובא?

אם יש קשר – אפשר יהיה להסבירY את הפיזור של Xבאמצעות השונות של

– מטרה שניה של הרגרסיה

הסבר השונות במשתנה המנובא באמצעות המשתנה המנבא

Page 38: רגרסיה ליניארית

38

Page 39: רגרסיה ליניארית

רגרסיה ליניארית – אחוז השונות המוסברת

אחוז השונות המוסברת מאפשר לנו לדעת כמה - מהשונות של המשתנה התלוי מוסברת ע"י המשתנה/

משתנים בלתי תלויים. ככל שאחוז השונות המוסברת גבוה יותר, פירושו של דבר

Y עוזר לנו בניבוי Xש-

39

2R

Page 40: רגרסיה ליניארית

אחוז השונות המוסברת

מה זהr2.זהו ריבוע המתאם ?( מתוך explained varianceהשונות המוסברת )

השונות הכללית.

טווח הערכים שלr2בין אפס לאחד ולקבל אחוז השונות המוסברת100אפשר להכפיל פי - 1החלק היחסי של השונות הלא מוסברת - r2 40

Page 41: רגרסיה ליניארית

41

Page 42: רגרסיה ליניארית

42

Page 43: רגרסיה ליניארית

43

Page 44: רגרסיה ליניארית

44

Page 45: רגרסיה ליניארית

45

Page 46: רגרסיה ליניארית

46

Page 47: רגרסיה ליניארית

של פירסוןrוכן, יש קשר הדוק ל-אם נוציא שורש נקבל את מקדם המתאםr2= 0.31570.56 r =

)לדוגמא: ידוע לנו כי הקשר בין השכלה )בלתי תלוי. 0.7לעמדות ליברליות )תלוי( הוא

. כך שהשכלה 49% אחוז השונות המוסברת הוא מהשוני בעמדות הליברליות בין 49%מסבירה

מסבירים משתנים אחרים: 51%נחקרים.)את יתר אולי גיל, אולי מידת מסורתיות וכו'(.

47

Page 48: רגרסיה ליניארית

48

Page 49: רגרסיה ליניארית

49

Page 50: רגרסיה ליניארית

שאלה לדוגמא נתון כי ציוני הקורס מתפלגים נורמאלית עם ממוצע

, ושעות הנוכחות של 5 וסטיית תקן של 90הסטודנטים בתרגול מתפלגים נורמאלית עם ממוצע

. המתאם בין הציון בקורס לבין 5 וסטיית תקן 35 0.8שעות הנוכחות בתרגול הינו

שעות?40מה יהיה ציונו המנובא של סטודנט שנכח של ציונו האמיתי מהם הגבולות בהם צפוי להימצא

?95%הסטודנט הנ"ל, ברמת בטחון של

50

Page 51: רגרסיה ליניארית

פתרון : נסמןX ,הם שעות הנוכחות Y .הינו הציון

שעות?40מה יהיה ציונו המנובא של סטודנט שנכח

51

94408.062ˆ

8.062ˆ

5

58.035

5

58.090ˆ

8.0

5,90

5,35

y

xy

xy

r

Sy

Sx

y

x

Page 52: רגרסיה ליניארית

פתרון : נסמןX ,הם שעות הנוכחות Y.הינו הציון

של ציונו האמיתי מהם הגבולות בהם צפוי להימצא ? כלומר נחפש את 95%הסטודנט הנ"ל, ברמת בטחון של

אבל הערכים של סימני השאלה... ע"י מעבר לציוני תקן לא נשתמש בסטיית התקן הכללית ולא

בממוצע...

52

94408.062ˆ

8.0

5,90

5,35

y

r

Sy

Sx

y

x

ציוןצי

נוכחות

)40,94(

?

?

Page 53: רגרסיה ליניארית

פתרון שגיאת התקן של הניבוי נחשב אתSyx ואיתה

. נשים לב שאת 94סביב נחשב את ציון התקן Z- קיבלנו מטבלת 1.96 ו 1.96הערכים

53

94408.062ˆ

8.0

5,90

5,35

y

r

Sy

Sx

y

x

?

?

88.12y99.88

94396.13

9496.1

38.015

1

2

2

y

y

S

rSS

yx

yyx

Page 54: רגרסיה ליניארית

54

מסקנה...

!כדאי לבוא לתרגולים