Множественный линейный корреляционно-регрессионный...

34
Множественный линейный корреляционно- регрессионный анализ ПРОДОЛЖЕНИЕ

description

Множественный линейный корреляционно-регрессионный анализ. ПРОДОЛЖЕНИЕ. Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является одним методов статистического анализа взаимозависимости нескольких признаков (случайных величин). - PowerPoint PPT Presentation

Transcript of Множественный линейный корреляционно-регрессионный...

Page 1: Множественный линейный корреляционно-регрессионный анализ

Множественный линейныйкорреляционно-регрессионный

анализ

ПРОДОЛЖЕНИЕ

Page 2: Множественный линейный корреляционно-регрессионный анализ

Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является одним методов статистического анализа взаимозависимости нескольких признаков (случайных величин).Одним из основных показателей взаимозависимости двух случайных величин является парный коэффициент корреляции, служащий мерой линейной статистической зависимости между этими величинами. Следовательно, этот показатель соответствует своему прямому назначению, когда статистическая связь между соответствующими признаками в генеральной совокупности линейна. То же самое касается частных и совокупных коэффициентов корреляции. Одним из требований, определяющий корреляционный метод, является требование линейности статистической связи и нормальность.

Page 3: Множественный линейный корреляционно-регрессионный анализ

Множественная линейная регрессияВ случае, когда коэффициент детерминации мал (степень этого определяется самим исследователем) возникает вопрос об улучшении качества модели за счет введения новых регулируемых переменных, приходя к линейной модели видаy=b0+b1x1+b2x2+…+akxk,где x1,x2, …, xk – входные переменные, либо за счет усложнения модели, делая ее квадратичной, логарифмической, показательной, то есть, выбирая ее в виде:

Page 4: Множественный линейный корреляционно-регрессионный анализ

y a a x 0 12 ,

y a xa 0 1log ,

y a xa 01 ,

либо

либо

Page 5: Множественный линейный корреляционно-регрессионный анализ

Рассмотрим случай двух независимых переменных.

Предположим что, зависимость между переменными имеет видy=b0+b1x1+b2x2 (1)где переменные x1 и x2 принимают заданные фиксированные значения, причём между переменными x1 и x2 нет линейной зависимости. Результаты наблюдений (x1i, x2i, yi), i=1, 2, …, n, представляются в видеyi=b0+b1x1i+b2x2i+εi .Оценки параметров модели (1) могут быть найдены по формуле

Page 6: Множественный линейный корреляционно-регрессионный анализ

YAAAb TT 1

ny

y

y

2

1

nb

b

b

1

0

где Y=

- вектор наблюдений

— вектор МНК — оценок параметров модели (1);

b=

Page 7: Множественный линейный корреляционно-регрессионный анализ

2n1n

2212

2111

x x 1

x x 1

x x 1

A= Регрессивная матрица

Page 8: Множественный линейный корреляционно-регрессионный анализ

Предположим, что ошибки наблюдений εi независимы, имеют равные дисперсии и нормально распределены. В этом случае можно проверить гипотезу H0: b1=b2=0. Эта гипотеза позволяет установить, находятся ли переменные x1 и x2 во взаимосвязи с y. Статистикой критерия для проверки гипотезы H0 является отношение

)3/(

2/

nSS

SSF

R

D

Page 9: Множественный линейный корреляционно-регрессионный анализ

Если выборочное значение этой статистики

Fв> , то гипотеза H0 отклоняется; в противном случае следует считать, что взаимосвязи y с переменными x1 и x2 нет.

)3,2(1 nF

Page 10: Множественный линейный корреляционно-регрессионный анализ

Мультиколлинеарность входных переменных

Рассмотрим такое неприятное явление для регрессионного анализа, как мультиколлинеарность независимых переменных. Мультиколлинеарностью называется наличие линейной связи между независимыми переменными, в нашем случае между X1 и X2.

Мультиколлинеарность может проявляться в двух видах: в функциональной зависимости между X1 и X2, например X2=b0+b1X1, либо, наоборот. Определитель информационной матрицы равен нулю, т.е. матрица вырожденная. Такой вид мультиколлинеарности, как правило, встречается крайне редко. Гораздо чаще мультиколлинеарность наблюдается в стохастической форме.

Page 11: Множественный линейный корреляционно-регрессионный анализ

Оценку силы мультиколлинеарности можно произвести, вычислив коэффициенты корреляции между коэффициентами bi и bj .Для того, чтобы оценки коэффициентов были независимыми, необходимо, чтобы в матрице Фишера (XTX) только диагональные элементы были отличны от нуля.

Пример. Данные, полученные из годовых отчетов десяти предприятий: Y – себестоимость товарной продукции (млн. руб.), X1 – объём валовой продукции (млн. руб.) и X2 производительность труда (тыс. руб. на чел.).

Page 12: Множественный линейный корреляционно-регрессионный анализ

Y X1 X2

2,1 3 1.82,8 4 1,53,2 5 1,44,5 5 1,34,8 5 1,34,9 5 1,55,5 6 1,66,5 7 1,2

12,1 15 1,315,0 20 1,2

Таблица 1. Данные по 10 предприятиям

Page 13: Множественный линейный корреляционно-регрессионный анализ

Проведём корреляционный анализ

Раскрываем окно электронной таблицы и вводим числовые данные. Для обозначения переменных последовательно маркируем колонки и щелчком правой кнопки мышки вызываем меню, из которого выбираем пункт Modify column, где вводим нужные имена столбцов (колонок). Сохраняем файл под именем, например, factory (в нашей демоверсии нет такой возможности). Получаем таблицу 1, представленную на рис.1.

Page 14: Множественный линейный корреляционно-регрессионный анализ
Page 15: Множественный линейный корреляционно-регрессионный анализ
Page 16: Множественный линейный корреляционно-регрессионный анализ

Появляется рабочее поле анализа множества переменных со сводкой, в которой подтверждается, что три переменные (по 10 наблюдений в каждой) приняты к обработке. Нажимаем кнопку табличных опций (вторая слева в нижнем ряду) и выбираем Correlations. На экране выдаётся таблица корреляций. В данной таблице первое число является коэффициентом корреляции Пирсона, второе (под первым) представляет количество наблюдений, третий уровень значимости

Page 17: Множественный линейный корреляционно-регрессионный анализ

X1 X2 YX1 -0.565 0.9872 (10) (10) 0.0888 0.0000

X2 -0.5650 -0.6050 (10) (10) 0.0888 0.0639Y 0.9872 -0.6050 (10) (10) 0.0000 0.0639

Таблица 2. Таблица корреляций (Correlations)

Page 18: Множественный линейный корреляционно-регрессионный анализ

CorrelationИз полученных данных следует, что очень сильная положительная связь наблюдается между переменными Y (себестоимость товарной продукции) и X1 (объём валовой продукции). Степень доверия к этой связи, исходя из уровня значимости, почти 100%.Другие связи менее выражены, но, однако заслуживают внимания, т.к. доверие к ним более 90% (р<0.1). Это отрицательная связь Y c X2 (производительность труда) и отрицательная связь X1 и X2.Можно построить диаграммы рассеивания на плоскости, образуемых различными парами переменных. Для этого нажимаем кнопку графических опций (третья слева в нижнем ряду) и устанавливаем флажок Scatterplot Matrix (матрица рассеивания) (см. рис 1.). Получаем графическое отображение (см. рис. 2).

Page 19: Множественный линейный корреляционно-регрессионный анализ

Рис. 1. Устанавливаем флажок Scatterplot Matrix

Page 20: Множественный линейный корреляционно-регрессионный анализ

Рис. 2. Диаграммы рассеивания на плоскости

Page 21: Множественный линейный корреляционно-регрессионный анализ
Page 22: Множественный линейный корреляционно-регрессионный анализ
Page 23: Множественный линейный корреляционно-регрессионный анализ

Зависимая переменная: YParameter(Параметры)

Estimat(Оценки)

StandardError

T Statistic(T –статистика)

P-Value(P –значение)

CONSTANT 0,367639 0,388886 0,945365 0,3760X1 0,818195 0,065241 12,5411 0,0000X2 -0,146225 0,107285 -1,36296 0,2151

Multiple Regression AnalysisМножественный регрессионный анализ

Page 24: Множественный линейный корреляционно-регрессионный анализ

Analysis of Variance(Дисперсионный анализ)

Source(источник)

Sum of Squares

Df Mean Square F-Ratio P-Value

Model 153,555 2 76,7775 170,67 0,0000Residual 3,14905 7 0,449864

Page 25: Множественный линейный корреляционно-регрессионный анализ

Total (Corr.) 156,704 9R-squared = 97,9904 percentR-squared (adjusted for d.f.) = 97,4163 percentStandard Error of Est. = 0,670719Mean absolute error = 0,496893Durbin-Watson statistic = 0,963907R-squared = 97,9904 процентаR-squared (откорректированный для d.f.) = 97,4163 процентаСтандартная Ошибка Оценки. = 0,670719Средняя{Скупая} абсолютная погрешность = 0,496893Durbin-Уотсон, статистический = 0,963907

Page 26: Множественный линейный корреляционно-регрессионный анализ

The StatAdvisorThe output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 2 independent variables. The equation of the fitted model isY = 0,367639 + 0,818195*X1 - 0,146225*X2Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level.The R-Squared statistic indicates that the model as fitted explains 97,9904% of the variability in Y. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 97,4163%. The standard error of the estimate shows the standard deviation of the residuals to be 0,670719.

Page 27: Множественный линейный корреляционно-регрессионный анализ

This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 0,496893 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is less than 1.4, there may be some indication of serial correlation. Plot the residuals versus row order to see if there is any pattern which can be seen.

Page 28: Множественный линейный корреляционно-регрессионный анализ

In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0,2151, belonging to X2. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing X2 from the model. 95,0% confidence intervals for coefficient estimates.

Page 29: Множественный линейный корреляционно-регрессионный анализ

СтатКонсультантКонсультант показывает результаты построения множественной линейной регрессии, чтобы описать отношения между Y и 2 - мя независимыми переменными. Уравнение регрессионной модели имеет видY = 0,367639 + 0,818195*X1 - 0,146225*X2.Так как P-значение в ANOVA таблице меньше чем 0.01, есть a статистически существенные отношения между переменными в 99% - ый уровень надёжности.R-Squared статистический указывает долю дисперсии зависимой переменной, обусловленную изменением независимых переменных, т.е. 97,9904 % изменчивости в Y.

Page 30: Множественный линейный корреляционно-регрессионный анализ

Отрегулированный R-squared статистический, который является более подходящим для того, чтобы сравнить модели с различным числом независимых переменных, являются 97,4163 %. Стандартная ошибка оценка показывает стандартное отклонение ошибок, чтобы быть 0,670719. Эта ценность может использоваться, чтобы строить пределы предсказания для новых наблюдений, выбирая опцию Сообщений отменю текста.

Page 31: Множественный линейный корреляционно-регрессионный анализ

Средняя абсолютная ошибка (БОЛЬШЕ) 0,496893 - средняя ценность остатков. Durbin-Уотсон (СОБСТВЕННЫЙ ВЕС) статистические испытания остатков к определите, есть ли любая существенная корреляция, основанная на заказе {порядке} в котором они происходят в вашем файле данных. Так как ценность СОБСТВЕННОГО ВЕСА – меньше чем 1.4, может быть некоторый признак последовательной корреляции. График остатков против ряда заказывают, чтобы видеть, есть ли любой образец который может быть замечен. Заметим, что построенная модель может быть упрощена, так как самое большое P-значение для независимых переменных – 0,2151, принадлежит X2. Если P-значение больше или равна 0.10, то элемент – статистически несущественный в 90%-ом или более высокий уровень надёжности.

Page 32: Множественный линейный корреляционно-регрессионный анализ

Следовательно, Вы должны рассмотреть удаление X2 из модели. доверительные интервалы на 95,0 % для оценок коэффициента.

Parameter StandardEstimate

Error Lower Limit

Upper Limit

CONSTANT 0,367639 0,388886 -0,551933

1,28721

X1 0,818195 0,065241 0,663924 0,972466X2 0,146225 0,107285 -0,399915

0,107465

Page 33: Множественный линейный корреляционно-регрессионный анализ

МультиколлинеарностьМатрица корреляции для оценок коэффициентов модели

CONSTANT X1 X2CONSTANT 1,0000 -0,7208 0,2975

X1 -0,7208 1,0000 -0,7824X2 0,2975 -0,7824 1,0000

СтатКонсультантЭта таблица показывает оцененные корреляции между коэффициентами в построенной модели. Эти корреляции могут использоваться, чтобы обнаружить присутствие серьезной мультиколлинеарности, то есть, корреляция среди переменных. В этом случае, есть одна корреляция с абсолютное значение больше чем 0.5 (исключая постоянный элемент CONSTANT).

Page 34: Множественный линейный корреляционно-регрессионный анализ

ПРОДОЛЖЕНИЕ СЛЕДУЕТ