excel 回归分析

30
1 excel 回回回回 回回回回 : 根根根根根根根根根根根根根根根根根根根根根 根根根根根根根 . 根根 : 根根根根根 , 根根 , 根 根, , 根根根根根根根根根根根根根根根根根 . 根根根根根根根根根根根根根根根根根 : . 回回回回 : 根根根根根根根根根根根根 , 根根根根根根根根根根根根根根根根 , 根根根根 , 根根根根 , 根根根根根根根根根 , 根根根根根根根根根根根根根根根根根根 ?EXCEL 根根 根根根根根根 ,根单单单 单单 , 单单单单根. . 回回回回回 : 根根根根根根 ( 根根 ) 根 根根根根根根根根根根根 , 根根根根根根 回 . 回回回回回 : 根根根根根根根 根根根根根根根根根根根根 根根根根根根 ()。 回 . 回回回回 : 根根根根根 根根根根根根根根根根根根根根 根根根根根根根根根 根根根根根 根根根根根 一一,,一 根根根根根 根根根根根根 一。

description

excel 回归分析. 数据分析 : 根据电子表格中的数据以图形或数值的方式得出一些有意义的结论 . 比如 : 数据的排序 , 筛选 , 运算 , 统计 , 图表化等等都可以说是数据分析的手段 . 这里我们主要讲以下几个数据分析问题 : 一 . 变量求解 : 有些数据之间存在因果关系 , 这些因果关系可以用数学模型来描述 , 如方程式 , 不等式等 , 如果知道了结果数据 , 能否根据这些数学模型求出原因变量的值 ?EXCEL 提供一些这样的方法 , 如 单变量求解 , 规划求解 等 . - PowerPoint PPT Presentation

Transcript of excel 回归分析

Page 1: excel 回归分析

1

excel 回归分析数据分析 : 根据电子表格中的数据以图形或数值的方式得出一些有意义

的结论 . 比如 : 数据的排序 , 筛选 , 运算 , 统计 , 图表化等等都可以说是数据分析的手段 .

这里我们主要讲以下几个数据分析问题 :一 . 变量求解 : 有些数据之间存在因果关系 , 这些因果关系可以用数学

模型来描述 , 如方程式 , 不等式等 , 如果知道了结果数据 , 能否根据这些数学模型求出原因变量的值 ?EXCEL 提供一些这样的方法 , 如单变量求解 ,规划求解等 .二 . 模拟运算表 : 根据数学模型 ( 公式 ) 为一组假设数据产生预测结果 ,

以供分析决策三 . 相关性分析 : 判断两组数据集(可以使用不同的度量单位)之间的

关系。四 . 回归分析 : 当一个结果与一个或多个参数之间存在联系时,可以进

行回归分析,通常可由一个或多个自变量来预测一个变量的值。 

Page 2: excel 回归分析

2

数据分析方法

1.分析工具库  Excel 提供了一组数据分析工具,称为“分析工具库”,在建立复杂统

计或工程分析时可节省步骤。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或工程函数,在输出表格中显示相应的结果。其中有些工具在生成输出表格时还能同时生成图表。

安装“分析工具库” :要使用查看可用的分析工具,请单击“工具”菜单中的“数据分析”命令。如果“工具”菜单中没有“数据分析”命令,则需要安装“分析工具库”。

2.工作表函数 Excel 还提供了其他一些统计、财务和工程函数。某些统计函数是内置

函数,而其他一些函数只有在安装了“分析工具库”之后才能使用。

预备知识要使用这些工具,用户还必须熟悉需要进行分析的统计学或工程学的特定领域。

Page 3: excel 回归分析

3

三 .相关性分析相关性分析:       判断两组数据集(可以使用不同的度量单位)之间的关系。相关系数( R ):      相关性计算的返回值。用来确定两个区域中数据的变化是否相关,以及相关的程度。是两组数据集的协方差除以它们标准偏差的乘积。

1 、 R>0:一个集合的较大数据与另一个集合的较大数据相对应(正相关)2 、 R<0:一个集合的较大数据与另一个集合的较小数据相对应(负相关)3 、 R=0:两个集合中的数据互不相关。|R|<0.4 :低度相关;0.4<=|R|<0.6:中度相关; 0.6<=|R|<0.8:高度相关;|R|>=0.8:非常高度相关

Page 4: excel 回归分析

4

1、 CORREL函数: CORREL(array1,array2)返回单元格区域 array1 和 array2 之间的相关系数。使用相关系数可以确定两种属性之间的关系。例如,可以检测某地的平均温度和空调使用情况之间的关系。Array1   第一组数值单元格区域。Array2   第二组数值单元格区域。如果数组或引用包含文本、逻辑值或空白单元格,这些数值将被忽略,但是包含零值的单元格将计算在内。如果 array1 和 array2 的数据点的数目不同,函数 CORREL 返回错误值 #N/A 。

Page 5: excel 回归分析

5

例 1 、利用统计数据计算广告费与销售额之间的相关系数。

相关系数CORREL(B4:B15,C4:C15)=0.92251818

Page 6: excel 回归分析

6

例 2.我们收集了某厂家同一车型中旧车的车龄及其售价数据,求价格与车龄的相关系数 

Page 7: excel 回归分析

7

例  3 、总平均成绩、出勤率、选修学分与每周打工小时数的关系。

2、使用数据分析工具求相关矩阵 利用 CORREL 函数只能返回两种属性之间的相关系数,如果使用 Excel提供的“数据分析”工具可以计算多组数据间的相关系数,组成相关系数表。

Page 8: excel 回归分析

8

例 利用“数据分析”工具计算汽车扳金、省油与价格的满意度之间的相关系数。

汽车的扳金、省油与价格的满意度(5-很满意,1-很不满意)

扳金 省油 价格4 3 25 2 14 3 33 4 33 3 44 3 31 5 54 3 33 3 44 3 35 2 23 4 32 5 51 5 5

扳金 省油 价格扳金 1省油 -0. 94 1价格 -0. 91 0. 835 1

Page 9: excel 回归分析

9

回归分析 : 当一个结果与一个或多个参数之间存在联系时,可以进行回归分析,通常可由一个或多个自变量来预测一个变量的值。回归方程 : 表达参数与结果之间相互关系的数学方程式 ( 数学模型 )线性回归 : 如果变量与结果之间具有线性关系 , 我们可以用线性方程式来描述它们之间的关系 , 这种回归方法叫线性回归 .非线性回归 : 如果变量与结果之间不具有线性关系 , 我们必须用非线性方程式来描述它们之间的关系 ( 如指数关系 , 对数关系等等 ), 这种回归方法叫非线性回归 .单回归 : 当一个结果只与一个参数存在联系时,进行的回归分析称为单回归。复回归 : 当一个结果与多个参数存在联系时,进行的回归分析称为复回归。判定系数 (R2): 用来确定回归方程式的可解释性,即吻合程度。范围在 0-1之间,越接近 1 ,解释性越强,即吻合程度越高。回归方法:1 、给图表增加趋势线;2 、使用 Excel 提供的“数据分析工具”;3 、利用回归函数

四 . 回归分析 

Page 10: excel 回归分析

10

例 4(线性回归 ) 、 我们收集了某厂家同一车型中旧车的车龄及其售价数据,请使用给图表增加趋势线,求车龄对售价的回归方程 , 并计算车龄为 6.5年的旧车售价是多少 .

车龄 价格 ( 万 )1 56.02 48.53 42.04 37.65 32.56 28.77 22.28 18.59 15.0

10 12.5

旧车车龄与售价关系图

y = - 4. 8091x + 57. 8R2 = 0. 9865

0. 0

10. 0

20. 0

30. 0

40. 0

50. 0

60. 0

0 2 4 6 8 10 12

车龄

售价

6.5年的旧车车价 ==-4.8091*6.5+57.8=26.54

1 、给图表增加趋势线进行回归分析

Page 11: excel 回归分析

11

Page 12: excel 回归分析

12

有些数据间并不是简单的线性关系,如果用线性模式求其回归方程式,判定系数( R2 )很小,根本不具有任何解释力。因此要引入非线性回归,如多项式、指数、对数等回归方法。

例 5(非线性回归 ) 、 我们收集了年龄与月收入关系的数据,请绘制该数据的散点图,并求年龄对月收入的回归方程式。年龄 每月所得

15 6000. 020 10000. 025 15000. 030 26000. 035 35000. 040 42000. 045 50500. 050 40500. 055 37650. 060 30500. 065 25000. 070 15800. 075 10200. 080 8000. 0

(年龄与每月所得的关系图 多项式回)归

y = - 36. 54x2 + 3463. 7x -42087

R2 = 0. 8840. 0

20000. 0

40000. 0

60000. 0

0 20 40 60 80 100

年龄

每月所得

Page 13: excel 回归分析

13

例 6(非线性回归 ) 、 我们收集了一个原始森林中树的直径与高度之间的关系数据 , 请绘制该数据的散点图,并求直径与高度的回归方程式 ( 指数回归 ) 。

直径 高度0. 9 171. 2 252. 9 323 35

3. 3 464 58

6. 5 699. 6 7512. 4 7216. 2 7827. 2 85

树的直径与高度关系图

y = 21. 512Ln(x) + 19. 478R2 = 0. 9257

0102030405060708090

100

0 5 10 15 20 25 30

直径

高度

Page 14: excel 回归分析

14

加入趋势线可以进行简单的回归分析,但要获得更多的统计数据,可以使用数据分析工具,求简单相关系数、判定系数、用 F检定判定变量与自变量间是否有回归关系存在、用 t检定判定各回归系数是否不为 0 、计算回归系数的置信度、标准残差等。

例 7 、根据广告费与销售额统计数据使用分析工具进行回归分析。

2 、使用“数据分析工具”进行回归分析

月份 广告费(万)销售量(万)

1 245 30002 280 32003 175 18504 165 16505 150 15006 190 24007 240 28008 610 29609 190 240010 150 160011 140 150012 220 2350

回归分析信息说明

Page 15: excel 回归分析

15

方差分析df SS MS F Si gni fi cance F

回归分析 1 1765442 1765442 6. 726 0. 026794856残差 10 2624983 262498. 3总计 11 4390425结 论:

F 检定中的显著水准 Significance F = 0.026794856<a=0.05 说明:销售量与广告费存在回归关系.

方差分析 (F检定 ):用回归分析检定 ,判定变量与自变量之间是否有显著的回归关系存在。如果显著水准 (Significance F)<a值 ,回归关系存在 ,否则不存在。(在这里判定系数 a=1-置信度 ,在我们回归分析中置信度取 95%,

所以 a=1-95%=0.05)

Page 16: excel 回归分析

16

t 检定Coeffi ci ents 标准误差 t Stat P-val ue Lower 95% Upper 95% 95. 0%下限 95. 0%上限

I ntercept 1545. 831536 315. 1378 4. 905255 0. 0006 843. 6605796 2248. 002 843. 66058 2248. 0025( )广告费 万 3. 14338351 1. 212087 2. 593364 0. 0268 0. 442684371 5. 844083 0. 44268437 5. 8440827

T检定 :判断回归系数与常数项是否为 0

Intercept:回归方程中的常数项信息广告费 (万 ):自变量 X的回归系数信息

结 论:

自变量广告费的显著水准 P-value = 0.026795<a=0.05

说明:广告费与销售量间存在直线关系,其系数为3.14338351,正相关。回归方程式为: Y=3.143384X+1545.832

t 检定结果中,常数项为1545.832,P-value = 0.00061826<a=0.05 说明:回归方程式的常数项不应为0,不可将其省略。

Page 17: excel 回归分析

17

车龄 价格 ( 万 )1 56.02 48.53 42.04 37.65 32.56 28.77 22.28 18.59 15.010 12.5

例 8.我们收集了某厂家同一车型中旧车的车龄及其售价数据,请使用数据分析工具,求车龄对售价的回归方程

SUMMARY OUTPUT

回归统计Mul ti pl e R 0. 993241R Square 0. 986527Adj usted R Square 0. 984843标准误差 1. 804792观测值 10

方差分析df SS MS F Si gni fi cance F

回归分析 1 1908. 007 1908. 007 585. 7682 9. 0595E-09残差 8 26. 05818 3. 257273总计 9 1934. 065

Coeffi ci ents 标准误差 t Stat P-val ue Lower 95%Upper 95% 95. 0%下限 95. 0%上限I ntercept 57. 8 1. 232907 46. 88106 4. 74E-11 54. 9569086 60. 64309 54. 95691 60. 64309车龄 -4. 809090909 0. 198701 -24. 2026 9. 06E-09 -5. 2672966 -4. 35089 -5. 2673 -4. 35089

y = -4.8091x + 57.8

Page 18: excel 回归分析

18

练习题 :以下是银行客户的存款金额与贷款金额对照表 ,用数据分析工具求存款金额对贷款金额的回归方程 ,并预测当存款金额为 80千万时 ,贷款金额为多少 ?存款金额( )千万

贷款金额( )千万

65 54102 8742 3458 4895 8173 6232 25124 107135 11745 37

回归统计Mul ti pl e R 0. 999956R Square 0. 999912Adj usted R Square 0. 999901标准误差 0. 314492观测值 10

方差分析df SS MS F Si gni fi cance F

回归分析 1 8970. 809 8970. 8 90701 1. 65436E-17残差 8 0. 791241 0. 0989总计 9 8971. 6

Coeffi ci ents 标准误差 t Stat P-val ue Lower 95% Upper 95% 95. 0%下限 95. 0%上限I ntercept -3. 44460939 0. 248681 -13. 85 7E-07 -4. 018069372 -2. 87115 -4. 018069 -2. 8711494

( )存款金额 千万 0. 890332158 0. 002956 301. 17 2E-17 0. 883514957 0. 897149 0. 883515 0. 89714936

y = 0.8903x –3.4461

Page 19: excel 回归分析

19

通过给图表加入趋势线只能进行简单的单一参数的回归分析,但在许多情况下需要使用多个自变量来预测一个变量的情况 , 这种回归分析叫复回归,复回归必须通过数据分析工具进行。

复回归

Page 20: excel 回归分析

20

例 9 、银行为了核发信用卡,收集了申请人的每月总收入、不动产、动产、每月房贷与抚养支出费用等数据,并以业务主管员的经验,主观地给予一个信用分数。为使评估信用分数能有一套公式,免得老是依赖主管评分,请使用复回归求其回归方程式。

每月总收( )入 万

不动产( )百万

动产( )百万

每月房( )贷 万

抚养费( )万

信用指数

6. 5 12. 0 3. 0 2. 0 2. 0 827. 2 8. 0 2. 0 0. 0 2. 0 863. 8 0. 0 1. 0 0. 0 1. 0 708. 5 15. 0 3. 5 2. 8 2. 0 904. 2 0. 0 0. 5 0. 0 1. 5 756. 3 6. 0 2. 0 1. 8 1. 5 803. 0 0. 0 0. 6 0. 0 0. 0 703. 2 3. 0 1. 0 0. 0 2. 0 65

图表标题

05000

0 100 200 300 400 500 600 700

y=a1x1+a2x2+a3x3+a4x4+a5x5+b

Page 21: excel 回归分析

21

回归统计Mul ti pl e R 0. 990989406R Square 0. 982060003Adj usted R Square 0. 93721001标准误差 2. 179360967观测值 8

结 论:

R=0.999099,R2=0.98206,调整后的R=0.93721 说明:回归方程式可解释信用分数的差异程度相当高.

方差分析df SS MS F Si gni fi cance F

回归分析 5 520 104 21. 9 0. 044248345残差 2 9. 499 4. 75总计 7 529. 5

结 论:F 检定中的显著水准 Significance F = 0.044248<a=0.05 说明:每月总收入、不动产、动产、每月房贷、抚养支出与信用分数整体间有明显回归关系存在。

Coeffi ci ents 标准误差 t Stat P-val ue Lower 95% Upper 95% 95. 0%下限 95. 0%上限I ntercept 57. 07610213 4. 9504323 11. 53 0. 00744 35. 7760961 78. 376108 35. 7760961 78. 3761082

( )每月总收入 万 5. 350912705 0. 995484 5. 375 0. 03291 1. 06768767 9. 6341377 1. 06768767 9. 63413774( )不动产 百万 0. 703920828 0. 9303825 0. 757 0. 52827 -3. 2991947 4. 7070363 -3. 2991947 4. 70703632

( )动产 百万 -4. 9618931 5. 4451066 -0. 91 0. 45835 -28. 390312 18. 466526 -28. 390312 18. 466526( )每月房贷 万 -0. 089892521 1. 7158095 -0. 05 0. 96298 -7. 4724301 7. 292645 -7. 4724301 7. 29264503

( )抚养费 万 -2. 499189095 1. 7049759 -1. 47 0. 28034 -9. 8351133 4. 8367351 -9. 8351133 4. 83673514

Page 22: excel 回归分析

22

例 10.我们收集了某厂家同一车型中旧车的车龄 , 行驶里程与售价数据,请使用数据分析工具,求车龄 , 行驶里程对售价的回归方程

车龄里程(万公里)

价格( )万

1 8. 5 61. 02 21 53. 53 35 46. 54 43 41. 55 50 37. 06 58 32. 07 65 27. 58 76 21. 09 80 18. 010 90 12. 0

SUMMARY OUTPUT

回归统计Mul ti pl e R 0. 9999R Square 0. 9999Adj usted R Square 0. 9998标准误差 0. 2055观测值 10

方差分析df SS MS F Si gni fi cance F

回归分析 2 2275. 7 1137. 85 26937. 35 2. 49919E-14残差 7 0. 2957 0. 04224总计 9 2276

Coeffi ci ents 标准误差 t Stat P-val ue Lower 95% Upper 95% 95. 0%下限 95. 0%上限I ntercept 65. 99587242 0. 186263 354. 315 3. 77E-16 65. 5554305 66. 436314 65. 555431 66. 4363143车龄 -1. 540712946 0. 207237 -7. 4345 0. 000145 -2. 0307505 -1. 050675 -2. 030751 -1. 0506754里程 -0. 427767355 0. 023844 -17. 94 4. 13E-07 -0. 4841495 -0. 371385 -0. 48415 -0. 3713852

y = -1.5407*车龄 -0.4278*里程  + 65.9959

Page 23: excel 回归分析

23

练习 影响出勤率的因素分析 ,1-5代表影响程度,请使用复回归求其回归方程式。

Page 24: excel 回归分析

24

非线性的复回归

年龄平方 年龄 每月所得225 15 6,000 400 20 10,000 625 25 15,000 900 30 26,000

1225 35 35,000 1600 40 42,000 2025 45 50,500 2500 50 40,500 3025 55 37,650 3600 60 30,500 4225 65 25,000 4900 70 15,800 5625 75 10,200 6400 80 8,000

例 11.我们收集了年龄与月收入关系的数据,使用数据分析工具求年龄对月收入的回归方程式。

年龄 每月所得15 6,000 20 10,000 25 15,000 30 26,000 35 35,000 40 42,000 45 50,500 50 40,500 55 37,650 60 30,500 65 25,000 70 15,800 75 10,200 80 8,000

y=a1x2+a2x+b

Page 25: excel 回归分析

25

回归统计Multiple R 0.94023005R Square 0.88403254Adjusted R Square 0.86294755

标准误差 5383.55004

观测值 14

方差分析df SS MS F Significance F

回归分析 2 2.43E+09 1.22E+09 41.9271 7.1425E-06

残差 11 3.19E+08 28982611

总计 13 2.75E+09

Coefficients 标准误差 t Stat P-value Lower 95% Upper 95%下限 95.0%上限 95.0%Intercept -42087.047 8250.414 -5.1012 0.000343 -60246.0938 -23928 -60246.09 -23928

年龄平方 -36.539835 3.990553 -9.15658 1.77E-06 -45.3229871 -27.75668 -45.32299 -27.75668

年龄 3463.74588 385.7649 8.978904 2.14E-06 2614.68262 4312.8091 2614.6826 4312.8091

y = -36.54x2 + 3463.7x - 42087

Page 26: excel 回归分析

26

(1)直线回归函数 LINEST()使用最小平方法计算最适合于变量区域的回归直线公式 ,并传回该直线公式的数组。可以用于单回归和复回归 .语法 :LINEST( 变量区域 , 自变量区域 , 常数项是否不为零 , 是否返回附加的统计值 )操作方法 :1. 选定输出区域 2. 输入公式 3.Ctrl+Shift+Enter

例 12. 以广告费与销售量的单一参数数据为例使用 LINEST 函数 ,求线性回归方程式。

3 、使用回归函数进行回归分析

系数(b) 常数标准误差(b) 标准误差判定系数(R2) 对y估计值的标准误差F统计值 F检定之自由度回归平方 残差平方

单回归 (y=bx+c)输出结果

9. 184629803 299. 8687911. 215127545 261. 6524490. 851039787 229. 16244657. 13202018 103000312. 402 525154. 264

y=9.1846x+299.8688

Page 27: excel 回归分析

27

系数(bn) 系数(bn-1) … 系数(b1) 常数(c)

标准误差(bn) 标准误差(bn-1) … 标准误差(b1) 标准误差

判定系数(R2) 判定系数(R2) 判定系数(R2) 对y估计值的标准误差F统计值 F统计值 F统计值 F检定之自由度回归平方 回归平方 回归平方 残差平方

复回归 (y=bnx+bn-1x+…+b1x+c)输出结果

例 13.我们收集了某厂家同一车型中旧车的车龄 , 行驶里程与售价数据,请使用 LINEST函数,求车龄 , 行驶里程对售价的回归方程

车龄里程(万公里)

价格( )万

1 8. 5 61. 02 21 53. 53 35 46. 54 43 41. 55 50 37. 06 58 32. 07 65 27. 58 76 21. 09 80 18. 010 90 12. 0

-0. 42777 -1. 54071 65. 995870. 023844 0. 207237 0. 1862630. 99987 0. 205525 #N/ A26937. 35 7 #N/ A2275. 704 0. 295685 #N/ A

y = -1.5407*车龄 -0.4278*里程  + 65.9959

Page 28: excel 回归分析

28

(2) 线性预测函数 (FORECAST)根据给定的数据计算或预测未来值。以数组或数据区域的形式给定 x 值和 y 值后,返回基于 x 的线性回归预测值。使用此函数可以对未来销售额、库存需求或消费趋势进行预测。FORECAST(x,known_y,known_x)X   为需要进行预测的数据点。Known_y   为因变量数组或数据区域。Known_x   为自变量数组或数据区域。

例  14.以广告费与销售量的单一参数数据为例使用 Forecast函数预测当广告费用为 500万元时销售量为多少。

FORECAST(500,$C$2:$C$13,$B$2:$B$13)=4892万

Page 29: excel 回归分析

29

(3) 线性趋势函数( TREND)返回一条线性回归拟合线的一组纵坐标值( y 值)。即找到适合给定的数组 known_y 和 known_x 的直线(用最小二乘法),并返回指定数组 new_x's 值在直线上对应的 y 值。语法: TREND(known_y,known_x,new_x,const)操作方法 :1. 选定输出区域 2. 输入公式 3.Ctrl+Shift+Enter例 15 、以广告费与销售量的单一参数数据为例使用 TREND函数预测一组广告费的销售量。

Page 30: excel 回归分析

30

(4) 指数回归函数• LOGEST:指数回归函数,计算最符合观测数据组的指数回归拟合曲线,并返回描述该曲线的数组。此曲线的方程为:y = b*mx or y = (b*(m1

x1)*(m2x2)*…) (如果有多个 x 值)

LOGEST(known_y's,known_x's,const,stats)

• GROWTH: 指数趋势函数,根据给定的数据预测指数增长值。根据已知的 x 值和 y 值,函数 GROWTH 返回一组新的 x 值对应的 y 值。可以使用 GROWTH 工作表函数来拟合满足给定 x 值和 y 值的指数曲线。语法:GROWTH(known_y's,known_x's,new_x's,const)选定输出区域—输入公式— Ctrl+Shift+Enter