登录
首页 >  数据库 >  MySQL

统计科学之多元回归分析

来源:SegmentFault

时间:2023-01-20 15:30:31 279浏览 收藏

IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《统计科学之多元回归分析》,聊聊MySQL、数据库、python、网页爬虫、机器学习,我们一起来看看吧!

01.前言

前面我们讲了一元线性回归,没看过的可以先去看看:[一元线性回归分析]。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。

多元回归的形式如下:

image

02.参数估计

多元回归方程中各个参数也是需要估计的,关于为什么要估计,其实我们在一元线性回归里面也讲过。与一元线性回归不同的是,一元线性回归拟合的是一条线,而多元回归拟合的是一个面。使用的方法也是最小二乘法。

03.拟合程度判断

在多元回归里面拟合程度判断与一元回归也类似,也主要有总平方和、回归平方和、残差平方和这三种。

多元回归里面也有R^2,R^2 = SSR/SST = 1 - SSE/SST。因为增加自变量的会降低残差SSE,进而导致R^2增加。

为什么加入新的变量会使SSE降低呢?因为每新加入一个新的变量,这个新的变量就会贡献一部分平方和,而这个平方和就是从残差里面分离出来的。

为了避免盲目增加自变量而导致得到一个虚高的R^2,优秀的前辈们又想出了一个新的指标,即修正后的R^2。公式如下:

image

公式中的n为样本量的个数,k为自变量的个数,通过n和k来调整R^2,这样就不会出现随着自变量个数的增加而导致R^2也跟着增加的情况。

我们一般用调整后的R^2来判断多元回归的准确性。

除了R^2以外,我们还可以使用标准误差来衡量回归模型的好坏。标准误差就是均方残差(MSE)的平方根,其表示根据各自变量x来预测因变量y的平均预测误差。

04.显著性检验

我们在一元线性回归里面做过显著性检验,在多元回归里面也是同样需要做显著性判断的。

4.1线性关系检验

线性关系检验就是检验y和多个x之间的关系是否显著,是总体显著性检验。

检验方法与一元线性回归一致,即我们假设没有线性关系,然后对变量进行F检验,具体的详细介绍,参考一元线性回归中讲解的。

4.2回归系数检验

线性关系显著性检验是对多个变量的一个显著性判断,也就是说只要多个x中有一个x对y的影响是显著的,线性关系就是显著的。而回归系数检验是用来看每一个x对应的系数是否是显著的。要看某个变量的系数是否显著,假设这个变量的系数等于0,然后进行t检验判断显著性。

具体的t检验可以查看假设检验的内容:[统计学的假设检验]。

05.多重共线性

多元回归与一元回归还有一个不同点就是,多元回归有可能会存在多重共线性。

什么是多重共线性呢?多元回归里面我们希望是多个x分别对y起作用,也就是x分别与y相关。但在实际场景中,可能x1与x2之间彼此相关,我们把这种x变量之间彼此相关的情况称为多重共线性。多重共线性可能会让回归得到一个错误的结果。

既然多重共线性的问题很严重,那我们应该如何发现呢?最简单的一种方法就是求变量之间的相关性,如果两个变量之间高度相关,就可以认为是存在多重共线性。

对于存在多重共线性问题的变量,我们一般会把其中一个舍弃。

以上就是《统计科学之多元回归分析》的详细内容,更多关于mysql的资料请关注golang学习网公众号!

声明:本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>