职场范文网>考研学习>考研统计学多元回归知识要点

考研统计学多元回归知识要点

时间：2025-01-17 14:09:51 维泽考研学习

考研统计学多元回归知识要点

　　应用统计硕士考研需要掌握统计学先关知识点，考研总结了一些统计学要点，方便大家进行学习。下面是有关多元回归的知识点，具体内容如下。

考研统计学多元回归知识要点

　　考研统计学多元回归知识要点 1

　　1.多重共线性

　　回归模型中两个或两个以上的自变量彼此相关

　　多重共线性带来的问题有

　　可能会使回归的结果造成混乱，甚至会把分析引入歧途

　　可能对参数估计值的正负号产生影响，特别是各回归系数的正负号有可能同我们预期的正负号相反

　　2.多重共线性的识别

　　检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数，并对各相关系数进行显著性检验

　　若有一个或多个相关系数显著，就表示模型中所用的自变量之间相关，存在着多重共线性

　　如果出现下列情况，暗示存在多重共线性

　　模型中各对自变量之间显著相关。

　　当模型的线性关系检验(F检验)显著时，几乎所有回归系数的t检验却不显著

　　回归系数的正负号与预期的相反。

　　3.变量选则过程

　　在建立回归模型时，对自变量进行筛选

　　选择自变量的原则是对统计量进行显著性检验

　　将一个或一个以上的自变量引入到回归模型中时，是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的，则说明有必要将这个自变量引入回归模型，否则，就没有必要将这个自变量引入回归模型

　　确定引入自变量是否使SSE有显著减少的方法，就是使用F统计量的值作为一个标准，以此来确定是在模型中增加一个自变量，还是从模型中剔除一个自变量

　　变量选择的方法主要有：向前选择、向后剔除、逐步回归、最优子集等

　　4.向前选择

　　从模型中没有自变量开始

　　对k个自变量分别拟合对因变量的一元线性回归模型，共有k个，然后找出F统计量的值最高的模型及其自变量(P值最小的)，并将其首先引入模型

　　分别拟合引入模型外的k-1个自变量的线性回归模型

　　如此反复进行，直至模型外的自变量均无统计显著性为止

　　5.向后剔除

　　先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p

　　考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个的自变量)，使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除

　　如此反复进行，一直将自变量从模型中剔除，直至剔除一个自变量不会使SSE显著减小为止

　　6.逐步回归

　　将向前选择和向后剔除两种方法结合起来筛选自变量

　　在增加了一个自变量后，它会对模型中所有的变量进行考察，看看有没有可能剔除某个自变量。如果在增加了一个自变量后，前面增加的某个自变量对模型的贡献变得不显著，这个变量就会被剔除

　　按照方法不停地增加变量并考虑剔除以前增加的变量的可能性，直至增加变量已经不能导致SSE显著减少

　　在前面步骤中增加的自变量在后面的步骤中有可能被剔除，而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中

　　7.虚拟自变量

　　用数字代码表示的定性自变量

　　虚拟自变量可有不同的水平

　　只有两个水平的虚拟自变量。比如，性别(男，女)

　　有两个以上水平的虚拟自变量，贷款企业的类型(家电，医药，其他)

　　虚拟变量的取值为0，1

　　回归模型中使用虚拟自变量时，称为虚拟自变量的回归

　　当虚拟自变量只有两个水平时，可在回归中引入一个虚拟变量，比如，性别

　　一般而言，如果定性自变量有k个水平，需要在回归中模型中引进k-1个虚拟变量

　　例：引进虚拟变量时，回归方程可写：

　　E(y) =b0+ b1x1+ b2x2

　　女( x2=0)：E(y|女性) =b0 +b1x1

　　男(x2=1)：E(y|男性) =(b0 + b2 ) +b1x1

　　b0的含义表示：女性职工的期望月工资收入

　　(b0+ b2)的含义表示：男性职工的期望月工资收入

　　b1含义表示：工作年限每增加1年，男性或女性工资的平均增加值

　　b2含义表示：男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值 (b0+ b2)-b0= b2。

　　已经进入10月份了，距离考试的时间越来越近了。正处于考研复习的关键时刻，考生们保持良好的心态，全身心的投入到考研复习中去。

　　考研统计学多元回归知识要点 2

　　一、统计图表

　　1．统计图

　　（1）概念：统计图是用图形的形式呈现研究的数量化结果的一种形式。

　　（2）组成及特点如下：

　　①统计图一般由图题、变量说明、坐标轴及单位、图形4个部分组成。常见的统计图有线性图、条形图、圆形（扇形）图和组织图等。

　　②统计图比统计表更直观，更易于理解。但是，统计图和统计表一样，不能代替研究报告中的有关文字叙述，只能用来强调某些重要的数据关系。

　　③不同的统计图表达的效果是有区别的，即使选用同一种统计图，绘制方法的不同（如采用不同的轴单位尺度）也可能造成表达效果的差异。

　　2．统计表

　　（1）概念：统计表是用表格的形式呈现研究的数量化结果的方式之一。

　　（2）组成及特点如下：

　　①一个统计表通常包括表题、表体和表注三部分。表题是统计表的标题。表体是统计表的主体内容，包括研究的对象或特征，研究对象或特征的指标、类别、数据结果等内容。表注是对统计表中有关内容的说明，包括对表的来源、用途等作的注的说明。有时可以说明统计推论的结果和结论。

　　②研究的对象或特征名称一般列在表的左边一列；研究对象或特征的指标、类别名称一般列在表的上边一栏；同一纵列上的数据所保留的小数位要一致，位数要对齐。

　　③统计表的类型主要包括原始数据表、次数分布表和分析结果表等。

　　二、集中量数

　　1．算术平均数

　　（1）概念：算术平均数是所有观察值的总和除以总频数所得之商，简称为平均数或均数。它是一种集中量数，是某一特质“真值”的渐进、最佳的估计值。

　　表达公式：

　　式中N为数据个数，Xi为每一个数据，∑为相加求和。

　　（2）算术平均数的优点是：反应灵敏；计算方便；适合代数运算；受抽样变动的影响较小。具体表现在以下几个方面：

　　①当只知一组观察值的总和及总频数就可以求出算术平均数；

　　②用加权法可以求出几个平均数的总平均数；

　　③用样本数据推断总体集中量时，算术平均数最接近于总体集中量的真值，它是总体平均数的最好估计值；

　　④在计算方差、标准差、相关系数以及进行统计推断时，都要用到它。

　　（3）算术平均数的缺点：易受两极端数值（极大或极小）的影响并且当一组数据中某个数值的大小不够确切时就无法计算其算术平均数。

　　（4）算术平均数的条件要求如下：

　　①数据必须是同质的，即同一种测量工具所测量的某一特质；

　　②数据取值必须明确；

　　③数据离散不能太大。

　　（5）算术平均数的特点：

　　①在一组数据中每个变量与平均数之差（称离均差）的总和等于零；

　　②在一组数据中，每个数都加上一常数C，所得的平均数为原来的平均数加常数C；

　　③在一组数据中，每个数据都乘以一个常数C，所得的平均数为原来的平均数乘以常数C。

　　（6）应用平均数的原则

　　①同质性原则，即使用同一种观测手段，采用相同的观测标准，能反映某一问题的同一方面特质的数据；

　　②平均数和个体数值相结合的原则；

　　③平均数与标准差、方差相结合原则。

　　2．中数（Median，符号为Md）

　　（1）概念：中数，又称中位数，中点数，中值，是位于依一定顺序排列的一组数据中央位置的数值，在这一数值上、下各有一半频数分布着。即在这组数据中，有一半的数据比它大，有一半的数据比它小。这个数可能是数据中的某一个，也可能根本不是原有的数。

　　（2）中数的计算方法

　　①原始数值计算方法

　　将一组原始数据依大小顺序排列后，若总频数为奇数，就以位于中央的数据作为中位数；若总频数为偶数，则以最中间的两个数据的算术平均数作为中位数。

　　②频数分布表计算法

　　若一组原始数据已经编成了频数分布表，可用内插法，通过频数分布表计算中位数。

　　（3）中位数虽然也具备一个良好的集中量所应具备的某些条件，例如比较严格确定，简明易懂，计算简便，受抽样变动影响较小，但是它不适合进一步的代数运算。它适用于以下几种情况：

　　①一组数据中有特大或特小两极端数值时；

　　②一组数据中有个别数据不确切时；

　　③资料属于等级性质时；

　　④当需要快速估计一组数据的代表值时。

　　3．众数（Mode，简称Mo）

　　（1）概念：众数又称为范数，密集数，是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数，也可用来代表一组数据的集中趋势。

　　（2）计算众数的方法

　　①直接观察求众数。直接观察求众数的方法很简单，就是只凭观察找出出现次数最多的那个数据就是众数。数据整理成次数分布表后，观察次数最多的那个分组区间的组中值为众数。依据次数分组表计算众数受分组的影响。

　　②用公式计算的众数称为数理众数。当次数分布曲线的形式已知时，可用积分的方法求众数。这种方法较复杂，在心理与教育统计中很少应用，而应用较多的是皮尔逊经验法和金氏插补法。

　　（3）众数的意义与应用

　　众数的概念简单明了，容易理解，但它不稳定，受分组影响，亦受样本变动影响。较少受极端数目的影响，反应不够灵敏。众数只是一个估计值。同时，众数不能作进一步代数运算。所以众数不是一个优良的集中量数，应用也不广泛。

　　考研统计学多元回归知识要点 3

　　多元线性回归

　　多元线性回归是统计学中的一种回归分析方法，用于研究两个或多个自变量与一个因变量之间的线性关系。

　　一、基本定义

　　定义：多元线性回归是指研究一个因变量与两个或两个以上自变量的回归关系，这种关系可以用线性方程来表示。

　　应用：多元线性回归在社会科学、自然科学、经济学、医学等多个领域都有广泛应用。

　　二、数学模型

　　多元线性回归的数学模型为：

　　[ Y = eta_0 + eta_1X_1 + eta_2X_2 + cdots + eta_pX_p + epsilon ]

　　其中，( Y ) 是因变量，( X_1， X_2， ldots， X_p ) 是自变量，( eta_0， eta_1， eta_2， ldots， eta_p ) 是回归系数，( epsilon ) 是随机误差项。

　　三、参数估计

　　最小二乘法：用于估计回归系数，目标是使预测值与实际观测值之间的误差平方和最小。

　　统计软件：如SPSS、R、Python等，用于参数估计和模型检验。

　　四、模型评估

　　拟合优度：常用指标包括R平方和调整后的R平方，R平方越接近1，模型拟合度越好。

　　显著性检验：用于确定自变量对因变量的影响是否具有统计学意义。

　　残差分析：用于评估模型是否符合线性回归的假设条件。

　　五、注意事项

　　自变量选择：可以通过相关分析、逐步回归等方法来选择对因变量有显著影响的自变量。

　　多重共线性：可能导致回归系数估计不准确，需要处理。

　　模型解释：回归系数的正负和大小反映了自变量对因变量的影响方向和程度。

　　六、应用场景

　　经济学：研究多种因素对经济增长的影响。

　　医学：分析多个生活方式因素与健康指标之间的关系。

　　市场营销：分析多种因素对销售额的影响，优化营销策略。

　　总之，多元线性回归是一种强大的统计分析工具，能帮助我们深入理解多个自变量与因变量之间的复杂关系。在实际应用中，需要注意选择合适的自变量、处理多重共线性问题以及正确解释模型结果。

【考研统计学多元回归知识要点】相关文章：

西医综合考研冲刺：41个病理学知识要点12-31