回归模型中复共线性问题的解决
2023-07-19 08:50:22
论文总字数:13128字
摘 要
无论是在经济、工商管理、社会科学,还是在医学、生物科学、工程技术中,回归分析都是一种普遍应用的统计分析与预测技术.在回归分析中,当回归模型自变量之间出现复共线性现象时,常会严重影响到参数的估计,扩大模型误差,并破坏模型的稳健性,因此消除复共线性成为回归分析中参数估计的一个重要环节.本课题通过查阅大量的书籍资料,研究探讨了回归模型中复共线性问题的若干解决方法,并通过一些具体实例来验证所得方法的可行性及有效性.关键词:复共线性,回归模型,诊断方法,多元统计分析
Abstract:Regression analysis is a widely-used statistical analysis and prediction technology. It can be applied to many fields such as the economy, business administration, social sciences, medicine, biological science, engineering technology and so on. The multi-collinearity between independent variables of regression model in regression analysis often seriously affects the estimation of parameter, which expands the model error and destroies the robustness of the model. Thus eliminating the multi-collinearity is an important link in the process of parameter estimation in regression analysis. This topic explores some solutions to the question of multi-collinearity in the regression model by consulting a large number of books. At the same time, it verifies the feasibility and effectiveness of the methods through some instances.
Keywords:multi-collinearity, regression analysis, diagnostic method, multivariate statistical analysis
目 录
1前言………………………………………………………………………5
2复共线性的数学背景…………………………………………………………5
2.1对复共线性关系的初步估计与识别……………………………………6
3对复共线性本质的认识………………………………………………………6
3.1复共线性是由变量之间的性质引起的……………………………………6
3.2复共线性是由数据问题引起的……………………………………………7
3.3复共线性是由不适当参数化引起的………………………………………7
4.对复共线性的测定…………………………………………………………8
5.诊断指标与方法……………………………………………………………11
5.1容忍值……………………………………………………………………11
5.2方差扩大因子……………………………………………………………12
5.3条件数和特征分析法……………………………………………………12
6.用主成分方法消除共线性…………………………………………………12
结论 …………………………………………………………………………14
参考文献………………………………………………………………………15
致谢 …………………………………………………………………………16
1 前言
回归模型是对统计关系进行定量描述的一种数学模型.而回归分析是研究一个变量关于另一个变量的具体依赖关系的计算方法和理论.前者是被解释变量,后者是解释变量.多元回归分析是多变量分析方法中最重要、最基础的分析方法.从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度.在实际应用过程中,它的前提是假设各个变量之间相互独立,即解释变量之间不存在精确相关关系或高度相关关系,或称复共线性.如果这一前提不成立,即存在着复共线性关系,将会使模型估计失真或难以估计准确,估计系数方差加大,系数估计不稳定,给结果分析带来严重困难.因此对复共线性的识别和处理在回归模型,即线性回归分析中显得十分重要.
2复共线性的数学背景
假设有两个变量和,二者高度线性相关,可以近似地表示为:
. (2.1)
现若变量与、有回归模型:
.
我们可以采用因式分解法把上面模型中的分解成两部分的和,这样可以列出若干种分解方法,我们取其中两种,得到下列两种等价的形式:
, (2.2)
. (2.3)
将(2.1)式分别代入方程(2.2)中的和方程(2.3)中的,可以得到以下两个方程:
, (2.4)
. (2.5)
在(2.4)中,的系数为,表示与成正比例关系,即正相关;而在(2.5)中,的系数为,表示与成负比例关系,即负相关.如此看来,同一个方程变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果.
实际上,根据式中的与的共线性,约相当于,在(2.4)减少了,即需要用个来补偿;而在(2.5)增加了,需要用个来抵消,以便保证两个方程的等价性,这样一来使得(2.5)中的系数变为了负数.从上述分析看来,由于与的共线性,使得同一个方程有不同的表达形式,从而使得与间的关系难以用系数解释.
2.1对复共线性关系的初步估计与识别
如果在实际应用中产生了如下情况之一,则可能是由于复共线性的存在而造成的,需作进一步的分析诊断[1].
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化.
剩余内容已隐藏,请支付后下载全文,论文总字数:13128字