基于变量选择模型的实证研究毕业论文
2020-07-06 18:15:45
摘 要
中国经济增长主要靠消费和投资,消费作为内生需求起到刺激经济增长的辅助作用,而投资作为刺激经济增长的主要动力,如何正确投资势必十分重要。本文在此背景下研究了普通大众的股票投资,希望借由数据可以给大众股票爱好者投资提供正确决策。
本文以上证综指与其各成分股收益率为研究对象,分别通过逐步回归方法与随机森林方法进行变量选择,并将二者实证结果进行比较,筛选出解释上证综指收益率的几只重要股票;最后,以对删选出的变量作为解释变量,建立多元线性回归模型,研究成份股的变化对上证综指的影响,从而为跟踪指数的投资者提供套期保值策略依据。
关键词:上证综指;变量选择;随机森林;多元线性回归
Empirical Research Based on Variable Selection Model
Abstract
China's economic growth mainly depends on consumption and investment. Consumption as an endogenous demand plays a supporting role in stimulating economic growth. As investment is the main driving force for economic growth, how to invest correctly is bound to be very important. In this context, this article studies the stock investment of the general public, hoping to use the data to provide the right decision for public stock investors.
In this paper, the returns of the above Shanghai Composite Index and its constituent stocks are studied, and the variables are selected by stepwise regression method and random forest method respectively, and the empirical results of the two are compared to screen out several important stocks that explain the yield of the Shanghai Composite Index. Finally, using the variable selected as an explanatory variable, a multiple linear regression model was established to study the impact of changes in constituent stocks on the Shanghai Composite Index, thus providing a hedging strategy for investors following the index.
Keywords: Shanghai Composite Index; variable selection; random forest; multiple linear regression
目录
第一章 导论 1
1.1研究背景及意义. 1
1.2 研究现状 1
第二章 理论模型 4
2.1变量的筛选 4
2.2随机森林特征选择 4
2.3特征选择 6
2.4逐步回归 7
2.5多元线性回归 7
第三章 实证研究 9
3.1随机森林特征选择 7
3.2逐步回归 7
3.3变量选择方法比较 7
3.4多元线性回归 7
第四章 结论 13
参考文献 14
致 谢 15
第一章 导论
1.1研究背景及意义.
在统计学中线性模型是一个特别基础的模型 应用随处可见 。线性回归模型必须假设数据服从正态分布,而实际上的数据不一定服从正态分布 。广义线性模型是线性回归模型的延伸 ,可以用来处理更多的数据分布情况 。在模型中自变量的数值一般情况下是离散的计算数据 ,也有可能是连续型的数值 ,数据的分布一般有如下几种分布 二项分布 伽马分布 正态分布 。正是由于这一特征 广义线性模型可以处理多种分布 即线性模型是一个很好的工具。
随着社会的不断发展,数据复杂性越来越高 ,信息量也越来越大 。有些自变量对因变量影响不大 ,这样就导致不太方便提取出有用信息 ,尤其是在金融 农作物 科技领域 在我们实际建模的时候 。起初自变量的选择 可能会比较多 ,怎样选择对自变量有影响的变量是变量选择研究中最核心的问题 。此外当整理的数据中样本个数少于实际变量个数时 ,比如在生物上研究遗传问题时 。可能收集的样本有上百个 ,而基因遗传的影响的变量有上千个 。发生这种情况时 ,用常规方式来选择变量时 ,容易出现误差且工作量很大 。进一步导致拟和效果不理想 ,不仅如此变量之间还有可能存在共线性 。从而导致不能精确的选择出变量选择模型 ,人们在分析数据时运用变量选择方法对其进行探索 。变量的选择一直是一个热门问题 ,各种方法层出不穷。 变量选择问题是个十分重要的问题 ,应用十分的广泛 。对数据建模分析至关重要 ,所以对线性模型变量选择是十分有意义的。
1.2 研究现状
线性模型是统计学学科的一个相当重要的分支。由于如今高速电子计算机的普及和发展,使其在生物、经济、医学等领域的应用愈发广泛与深入。准确性对于模型来说就重要。在我们实际的操作的过程中,我们可以从样本中十分容易的到一些观测值,而且能够利用我们得到的观测值预测出未来的数据发展驱势。但是我们要清楚的认识到一点,想要预测的结果更准确的话 就应该提高模型的准确性。那么相关的参数系数估计值和自变量的选择估计值是很重要的。在统计 研究与预测推断的时候,变量选择尤为重要,也是统计学研究的热点之一。本节将全面介绍线性回归模型中变量选择。
1.2.1国外研究回顾
提出了弹性网的一种新的正则化和变量选择方法。真实的世界数据和模拟研究表明, 弹性网往往优于套索, 同时也享有相似的代表性稀疏。此外, 弹性网鼓励分组效应, 其中强烈相关的预测因素往往是在或出的模型一起。当预测因子 (p) 的数量远远大于观测次数 (n) 时, 弹性网尤其有用。相比之下, 套索在 p gt; n 的情况下不是一个非常满意的变量选择方法。提出了一种有效计算弹性网正则化路径的算法LARS-EN 法, 类似于索具的算法。评估模型质量的标准将根据情况而不同。例如, 一般最小二乘估计是通过最小化剩余平方和来获得的。通常, 以下两个方面很 预测未来数据的准确性--很难为预测较差的模型辩护对模型的解释-科学家们更喜欢简单的模型, 因为它更能说明反应和变量之间的关系。当预测因子数量较大时, 节俭尤其是一个重要的问l题众所周知, 在预测和解释方面, OLS方程往往表现不佳。提出了改进 Penaliza 的方法。例如, 脊回归 (Hoerl 和Kennard, 1988) 最小化的残差平方和受约束的 L2-norm 的系数。岭回归作为一种连续收缩方法, 通过偏差-方差权衡, 达到了较好的预测性能。然而, 脊回归不能产生一个吝啬模型, 因为它总是保持模型中的所有预测因子。最佳子集选择在对比产生一个稀疏模型, 但它是非常可变的, 因为它固有的离散性
1.2.2国内研究回顾