基于充分降维方法的在线新闻欢迎度预测开题报告
2021-12-12 14:12:41
1. 研究目的与意义及国内外研究现状
在数字世界中,在线新闻已成为主要的吸引力。无论是对互联网用户有用的信息和娱乐还是能为营销公司和提供商提供商业机会,在线新闻从各方面都可以称得上是互联网上的宝贵财富。与此同时,随着社会媒体创新的生长,内容创建的简便和出版的低成本已经创建了信息饱和的世界。例如,每一分钟,世界各地的用户发送的微博数会超过30万条,在Facebook上分享的内容会超过68万条,并会在YouTube上载100个小时的视频。然而,网络生态系统坚持一个“赢家通吃”的社会:注意力集中在只有少数几个项目。在这种情况下,识别该在线新闻的内容,将变得流行变得极为重要。在线用户,通过信息淹没,可减少杂波,并在网络世界中集中注意力的最宝贵的资源,对他们最相关的信息。在当今世界,互联网的一个冉冉升起的新星的早期发现可以通过更好的在线新闻投放最大限度地增加商业的收入。此外,鉴于不断增长的消费者互联网流量,在线新闻可以依靠普及预测方法根据未来用户的需求来主动分享资源。但预测在线新闻的欢迎度是一项具有挑战性的任务。首先,从在线新闻本身性质来看,影响在线新闻流行度的因素各有不同并且数量较多,诸如内容或它的相关用户的质量,这是难以测量的。然后,在其他的因素方面,如事件之间在物理世界和内容本身之间的关系是很难捕捉并包含在一个预测模型内。此外,在微观层面镜下,内容受欢迎的演变可通过复杂的在线互动和信息级联反应,但难以预测描述。预测在线新闻的欢迎度已成为一个活跃的研究领域,但是同时仍然还处在一个初始阶段。另外,从在线新闻的价值来看,预测在线新闻内容的欢迎度对不同的利益相关者有着重要的价值,比如在线广告商可以依照预测结果提出更有利可图的货币化战略,网上读者可以更轻松地筛选的庞大的信息量,行政工作人员也可以更有效快速地解决实事问题。因此对于在线新闻欢迎度的研究有很重大的意义。
国内外研究现状
在研究领域中,预测在线新闻欢迎度正逐渐成为一个热门的研究课题。对于该课题的研究是一项复杂且具有挑战性的任务。在最近几年,研究者们对该研究问题提出了一些不同预测方法和预测战略。比如Tatar等(2014)在自动新闻排序中分析了欢迎度预测方法的效率,得出线性对数欢迎度预测模型是在线新闻排序的一个有效解决方案。Petrovic等(2014)利用微博内容的相关特征和与作者相关的社会特征来预测微博转发量。又如Fernandes等(2015)通过文章挖掘和分类方法对在线新闻欢迎度的研究提出了一个积极的智能决策系统。以上论文在研究该问题中都对所得数据进行了一定的降维处理。再加上影响在线新闻欢迎度的因素很多,从而难以确认真正对其影响大的因素,所以充分降维在该研究中显得尤为重要。在充分降维处理方面,国内外统计学家也做了许多的相关研究,并得到了一系列的研究成果。统计学家们针对高维数据处理的问题而提出的解决办法,其大致思维普遍都是通过降低数据维数之后,然后用常用的统计方法对降维后的数据进行分析得到最终的统计模型,只不过在对数据降维的思想上有所不同而已。降维指的是什么?降维就是在尽量不损失数据原始信息的情况下,将高维数据投影到低维空间,从而到达数据简化的目的。目前解决降维问题的方法有很多种其中包括:主成分分析法,切片逆回归方法,LASSO,迭代LASSO,稀疏主成分分析等方法,其中主成分分析方法最早是Karl Pearson于1901年提出来的,其主要思想是在尽量不损失原始数据信息的情况下,经过线性变换,将原始变量转化为几个不相关的综合变量的多元统计分析方法。切片逆回归方法简称SIR是由Li于1991年提出的,其思想主要是用自变量对因变量做回归来降维。LASSO方法是Robert Tibshirani 于1996年提出的一种新的变量选择方法,此方法用模型系数的绝对值函数作为惩罚来压缩模型系数,是一些回归系数变小,甚至是一些绝对值较小的系数直接变为0.但是以上述降维方法很少运用于在线新闻欢迎度的研究中,虽然说有过外国文献运用LASSO方法对在线新闻欢迎度数据进行过降维,并不意味着该方法就是最佳解决在线新闻欢迎度数据降维问题的最佳方法。因此本文想将一些变量选择方法运用于在线新闻欢迎度研究中,对影响欢迎度的变量进行有效地筛选。本文想基于在线新闻的欢迎度数据,对几种降维方法进行研究,并做出比较,分析这些方法的优缺点。进而得出一个不错的在线新闻欢迎度的预测模型。
2. 研究的基本内容
本文对六种数据降维方法:主成分分析、LASSO回归、切片逆回归、相关分析、迭代LASSO和稀疏主成分分析就其思想和算法依次做了介绍,然后将以上各方法降维处理后的所剩变量进行回归,来建立一个回归模型预测在线新闻的欢迎度,并通过综合检验其预测效果,在其中选择最好的预测模型。
3. 实施方案、进度安排及预期效果
实行方案:
通过查阅书籍、期刊及网络上的一些共享资源,在老师、同学的帮助指导下,完成在线新闻欢迎度预测模型的建立及研究,并且运用r统计软件完成数据的处理。
进度:
4. 参考文献
[1]breiman l.heuristics of instability and stabilization in model selection[j]. the annals of statistics,1996, 24(4):2350-2383.
[2]谭璐.高维数据的降维理论及应用[d].国防科技大学博士学位论文,2005,4.
[3]cook,r.d.and weisberg,s. discussion of'slice inverse regression for dimension reduction' by k.-c.li.j.amer[r]. statist.assoc.1991.86328-332.