统计方法在预测网络新闻欢迎度的应用开题报告
2022-01-07 22:04:05
全文总字数:2226字
1. 研究目的与意义及国内外研究现状
成功预测网络新闻受欢迎程度的能力对所有记者和内容提供商都至关重要。预测网络新闻受欢迎程度对社会各个方面有相当大的影响。有了能够准确预测网络新闻流行度的前提下,政治家们就能够更好地影响公众的舆论,广告商们则可以提出更赚钱的货币化战略等。因此,我们将我们的研究集中在探索不同的模型来预测网络新闻的受欢迎程度,找到预测网络新闻流行度最佳的模型。并且我们研究哪些因素可能会显著地影响网络新闻的流行度,以此来为网络新闻撰写者提出有效的建议,使得以后写出的新闻更加受欢迎,转载次数更多,受众面更加广泛。
国内外研究现状
预测网络新闻的欢迎度已经成为了一个相当重要的学术部分。越来越多的学者投身到运用大数据知识预测网络新闻欢迎度的热潮当中。然而,现在对于这方面的研究还不够成熟,对于网络新闻欢迎度的预测研究还在发展当中。Alexandru Tatar 等人对如何预测网页新闻欢迎度进行了探讨,引入和研究现在熟悉的网络新闻类别。他们发现不一样类别的网络新闻应当使用不一样的模型进行建模并进行模型性能的评估。Kelwin Fernandes等人研究了一个能够在新闻还没有发布的时候就能对其进行欢迎度分析的智能决策支持系统(IDSS )。Hensinger等人提出可以从不一样的网点出发来获取网络新闻的相关数据的方法。并且他们提出了应用排名支持向量机方法来估计网络新闻的受欢迎程度。
2. 研究的基本内容
本文的探讨重点是比较不同模型在预测网络新闻流行度的精确度,寻找评估成效最好的模型。同时,我们寻找对网络新闻流行度影响最大的几个因素,从而对网络新闻的撰写提出相关建议,使得新闻最受欢迎。首先,从网络新闻网站Mashable,提取UCI的数据集,初步处理数据,并且将网络新闻流行度数据集分为训练集和测试集。 然后,我们通过一般线性回归、支持向量回归、神经网络和回归树来估计一篇文章的预期分享的数量。并且通过分类算法如决策树、随机森林以及支持向量机算法来确定文章是否会受到欢迎。ROC图、AUC在本研究中被用来评价分类模型的效果。通过对每个模型的预测误差和准确率的比较,找出预测以及分类的最佳模型。最后,我们寻找对网络新闻流行度影响最大的几个因素,从而对网络新闻的撰写提出相关建议,使得新闻最受欢迎。
3. 实施方案、进度安排及预期效果
首先从uci机器学习库提取从2016年1月7日到2018年1月7日的新闻网站masable发表的所有文章的数据,包括了39797个观察值和61个变量。并且进行相关的数据处理、降低数据冗余度、去除噪声、判断是否存在缺失值等。
接下来建立回归模型包括线性回归、支持向量回归、神经网络和回归树来预测网络新闻的预期分享数量,通过比较不同模型在预测网络新闻流行度的精确度,寻找评估成效最好的模型。同时,建立分类模型包括分类决策树、随即森林以及支持向量机来判断网络新闻是否会受到欢迎。并且找出分类效果最佳模型。
最后本文根据对网络新闻欢迎度影响最大的几个因素为网络新闻撰写者提出相关有效建议。
4. 参考文献
[1] 张芳. 汽车喇叭声品质评价与分析. 重庆:重庆大学 2012
[2] 梁颖. 基于scada和支持向量回归的风电机组状态在线评估方法. 电力系统自动化, 2013
[3] 钟静. bp神经网络在基于数值模拟科学数据挖掘中的应用研究. 电子科技大学, 2006