基于Pyspider框架的NBA比赛预测系统开题报告
2022-01-09 21:45:42
全文总字数:1984字
1. 研究目的与意义及国内外研究现状
pyspider是一个国人编写的强大的网络爬虫系统并带有强大的webui。它采用python语言编写,分布式架构,支持多种数据库后端和脚本编辑器,并可以在线提供爬虫服务。我们利用pyspider框架实现对网页数据的爬取。
单一数据本身的价值是不大的,通过大量数据进行预测性分析却具有很高的社会价值。目前的数据预测领域的应用已经涵盖考试预测、竞技比赛预测、经济指数预测等领域。
综合各种因素,本次课题旨在采用一套较为方便、高效的技术方案:利用pyspider框架,爬取近些年nba球队数据,通过分析,得到每场比赛两支球队的比赛特征,然后利用logistic regression方法建立回归模型,并利用训练好的模型对比赛结果进行预测,继而实现一个可以展示每场赛季比赛结果的预测系统。国内外研究现状
2012年,卡内基-梅隆大学的两名华裔学生利用经过预处理的历史数据和支持向量机方法对当年的比赛进行预测,仿真结果和现实十分接近;2015年,一个叫做unanimous的人工智能公司推出一个“unu平台”,采用所谓“人群算法”,通过模拟人类群体行为来实现人工智能,对体育赛事的胜负结果进行预测,结果在季后赛开打前就准确命中了夺冠球队,一时令博彩业界哗然。
2. 研究的基本内容
1.基于pyspider的球队数据爬取和存储。
2.数据预处理,包括获取每支球队的elo等级分,统计数据,并将其作为作为比赛数据的特征向量。
3.预测模型分析及选取。
3. 实施方案、进度安排及预期效果
实行方案:首先对比赛预测系统进行可行性分析、需求分析和总体设计,并对系统进行详细设计,包括具体的各个模块的关键功能代码,数据库设计等;之后,利用pyspider框架实现对数据的爬取并对进行预处理;整理相关预测模型的优缺点,并利用合适的模型和预处理后的数据对新赛季的比赛结果进行预测;当得到比赛结果后,先独立完成系统各个模块的实现,再进行整体链接,包括数据库的链接;最后,在系统整合阶段,通过调试不断优化完善系统功能。
进度:
2018年1月1日至2018年1月14日开题报告撰写
4. 参考文献
[1] 欧阳梅生《基于elo算法的竞技项目评价体系研究 》武汉理工大学硕士论文 2013-04-01 p02-p05
[2] 孙赫《nba球队战绩影响因素分析》首都贸易大学硕士学位论文 2015-03 p1-p49
[3] 熊畅《基于python爬虫技术的网页数据抓取与分析研究》数字技术与应用 2017-09-15p28-p33