基于网络爬虫的社交网络数据分析系统设计与实现开题报告
2021-03-11 00:00:52
1. 研究目的与意义(文献综述)
随着互联网科技的飞速发展,社交网络逐渐成为人们互相交流的重要平台,一如各种论坛、腾讯qq、博客是的人们获取信息、交流信息变得异常容易,尤其是微博,微博在实时交流和传播消息方面速度非常的快,也吸引了大量的用户群体使用这个平台。中国互联网络信息中心(cnnic)发布的第39次《中国互联网络发展状况统计报告》显示,截至2016年12月,中国网民规模达7.31亿,互联网普及率达到53.2%,手机网民占比达95.1%。2016年,直播、视频相关业务在移动互联网的快速发展迅速引爆全行业。尤其是网络红人在2016年上半年的爆炸式发展,都使微博作为社交媒体的平台性作用不断凸显。微博在2016年月活用户明显增长,各大行业领域的覆盖面不断扩大,在新闻舆论、综艺娱乐等方面继续保持绝对影响力,同时,在视频、旅游、体育等领域也得到进一步的延伸,微博的平台性作用进一步彰显。
微博是一个基于用户关系信息分享、传播以及获取的平台。微博作为一种分享和交流平台,其更注重时效性和随意性。最早也是最著名的微博是美国twitter,到2007年5月,国际间计算总共有111个类似twitter的网站。2009年8月中国门户网站新浪推出“新浪微博”,成为门户网站中第一家提供微博服务的门户网站,微博正式进入中文上网主流人群视野。随着微博在网民中的日益火热,在微博中诞生的各种网络热词也迅速走红网络,微博效应正在逐渐形成。面对层出不穷的微博热点,2013年5月2日,微博推出全新版“热门话题榜”,新版“热门话题榜”通过排行机制帮助网友更好的查看热点,参与热点,使得网民对网络热点的讨论更加有据可依。“热门话题榜”是对特定时段内各个微博话题活跃程度的客观反映,直接呈现出微博上的核心内容。通过这个榜单,微博用户可以获知目前的最新热点,获取第一手咨询。可以说,“热门话题榜”已经成为了网络热点的风向标,透过榜单可以对网友关注方向和兴趣进行实时聚焦。
社交网络中的数据挖掘应用很重要,利用python实现提取新浪微博的热门话题和参与话题用户的数据,通过提取的数据进行分析,根据得出的结果为用户推荐同类话题或者得到用户最感兴趣的话题,从而使得新浪微博的话题功能可以更好地为人们所用。
2. 研究的基本内容与方案
设计的基本内容和目标:基于python的网络爬虫爬取新浪微博的热门话题和参与话题用户的数据;通过提取的数据分析得到归类同类话题,为用户推荐同类话题或得到用户最感兴趣的话题。
技术方案:本题分为两大部分来进行:提取数据和分析数据。基于网络爬虫提取新浪微博的话题数据可以通过python调用新浪微博api接口或者python模拟登陆新浪微博。使用python调用api接口,首先要下载python的sdk,之后申请新浪微博的appkey(要通过新浪的oauth认证)最后就可以编写python代码来调用api接口了。
python模拟登陆新浪微博分析请求登陆过程:1.请求登陆login.php页面前的参数获取;2.请求登陆login.php页面前的参数分析;3.提交post请求时的参数。分析数据则是利用数据挖掘原理和方法:聚类分析。聚类分析是数据挖掘中的一个重要研究领域,所谓聚类就是把没有类别标记的若干样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽可能小。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。
3. 研究计划与安排
第1-3周:收集、整理选题相关的文献资料,完成、完善方案论证,撰写开题报告;
第4-5周:认真学习选题相关的知识、理论和算法实现等,熟悉软硬件环境;
第6-9周:建立软硬件仿真模型、完成程序编写、仿真实验等,并做好相关记录及分析;
4. 参考文献(12篇以上)
[1] 卢体广,刘新,刘任任. 微博数据通用抓取算法[j]. 计算机工程, 2014:12-20.
[2] 吴黎兵,柯亚林,何炎祥,等. 分布式网络爬虫的设计与实现[j]. 计算机应用与软件, 2011:176-179.
[3] 孙晓莹,李大展,王水. 国内微博研究的发展与机遇[j]. 情报杂志, 2012:25-33.