登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 地理科学类 > 地理信息科学 > 正文

基于新浪微博平台的位置微博抓取技术研究毕业论文

 2020-06-20 19:04:34  

摘 要

近年来,微博结合位置服务LBS,使微博平台不断产生具有位置信息和时间信息的微博---位置微博。

目前现有的各个微博爬虫软件基本只针对微博内容,无法筛选并提取出位置微博。由于位置信息对GIS来说十分关键,为了给GIS的研究提供大量的数据,需要设计针对位置微博的爬虫系统。

本文通过对微博平台的分析,研究如何获取位置微博。数据获取方面使用以模拟登陆为前提的网络爬虫技术,使用VS中封装好的类爬取大量微博信息。数据分析方面选择了正则表达式,使用正则表达式筛选并分割出包含位置信息的位置微博。并进一步分割获取用户昵称、微博内容和位置名称信息。数据存储方面使用了Access数据库,实现数据库的删除、添加和更新。另外为了处理位置信息,使用百度地图API,通过调用位置信息批量处理接口将地名信息转化为经纬度信息,并通过WebGIS技术实现位置信息的可视化。最后以新疆地震为例展示了位置微博的爬取。

关键词:位置微博 爬虫 可视化

Research on location micro-blog crawling technology based on micro-blog Sina platform

Abstract

In recent years, Micro-blog integrated location service LBS, impel the micro-blog platform constantly produces micro-blog with location information and time information-Position micro-blog.

At present, the existing micro-blog crawler software is only targeted at micro-blog content, Unable to screen and extract location micro-blog. Because location information is critical to GIS, In order to provide a large amount of data for GIS's research, A crawler system for location micro-blog is needed.

This paper analyzes the micro-blog platform, Study how to obtain location micro-blog. In data acquisition, the network crawler technology based on simulated landing is adopted, Use the packaged classes in VS to crawl a large amount of micro-blog information. For data analysis, regular expressions are selected, Using regular expressions, filters and splits the location micro-blog containing location information. And further segmentation to obtain user nickname, micro-blog content and location name information. The Access database is used for data storage, To delete, add and update the database. In addition to processing location information, Using API of Baidu maps, By calling location information, batch processing interfaces are used to transform the place name information into latitude and longitude information, And the visualization of position information is realized by WebGIS Technology. Finally, taking the Xinjiang earthquake as an example, the climbing of position micro-blog is demonstrated.

Key word: location micro-blog;crawler; visualization

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景 1

1.2 研究现状 2

1.3 研究内容与方法 3

1.4 论文的组织结构 4

第二章 位置微博数据抓取方法 5

2.1 基于API的数据抓取 5

2.1.1 微博API介绍 5

2.1.2 API数据获取原理 5

2.2 网络爬虫抓取 7

2.2.1 模拟登陆 7

2.2.2 爬虫原理 7

第三章 位置微博爬虫系统实现 9

3.1 爬取网页 9

3.2 分析网页 10

3.3 保存网页信息 12

第四章 实验与应用 15

4.1 位置信息转换 15

4.1.1 地图引入 15

4.1.2 数据库连接 15

4.1.3 地理坐标处理 16

4.2 位置信息利用 18

4.3 实验成果 19

第五章 结论与展望 22

参考文献 23

致 谢 26

第一章 绪论

1.1 研究背景

现在是计算机产业高速发展的时代,GIS产业也伴随着计算机的发展迅速崛起。GIS已计算机为工具,处理具有地理信息的空间数据[1]。由此可见,足够的数据是GIS发展的前提。因此,GIS发展的重中之重就是迅速获取数据。

目前全球各大搜索引擎发展迅猛,数据库庞大,已基本可以满足人们日常生活中的信息获取和信息浏览的需求。虽然各大搜索引擎的索引都在持续扩充,但索引扩充的速度远不及网络膨胀的速度。就连全球范围内使用人数最多的搜索引擎谷歌也只能检索到30亿左右的网页,所以传统搜索引擎能检索到的数据十分有限,大概占所有网页的30%到40%[2]。既然传统搜索引擎无法满足GIS的数据要求,就需要一个新的途径快速获取大量数据。

在国外,为了获取大量实时数据许多学者对Twitter和Facebook等知名网络社交平台展开了一系列的研究[3-7],而在国内新浪微博是如今几个主流的互动交流平台之一,以其实时性、门槛低、弱关系、互动性、强扩散、原创性等特点很快占据了国内社交平台的领头地位。每天数以千万计的用户在新浪微博平台上发布信息,产生大量数据。如此规模庞大的数据量再加上免费且公开的数据获取方法。使得对微博数据的挖掘成为一个热门的研究方向[8]

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图