大数据研究和应用现状及发展文献综述
2020-04-12 08:47:14
文献综述
”大数据” 这个术语最早可追溯到apache org的开源项目Nutch。当时,大数据用来描述大量数据集。而与近年来所说的”大数据”含义最近的是2008年9月杂志《Nature》上的”Big data”专刊,从各方面介绍了”大数据”带来的挑战,现状以及未来发展趋势。自EMC赞助IDC发布”数字宇宙”系列专题报告来,提出庞大的”数字宇宙”中包含大量非结构化和半结构化数据。2011年发布一篇名为”从混乱中挖掘价值” 的报告,自此,才正式出现”Big data”这个词语。
直到2011年5月的”云计算相遇大数据”主题大会上EMC抛出”大数据”概念,”大数据”才真正成为热点。差不多同时,全球知名咨询公司麦肯锡在研究报告《下一个前沿:创新﹑竞争和生产力》指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,在业界引起巨大反映。国际顶级学术刊物又相继出版专刊来专门探讨对大数据的研究。2011年Science推出”Dealing with data” 专刊,讨论数据洪流带来的挑战。2012年4月欧洲信息学与数学研究协会会刊ERCIM News出版专刊”Big Data”,讨论大数据背景下的数据管理,数据密集型研究等问题。随着大数据在国外日益受重视,国内也开始积极关注大数据。2012年5月,香山科学会议组织了学术研讨会,并就大数据的理论与工程技术研究,应用及大数据研究的组方式进行了深入探讨。6月,”大数据时代,智谋未来”学术报告会开展,就大数据时代的数据挖掘,安全,平台开发等进行了全面探讨。7月,”第二届大数据世界论坛”在北京召开,同月首届中国大数据应用论坛在北京大学召开。
同时,大数据也引起了发达国家政府的极大关注。2012年3月,美国政府公布了”大数据研发计划”,旨在协助加速美国在科学﹑工程上发展的步伐,强化美国国土安全,转变教育和学习模式。
目前,基于大数据的文献资料主要分为三大类:一是大数据现象,二是大数据相关技术,三是大数据对各行业的影响。大数据现象主要简述了大数据时代背景,大数据4V特征,大数据伴生的机遇以及对未来市场的预测等等。大数据相关技术主要分析研究以Google的GFS和Hadoop的HDFS和NoSQL为基础的大数据存储技术,数据挖掘算法优化,可视化技术等等。同时分析了大数据对通信运营行业以及金融行业等的影响,为其做出更好的投资决策和判断。
根据对现有资料的研究分析可知,近两年来,大数据研究是重点。但主要研究还是围绕大数据这个现象及其相关行业,或者是针对数据处理的某一环节的关键技术进行研究。真正以大数据为关键词的研究偏少,并且研究不够系统,基础理论不够全面。并且可以看出,国内对大数据的研究起步较晚,基础比较薄弱。
主要参考文献
[1] 百度百科.大数据[EB/OL].http://baike.baidu.com/view/6954399.html,2012.12.22
[2] Cory Doctorow .Big Data[J]. Nature, 2008, 455(7 209): 16~21