四节一环保大数据修复算法设计与实现开题报告
2020-02-10 23:38:24
1. 研究目的与意义(文献综述)
当前人类社会已经进入大数据时代,无论是交通还是医疗,都无时无刻不在产生数据,并且随着硬件的发展数据正在以越来越快的速度进行增长。大数据呈现4v特性:分别是数据体量巨大( volume) 、数据类型繁多( variety) 、价值密度低 ( value) 、处理速度快( velocity)。正是这样的特性导致了,如果没有正确的数据,我们很难从这样低密度的数据中得出有价值的信息。
进几年来我国开始大力提倡“四节一环保”,即建筑节水、建筑节地、建筑节能、建筑节材、保护环境,为此各省市相继开展了一系列的大型公共建筑能耗监管平台、分项能耗计量等工作,楼宇自控系统( bas) 及建筑能源管理系统( bems) 发展迅速且日渐应用广泛,这些系统每天产生大量的监测数据,覆盖建材生产消耗、建筑运行消耗等各个方面。这些数据对优化建筑能耗、提升建筑性能、节约资源、保护环境等具有极其重要的意义。然而现实中由于探测器往往处于建筑工地或者处于户外,加上天气多变,所以返回的数据往往夹杂许多“脏数据”包括数据一致性错误、数据缺失、数据异常。这些脏数据会对数据挖掘的结果产生很大的影响。传统关系型数据库对脏数据的处理往往只是删除、或者只进行简单均值填充,这样做可能会与原来的数据产生较大出入。因此对脏数据进行修复也是一项很有必要的工作。
目前已有的研究中,数据挖掘应用于建筑领域的相关研究主要集中于运用数据挖掘算法进行规律的挖掘,如建筑能耗分析、能耗与负荷预测、故障诊断、优化运行控制等方面,而对于数据预处理的研究及成果有限,数据预处理体系尚未建立。当前能耗监测平台对异常数据的判定多采用阈值法,该方法简单方便易操作,但对于部分未超过阈值但由于电表缺数、汇总错误等原因造成异常无法有效地识别。对于医疗、交通领域的数据预处理多采用机器学习的方法对异常数据进行判断,并通过深度学习的方法,对缺失数据进行修复补充。
2. 研究的基本内容与方案
内容:
研究如何利用机器学习算法结合传统数理分析知识对建材生产消耗、建筑运行消耗等建筑数据中的异常数据、缺失数据、错误数据等进行智能识别,并且研究如何对缺失数据进行智能修复。
3. 研究计划与安排
(1)2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1]丁晓鸥,王宏志,张笑影等. 数据质量多种性质的关联关系研究[j]. 软件学报,2016,no.7,p1626-1644
[2]宗威,吴峰. 大数据时代下数据质量的挑战[j]. 西安交通大学学报(社会科学版),2013,no.5,p38-43
[3]赵文轩,李春旺. 关联数据质量评价方法研究综述[j].情报理论与实践,2016, no.2,p134-138