基于大数据挖掘的医疗仪器计量数据分析毕业论文
2020-07-01 21:11:40
摘 要
数据挖掘在大数据时代已经是一个很熟悉的名词,本文将挖掘技术和医疗仪器结合,更好得对医疗仪器检定数据特征进行分析,从而进一步评价医疗仪器的质量高低。
本文首先介绍了数据挖掘的理论及技术背景,其次介绍了如何搭建Spark Hadoop大数据分析平台,为实际应用场景提供技术支持以及开发环境,然后利用几种主流的机器学习分析算法,对清洗好的医疗仪器检定数据做进一步的快速、准确的深度分析工作,并简单比较了一些分析算法的差异。最后通过大数据可视化分析平台Zeppelin,对分析结果做了更形象化的展示工作。
数据挖掘是大数据时代下最为热门的技术之一,如何利用好挖掘平台,对海量数据做出高效的分析工作,挖掘出潜在的信息是本课题的研究重点。
关键词:数据挖掘 Spark 分类 聚类 Zeppelin
Data analysis of medical instrument Metrology Verification Based on big data mining
abstract
Data mining is a familiar noun in the field of big data. This paper combines mining technology with medical instruments to better analyze the characteristics of medical instrument verification data so as to further evaluate the quality of medical instruments.
First,this paper introduces the theoretical and technical background of data mining, and also introduces how to build a Sparkamp;Hadoop large data analysis platform to provide technical support and development environment for practical application scenarios. Then several mainstream machine learning analysis algorithms are used to make further rapid and accurate analysis of the cleaned medical instrument verification data, and compare the differences of some analysis algorithms. Finally, through the big data visualization analysis platform Zeppelin, the results of the analysis are displayed more vividly.
Data mining is one of the most popular technologies in the field of big data. How to use a good mining platform to make efficient analysis of the data in our hands and to dig out potential information is the focus of this research.
Keywords: Data mining;Spark;Classification;Clustering;Zeppelin
目录
摘 要 I
abstract II
第一章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 1
1.2.1医疗设备检定 1
1.2.2数据挖掘 2
1.3课题研究内容 3
1.4论文结构 3
第二章 课题相关技术 5
2.1 Hadoop分布式计算平台 5
2.1.1 Map-Reduce 5
2.1.2 HDFS 6
2.2 Apache Spark计算框架 6
2.3 Zeppelin 8
2.4开发环境的搭建 9
第三章 医疗仪器检定数据整理 12
3.1文档操作库-POI 12
3.2数据的整理 12
3.2.1检定证书的解读 12
3.2.2使用POI读取表格数据 14
3.3本章小结 17
第四章 数据分析 18
4.1逻辑回归分类 18
4.1.1原理介绍 18
4.1.2使用Spark Mlib分类B超仪器 20
4.2两种档次仪器的方差对比 23
4.3 Kmens聚类分析 24
4.3.1原理介绍 24
4.3.2使用Spark Mlib聚类 25
4.4 Kmeans聚类和逻辑分类的比较 26
4.5集成系统展示 27
第五章 数据可视化 29
5.1 Spark解释器中临时表的创建 29
5.2频数分析及异常值检定 31
5.3不同厂商仪器质量对比 33
第六章 总结与展望 37
6.1总结 37
6.2展望 37
参考文献 38
致谢 39
绪论
1.1研究背景及意义
现代医学临床诊断和治疗都多多少少离不开医疗设备的支撑,医疗设备也逐渐在医疗过程中扮演着越来越重要的角色[2]。医疗设备也正体现着当今医院的整体实力[3]。现在医院的整体实力水平、科研水平、管理能力的极大提升,离不开医疗设备在其背后的支撑[4]。大数据时代下,数据是可以换成钱来衡量的。人们可以从其中发掘越来越多的宝藏。现代信息技术的快速发展与广泛应用,使得现代化医疗设备在结合传统数据分析的基础上,利用挖掘的有效信息、来衡量仪器的质量高低,从而再生产商下一步的生产中,更好得提高医疗设备的质量。但目前医院大型医疗设备的计量数据并没有很好地被利用起来,他们只在对患者的治疗过程中起到了一定的作用,并没有对设备的后期维护及再生产提供任何的有效信息,使得数据只是数据。
医疗设备作为社会中必不可少的存在,每天都会产生海量的数据,以各种各样的形式存储起来。通过数据分析、挖掘的方式,为医院、其他医疗行业或是医疗仪器设备生产商,去发现这些检定数据的潜在价值,帮助医疗单位后期对设备的维护、厂商对质量的把控等提供帮助和提升空间[5]。本课题就是在这样的背景下产生的。
1.2国内外研究现状
1.2.1医疗设备检定
医疗仪设备的数据检定、计量工作对医疗仪器诊断的准确性发挥了很大的作用,保证了医生对病人病情的准确分析,同时也减少了医闹事件的发生。
医疗设备计量管理现状存在很多问题,目前很多医院对医疗安全十分重视,但在医疗设备的检定方面却不愿意花更多精力、经费去进行管理。很多医院会通过何各种手段规避仪器的定期检查,包括将仪器列为报废、停用等手段;同时有的医院在医疗设备检定方面的意识不够,认为新购的仪器刚刚出厂,有质量保证,不会出现质量方面的问题,同时认为坏了的设备修修好就能够投入使用,殊不知医疗设备是精密仪器,任何方面的原因都可能造成仪器的精密度不够,导致检定数据存在一定程度上的误差。
相关图片展示: