鉴定葡萄酒品质的数据挖掘方法比较开题报告
2021-12-12 14:10:34
1. 研究目的与意义及国内外研究现状
实际生活中,确定葡萄酒质量时基本是通过聘请一批有资质的评酒员进行品评,但是由于主观误差,使得这种方法产生的结果有较大的差异性。由于葡萄酒理化指标与所酿葡萄酒的质量有直接的关系,所以葡萄酒理化指标的研究分析对葡萄酒质量的鉴别有很重要的意义。随着科学技术的发展,我们可以采用数据挖掘方法来进行葡萄酒评级。
运用数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识。主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。数据挖掘中的主成分分析和决策树都可用作分类方法,但不同的方法在不同情景下发挥效用不同,哪个方法更适合,在葡萄酒分类中具有更优的分类效果是我们要探索的目的。
国内外研究现状
对于数据挖掘的概念 ,是在1989 年在美国底特律召开的第11 届国际人工智能联合会议专题讨论会上,首次提出了“数据库中的知识发现(kdd)”。1995 年召开了第一届知识发现与数据挖掘国际学术会议,随着与会人员的增多,kdd 国际会议发展为年会。与传统的数据集相比,大数据通常包含大量的非结构化数据,且需要更多的实时分析。现如今,基于大数据的应用几乎渗透了绝大部分领域,所谓的大数据应用,就是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。有机构预测,“大数据”的蓬勃发展,将会为社会各个行业带来极大的变革。1998 年在美国纽约举行了第四届知识发现与数据挖掘国际学术会议,不仅进行了学术讨论,而且30 多家软件公司展示了自己的产品,比如,ibm 公司研制的intelligent miner,用来提供数据挖掘的解决方案;spss 股份公司开发了基于决策树的数据挖掘软件clementine;oracle 公司开发的darwin 数据挖掘套件,另外还有sas公司的enterprise 和sgi 公司的mine set 等。现代社会经济利益成为主要的推动力,ibm、oracle、微软、谷歌、亚马逊、facebook、teradata、emc、惠普等跨国巨头也因大数据技术的发展而更加具有竞争力。
2. 研究的基本内容
首先对数据挖掘方法进行了较好的学习和理解,根据国内外研究现状和方法,使用了UCI中的wine数据集来进行研究分析,对该数据集中的葡萄酒数据包括了1599个红葡萄酒样本的11个输入变量,1个输出变量,本文中主要采用数据挖掘的神经网络和支持向量机模型对葡萄酒质量的鉴别做一个简单的分析与判断,对11个葡萄酒理化指标变量作相关性分析,发现若干变量具有较强相关性,我们挑选出部分相关性较大的变量两点之间的散点图,进一步进行分析比较。之后分别进行神经网络和支持向量机分类建模,采用较为常用的神经网络模型,和RBF,多项式,Sigmoid,线性内核的支持向量机模型对比分析,通过反复的训练和测试,寻找此处建模最优的核函数。在神经网络模型和支持向量机模型中采用了同样的70%训练集和30%测试集的划分,并且将葡萄酒分级按质量等级编号,从而进行建模。支持向量机二分类建模中,在特征空间中寻找其最优超平面,将两类样本有效的分开。分析对比两种方法所得结果,寻找更优分类模型,并针对在此处使用的数据和建模方法,进行总结和思考,寻找可以改进的措施。
3. 实施方案、进度安排及预期效果
1.数据处理和描述
建立模型之前首先观察数据属性和各自特点,给出描述性分析,并观察其相关性进行相关性分析,观察相关系数绘出相关性较大的变量间散点图,解释和寻找造成这种相关性的原因。
2.查阅资料和分析
4. 参考文献
[1]王文静.感官评价在葡萄酒研究中的应用[j].酿酒,2007,34(4):57-59.
[2]王金甲,尹涛,李静等.基于物理化学性质的葡萄酒质量的可视化评价研究[j].燕山大学学报,2010,34(2):133-137.
[3] cortez p, cerdeira a, almeida f, et al.. modeling wine preferences by data mining from physicochemical properties [j]. decision sup-port systems, 2009,47 (4): 547-553.