数据挖掘教程外文翻译资料
2022-10-10 14:38:03
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
数据挖掘教程
塞思保罗
杰米 麦克伦南
唐昭辉
斯科特 欧俉桑
摘要:微软的SQL Server trade; 2005年提供了一个综合完整的环境,用于创建和从事数据挖掘模型工作。本教程使用如下四个实例:目标邮购,数据预测,购物篮,序列簇用来演示阐述如何使用挖掘模型算法,挖掘模型浏览器,和数据挖掘工具,这些是包含在本次发布的SQL Server中。
在本文件所载的信息,代表了当前微软公司对于出版日期的讨论的看法。因为Microsoft必须响应不断变化的市场条件,它不应被解释为是一种代表微软的承诺,微软和Microsoft不能保证出版日期后提出的任何资料的准确性。
本白皮书仅供参考,对于本文件中的资讯,Microsoft不作任何担保,明示或暗指。
遵守所有适用的版权法是用户的责任。在没有版权的情况下,未经微软公司明确的书面许可,不得以任何形式或以任何方式(电子,机械,影印,录音或其他方式)或为任何目的而复制,储存或引入检索系统,或传输本文件任何一部分。
本文件中可能涉及到微软的专利,专利申请,商标,版权或其他知识产权事项。除明文规定外的任何书面许可协议,微软提供的这份文件没有给你任何许可这些专利,商标,版权或其他知识产权。
@ 2003年微软公司。保留所有权利。
微软既是一个注册商标又是微软公司在美国和/或其他国家的商标。
文中提到的公司和产品的名字可能是它们各自所有者的商标。
介绍
数据挖掘教程的目的是引导您通过微软SQL Server 2005创建数据挖掘模型 。该数据挖掘算法和工具,在SQL Server 2005可以很容易地建立一个全面的解决方案的各种项目,包括购物篮分析,预测分析,和邮购分析。对这些解决方案的描述在教程中有更详细的解释。
SQL Server 2005最明显的部分是用来创建和处理数据挖掘模型的工作室。在线分析处理( OLAP )和数据挖掘工具被统一为两个工作环境:商业智能开发工作室和SQL Server 管理工作室。通过商业智能开发工作室,您可以在与服务器断开连接的情况下建立一个服务项目分析。当项目已经准备就绪,您可以发布到服务器上。您也可以直接面向服务器工作。SQL Server 管理工作室的主要职能是管理服务器。之后将有针对每一个环境的详细说明。欲了解更多关于从两个环境中选择的信息,请参看SQL Server联机丛书中的“在SQL Server 工作室和商业智能开发工作室中选择”。
所有的数据挖掘工具中存在的数据挖掘编辑器。使用编辑器,您可以管理挖掘模型,创造新的模式,以期车型,比较模型,并建立预测的基础上现有的模式。
当您建立一个挖掘模型后,你会想要探索它,寻找有趣的模式和规则。编辑器中每个挖掘模型视图都被定制为由具体算法创建的探索模型。欲了解更多关于视图的信息,请参看SQL Server联机丛书中的“查看数据挖掘模型”。
您的项目往往会包含多个挖掘模型,所以才能使用的模式创建的预测,你要能够确定哪些模式是最准确的。出于这个原因,编辑包含一个模型比较工具挖掘精度的图表标签。使用此工具,您可以比较准确的预测模型和您确定最佳模式。
为了建立数据预期,你将使用一种 DME语言,DMX扩展了传统的SQL语法,包含了一些创建修改和建立数据预期的命令,关于DMX的详细信息,请参考SQL BOL中的 “Data Mining Extensions (DMX) Reference”章节。因为建立一个数据预期可能比较复杂,所以数据挖掘编辑器包含了一个工具叫做 “Prediction Query Builder”, 该工具可以让你在一个图形化的界面下编辑DMX查询语句,你也可以在该工具中可以查看自动生成的DMX语句。
了解了前面介绍的实现数据挖掘的工具之外,同等重要的是了解数据挖掘模型的结构本身,建立一个数据模型的关键是数据挖掘算法,该算法在你操作的数据中寻找我们需要的部分,并且转换这些数据成为一个可操作的数据模型,SQL2005 包含9中数据模型算法:
决策树
簇
传统贝叶斯
序列簇
时间系
联结
神经网络
线性回归
逻辑回归
组合的使用这9种数据算法,你能够创建适应大部分商业逻辑的数据挖掘解决方案,本教程将详细的介绍这些算法。
一些很重要的建立数据挖掘解决方案的步骤是用来整理准备那些用于建立数据模型的数据,SQL2005包含一个DTS的工作环境以及一些DTS的工具用于清理验证准备数据,关于DTS的更多信息请查看SQL BOL中的'DTS Data Mining Tasks and Transformations'章节。
为了阐述SQL2005中的数据挖掘特性,本教程使用了一个新的示例数据库AdventureWorksDW ,该数据库包含在 SQL2005中它提供OLAP以及数据挖掘的一些实例数据。为了使用这个数据库你需要在安装SQL的时候选择它。
Adventure 数据库
AdventureWorksDW 数据库是基于一个虚构的自行车制造公司而建立,公司的名称叫做 “Adventure Works Cycles”(简称AW公司)。AW公司生产并向北美,欧洲和亚洲的商业市场销售金属和复合材料的自行车,主要的工作都在华盛顿Bothell完成,那里拥有 500 员工,以及一些地区销售部门遍及各地。
AW公司通过INTERNET批发和零售他们的产品,本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。
关于AW公司数据库的更多信息,请参考SQL Server联机丛书中的如下章节:'Sample Databases and Business Scenarios'。
数据库详细信息
网络销售数据构架包含9242个客户的信息,这些客户分布在6个国家,并被合并为3个区域:
南美 (83%)
欧洲 (12%)
澳大利亚 (7%)
该数据库包含三个财政年度的数据: 2002年, 2003年和2004年。
数据库中的产品根据子类别,型号和产品来分类。
商业智能开发工作室
商业智能开发工作室是一套用于创建商务智能项目的工具。由于商业智能开发工作室是创建于IDE环境中的,在该环境中,你可以在脱机状态下创建一个完整地解决方案。你可以想改多少数据挖掘对象就改多少,但是在你发布该项目前,这些改变将不会反映在服务器上。
在商业智能开发工作室下工作是有益的,理由如下:
您具有强大的可定制的工具来配置商业智能开发工作室以满足您的需要。
你可以将各种数据挖掘技术与SSAS项目集成,在同一个工具中完成一个全面的解决方案.
强大的源码以及版本控制支持使你的团队可以协作的建立一个解决方案.
建立一个SSAS项目是所有商业智能项目的基础,一个SSAS项目独立的建立一个SSAS数据库用于集成多种技术,这个数据库作为数据挖掘模型以及OLAP等技术的基础。你可以使用商业智能 建立和修改一个SSAS项目并部署这个项目到一个或多个SSAS服务
如果你在开发一个SSAS项目你也可以使用商业智能开发工作室直接连接数据库,这样你所作的改动可以立刻影响到数据库中。
SQL Server 管理工作室
SQL Server 管理工作室是一个与微软SQL Server协作的管理和脚本工具的集合。这个工作室与商业智能开发工作室的不同在于,你是在一个联机的环境下工作,一旦你保存工作,你的行为就被传送到服务器上。
在数据被清理并为数据挖掘准备好后,大多数和创建苏局挖掘解决方案相关联的工作都在商业智能开发工作室中工作。通过使用商业智能开发工作室,你可以利用迭代过程确定的给定情况下的最佳模式来发布和测试数据挖掘解决方案。一旦开发商对解决方案满意,就可以将其发布到分析服务服务器。
从这点来看,重点从SQL Server管理工作室的开发转移到了维护和应用。在SQL Server管理工作室中,您可以管理您的数据库和执行一些在商业智能开发工作室中的相同的职能,比如在挖掘模式中查看、创建预测。
数据转换服务
在SQL Server 2005中数据转换服务( DTS )包括抽取,转换和加载(简称ETL )工具 。这些工具可用于执行一些数据挖掘中最重要的任务,为数据模型的建立清理和准备数据。在数据挖掘,您通常可以执行重复数据转换清理数据,然后利用这些数据组成挖掘模型。利用DTS中的任务和转移,您可以把数据准备和模型建立结合为一个单一的DTS包。
DTS公司还提供了DTS设计器,以帮助您轻松地建立和运行的包含了所有的任务和转变的软件包。利用DTS设计器,您可以将包发布到服务器上并定期的运行他们。这是非常有用例如,你每周收集数据资料,并向要每次自动执行相同的清洁转换工作。
你可以通过向商业智能开发式的解决方案中分别增加项目来将数据转换项目和分析服务项目结合起来工作,作为商务智能解决方案的一部分。
挖掘模式算法
数据挖掘算法是挖掘模型的创建的基础。SQL Server 2005中各种各样的算法可以让你执行多种类型的执行。欲了解更多有关算法及其参数调整的信息,请参看SQL Server联机丛书中的“数据挖掘算法”。
决策树
决策树算法支持分类与回归并且对预测模型也行之有效。利用该算法,你可以预测离散和连续这两个属性。
在建立模型时,该算法检查每个数据集的输入属性是怎样的影响预测属性的结果,以及使用最强的关系的输入属性制造了一系列的分裂,称为节点。随着新节点添加到模型中,树状结构开始形成。顶端节点树描述了大多数预测属性的统计分析。每个节点建立把预测属性比作投入的属性的分布情况上。如果输入的属性被视为导致预测属性有利于促成比另一个更好的状态,于是一个新的节点添加到模型。该模型继续增长,直到没有剩余的属性制造分裂提供了一个更好的预测在现有节点。该模型力图找到一个结合的属性和引起在预测属性不成比例分配的状态,因此,您可以预测预测属性的结果。
簇
簇算法采用迭代技术组从包含相似特性的数据及中进行分类。利用这些组合,您可以探讨的数据,更多地了解存在的关系,这在理论上可能不容易通过偶然的观察获得。此外,您也可以从算法创建的簇建立预测模型。例如,考虑那些住在同一社区,驱动器相同的车,吃同样的食物,买了类似的版本的产品的那一个群体的人。这是一组数据。另一组可能包括去相同的餐厅,也有类似的薪金,休假和每年两次以外的地区的人。观测这些集合是如何的分布,可以更好地了解预测属性的结果是如何相互影响的。
传统贝叶斯
传统贝叶斯算法迅速的建立挖掘模型,可用来做分类和预测。它适合各个输入属性情况的可能情况,并考虑到每种预测属性的情况,以后可以在已知的输入属性的基础上来预测预测属性的结果。概率用来生成计算和储存加工过程中的立方体的模型。该算法只支持分立或离散属性,以及它认为所有输入的属性是独立的。传统贝叶斯算法产生一个简单的挖掘模型,可以被视为在数据挖掘过程中的一个起点。由于大多数的计算结果是立方体处理的过程中生成的,结果很快返回。这使得该模型成为探索数据和发现各种不同的输入属性在不同预测属性的情况下是如何分布的一个很好的选择。
时间系
时间系算法创建可以用来预测连续变量随着时间的推移从联机分析处理和关系数据源的模式,。例如,您可以使用时间系预测算法历史数据立方体的基础上来预测销售额和利润。
利用该算法,您可以选择一个或多个变量来预测,但他们必须是继续的。对每个模式您只能有一系列案例。一系列的案例等同于一系列位置,诸如寻求销售的长度的日期超过几个月或几年。
一个例子可能包含了一套变量(例如,销售不同的商店) 。时间系算法可以在预测中使用跨变量。例如,在一个商店的先售可能在预测另一个商店的当前销售时也有用。
联结
联结算法是专门设计用于市场篮子分析。该算法认为每个属性/值配对(如产品/自行车)作为一个项目。一个相集是在单一事务的项目上的一个组合。该算法通过扫描数据集试图找到往往出现在许多交易的项目集。出现在很多交易项面前的支持参数确定被认为是重要的。例如,频繁项目集可能包含(性别= “男性” ,婚姻状况= “已婚” ,年龄= “ 30-35 ” ) 。每个项目集包含项目的数量都有个大小。在这种情况下,大小是3 。
往往联结模式在包含嵌套表的数据集之后工作,如客户名单在一个嵌套的购买列表后。如果一个嵌套表中存在数据集,每个嵌套的建制(如在购买表的产品)被认为是一个项目。
算法同时找到项目集之间的联系。关联模型的规则看起来像A,B= gt;C (发生概率的联系)
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151597],资料为PDF文档或Word文档,PDF文档可免费转换为Word