开源商务数据挖掘系统Weka功能与应用文献综述
2020-04-12 08:47:05
(1) 课题来源
本选题来源于江苏先锋信息科技有限公司委托,为电子商务外包企业提供大数据环境下的数据挖掘提供理论、方法和技术预研。在课题中,本人主要负责为Weka数据挖掘系统撰写使用说明,预期的研究成果可实际应用于电子商务企业经营服务和战略管理。
(2) 选题依据、背景情况
江苏先锋信息科技有限公司[1]作为BPO行业内的领先者,通过自身严格的业务流程和高保密性的执行为客户提供专业的外包服务。先锋信息科技以数据处理、呼叫、DM直邮、电子商务流程、网站内容建设、SP六项业务手段整合,为零售、化妆品、汽车、保险、金融、IT、慈善团体、快速消费品、电子、传媒、制药和电信行业提供整体解决方案。随着业务的不断发展,传统的数据处理技术已经不能满足需要。面对新情况,必须采用新的技术才能够有效地处理电子商务活动中的海量数据,从而得出有用的结论。
Weka, 全名为怀卡托智能分析环境(Waikato Environmen for Knowledge Analysis), 是一个基于 java、用于数据挖掘和知识发现的开源项目, 其开发者是来自新西兰怀卡托大学的 Ian H.Witten和 Eibe Frank。经过 12 年的发展历程, Weka 是现今最完备的数据挖掘工具之一, 而且被公认为是数据挖掘开源项目中最著名的一个, 每月下载次数已超过万次[2]。通常情况下, 在进行数据挖掘之前都要经过数据选择、预处理和数据转换等复杂的过程, 单单预处理一项, 没有资深的技术背景几乎是无法完成的。而 Weka 却使数据挖掘轻松易行, 无需编程也能轻松实现: 它提供了统一的用户界面, 可在任何数据集上应用各种预处理和数据挖掘算法, 同时还提供了数据可视化工具。
鉴于Weka工具的这些优势,本次毕业设计中主要想通过详细分析研究开源商务数据挖掘系统Weka的原理方法、功能结构、业务流程和应用情况,撰写使用说明,并且通过将其与世界主流数据挖掘系统对比,考察其对电子商务企业业务需求的适用性,以期为电子商务外包企业提供数据挖掘理论、方法和技术的预研,从而有效地帮助企业从海量数据中识别出最有价值的信息,并进行数据处理,为企业决策提供依据。