Andriod平台语音搜索和相关服务功能的开发外文翻译资料

2021-12-16 23:17:38

英语原文共 41 页

摘要

从大型数据库中挖掘信息和知识已被许多研究人员认可为数据库系统和机器学习中的关键研究课题，并被许多工业公司视为具有重大收入机会的重要领域。研究人员

在许多不同的领域，人们对数据挖掘表现出极大的兴趣。信息提供服务中的一些新兴应用，例如数据仓库和因特网上的在线服务，还要求各种数据挖掘技术以更好地理解用户行为，改进所提供的服务并增加商业机会。针对这种需求，本文将从数据库研究人员的角度对最近开发的数据挖掘技术进行调查。提供了可用数据挖掘技术的分类，并且给出了这些技术的比较研究。

1简介

近年来，我们生成和收集数据的能力一直在迅速增长。条形码在大多数商业产品中的广泛使用，许多商业和政府交易的计算机化以及数据收集工具的进步为我们提供了大量数据。数百万个数据库已用于企业管理，政府管理，科学和工程数据管理以及许多其他应用程序。值得注意的是，由于具有功能强大且价格合理的数据库系统，此类数据库的数量不断增长。数据和数据库的这种爆炸性增长迫切需要能够智能地自动将处理后的数据转换为有用信息和知识的新技术和工具。因此，数据挖掘已成为一个日益重要的研究领域。

数据挖掘，也称为数据库中的知识壁架发现，意味着一个非常重要的提取隐含的，以前未知的和可能有用的信息的过程（例如

来自数据库中数据的知识规则，约束，规律性。还有许多其他术语出现在一些文章和文档中，具有相似或略有不同的含义，例如从数据库中获取知识壁架，知识壁架提取，数据考古，数据挖掘，数据分析等。通过数据库中的知识发现，可以从数据库中的相关数据集中提取有趣的知识，规律或高级信息，并从不同角度进行调查，从而大型数据库成为知识生成和验证的丰富和可靠的来源。从大型数据库中挖掘信息和知识已被许多研究人员认可为数据库系统和机器学习中的关键研究课题，并被许多工业公司视为具有重大收入机会的重要领域。发现的知识可以应用于信息管理，查询处理，决策制定，过程控制和许多其他应用程序。许多不同领域的研究人员，包括数据库系统，知识库系统，人工智能，机器学习，知识获取，统计，空间数据库和数据可视化，都对数据挖掘表现出极大的兴趣。此外，信息提供服务中的一些新兴应用，例如在线服务和万维网，还要求各种数据挖掘技术以更好地理解用户行为，改善所提供的服务并增加商业机会。

针对这种需求，本文将对几个研究团体开发的数据挖掘技术进行调查，重点是面向数据库的技术和在应用数据挖掘系统中实现的技术。还提供了可用数据挖掘技术的分类，其基于要挖掘的数据库的种类，要发现的知识的种类以及要采用的技术的种类。该调查按照要开采的知识种类的分类方案进行组织：

1.1数据挖掘面临的要求和挑战。

为了进行有效的数据挖掘，需要首先检查应用知识发现系统应具有哪种特征，以及在数据挖掘技术的发展中可能面临哪些挑战。

1处理不同类型的数据

由于在不同的应用程序中使用了多种数据和数据库，因此可以预期知识发现系统应该能够对不同类型的数据执行有效的数据挖掘。由于大多数可用数据库是关系型的，因此数据挖掘系统对关系数据执行有效且有效的知识发现至关重要。

此外，许多适用的数据库包含复杂的数据类型，例如结构化数据和复杂数据对象，超文本和多媒体数据，空间和时间数据，事务数据，遗留数据等。强大的系统应该能够执行有效的数据挖掘在这些复杂类型的数据上也是如此。然而，数据类型的多样性和数据挖掘的不同目标使得期望一个数据挖掘系统处理各种数据是不现实的。

应构建特定数据挖掘系统，用于针对特定类型的数据进行知识挖掘，例如专用于关系数据库中的知识挖掘的系统，事务数据库，空间数据库，多媒体数据库等。

2数据挖掘算法的效率和可扩展性

为了有效地从数据库中的大量数据中提取信息，知识发现算法必须高效且可扩展到大型数据库。也就是说，数据挖掘算法的运行时间必须是可预测的并且在大型数据库中是可接受的。

具有指数或甚至中阶多项式复杂度的算法将不具有实际用途。

3数据挖掘结果的实用性，确定性和表现力。

发现的知识应该准确地描绘数据库的内容，并对某些应用程序有用。应通过不确定性的衡量来表达不完美性，以近似规则或定量规则的形式。在数据挖掘系统中应优雅地处理噪声和异常数据。这也促进了系统研究，通过构建统计，分析和模拟模型和工具来测量所发现知识的质量，包括兴趣和可靠性。

4表达各种数据挖掘结果。

可以从大量数据中发现不同类型的知识。此外，人们可能希望从不同的观点检查发现的知识，并以不同的形式呈现它们。这要求我们在高级语言或图形用户界面中表达数据挖掘请求和发现的知识，以便数据挖掘任务可以由非专家指定，并且发现的知识可以被用户理解和直接使用。这也要求发现系统采用表达性知识表示技术。

5多个抽象级别的交互式挖掘知识。

由于难以预测从数据库中确切发现了什么，因此应将高级数据挖掘查询视为可能会为可进一步探索披露一些有趣痕迹的探测器。应该鼓励交互式发现，这允许用户以交互方式重新建立数据挖掘请求，动态地改变数据聚焦，逐步深化数据挖掘过程，以及从多个抽象级别和不同角度灵活地查看数据和数据挖掘结果。

6从不同的数据源挖掘信息。

广泛可用的本地和广域计算机网络，包括因特网，连接许多数据源并形成巨大的分布式异构数据库。从具有不同数据语义的格式化或未格式化数据的不同来源挖掘知识对数据挖掘提出了新的挑战。另一方面，数据挖掘可以帮助公开异构数据库中的高级数据规则，这是简单查询系统难以发现的。此外，数据库的巨大规模，数据的广泛分布以及一些数据挖掘方法的计算复杂性促使并行和分布式数据挖掘算法的发展。

7数据的安全与隐私保护

当数据可以从许多不同的角度和不同的抽象级别查看时，它威胁到保护数据安全和防止侵犯隐私的目标。重要的是研究知识发现何时可能导致隐私侵犯，以及可以开发哪些安全措施来防止敏感信息的泄露。请注意，其中一些要求可能会带来相互冲突的目标。例如，保护数据安全的目标可能与从不同角度交互式挖掘多级知识的要求相矛盾。此外，该调查仅解决了上述一些要求，重点是数据挖掘算法的效率和可扩展性。例如，处理不同类型的数据被定义为关系数据和事务数据，保护隐私和数据安全的方法没有得到解决（一些讨论可以在其他地方找到）尽管如此，我们认为提供有关数据挖掘要求的总体情况仍然很重要。

2数据挖掘技术概述

由于数据挖掘带来了许多具有挑战性的研究问题，因此在机器学习，统计和数据库系统的相关研究中开发的方法和技术的直接应用无法解决这些问题。有必要进行专门的研究，以发明新的数据挖掘方法或开发有效和有效数据挖掘的集成技术。从这个意义上讲，数据挖掘本身已经形成了一个独立的新领域。

2.1数据挖掘技术的分类

在数据挖掘的研究和开发方面已经取得了许多进展，并且最近开发了许多数据挖掘技术和系统。根据要研究的数据库种类，要发现的知识种类以及要使用的技术种类，可以使用不同的分类方案对数据挖掘方法和系统进行分类，如下所示。

要处理哪些类型的数据库

可以根据执行数据挖掘的数据库的类型对数据挖掘系统进行分类。例如，如果系统是从关系数据中发现知识，则系统是关系数据挖掘者;如果是从面向对象数据库挖掘知识，则系统是面向对象的系统。通常，数据挖掘器可以根据其从以下不同类型的数据库中挖掘知识进行分类：关系数据库，事务数据库，面向对象数据库，演绎数据库，空间数据库，时态数据库，多媒体数据库，异构数据库，活动数据库，遗留数据库和Internet信息库。

要挖掘什么样的知识

数据挖掘者可以发现几种典型的知识，包括关联规则，特征规则，分类规则，判别规则，聚类，演化和偏差分析，这些将在下一小节中详细讨论。

此外，数据挖掘者还可以根据其发现的知识的抽象级别进行分类，这些知识可以分为广义知识，原始级知识和多级知识。灵活的数据挖掘系统可以在多个抽象级别上发现知识。

要使用什么样的技术

数据挖掘者也可以根据基础数据挖掘技术进行分类。例如，可以根据驱动方法将其分类为自主知识挖掘器，数据驱动挖掘器，查询驱动挖掘器和交互式数据挖掘器。它还可以根据其基础数据挖掘方法分类为基于泛化的挖掘，基于模式的挖掘，基于统计或数学理论的挖掘，以及集成方法等。

在许多不同的分类方案中，这项调查主要遵循一种分类方案：要挖掘的知识类型，因为这种分类在不同的数据挖掘要求和技术上提供了清晰的图像。深入研究了挖掘不同类型知识的方法，包括关联规则，表征，分类，聚类等。对于挖掘特定类型的知识，比较了不同的方法，如机器学习方法，统计方法和大型面向数据库的方法，重点是数据库问题，如效率和可扩展性。

2.2从数据库中挖掘不同类型的知识

数据挖掘是一个依赖于应用程序的问题，不同的应用程序可能需要不同的挖掘技术来应对。通常，可以在数据库中发现的知识种类分类如下：

事务或关系数据库中的挖掘关联规则最近引起了数据库社区的广泛关注[4,7,39,57,66,73,78]。任务是以\ A1 ^的形式推导出一组强关联规则。“其中Ai (for i 2 f1; : : :;mg)和Bj（对于j 2 f1; :::; ng）是属性值的集合，来自数据库中的相关数据集。例如，可以从大量交易数据中找到这样的关联规则，就好像一个客户购买（一个品牌的）牛奶，他/她通常在同一交易中购买（另一个品牌）面包。

由于挖掘关联规则可能需要反复扫描大型事务数据库以查找不同的关联模式，因此处理量可能很大，并且性能改进是挖掘此类规则时必不可少的关注点。第3节将讨论用于挖掘关联规则的有效算法和用于进一步提高性能的一些方法。与数据库系统产品相关的最常用的数据挖掘和数据分析工具是数据通用化和摘要工具，它们带有几个替代名称，例如在线分析处理（OLAP），多维数据库，数据立方体，数据抽象，泛化，汇总，表征等。数据泛化和汇总呈现了一组用户的一般特征或概括的高级视图 - 指定数据库中的数据。例如，公司技术层的一般特征可以描述为一组特征规则或一组广义汇总表。此外，通常希望在多个抽象级别上呈现关于数据的一般化视图。第4节介绍了多级数据泛化，汇总和表征的概述。数据挖掘的另一个重要应用是能够在大量数据中执行分类。这被称为挖掘分类规则。数据分类是基于某些属性中的值对一组数据进行分类。例如，汽车经销商希望根据他们对汽车的偏好对其客户进行分类，以便销售人员知道接近谁，并且新模型的目录可以直接邮寄给具有识别特征的那些客户，以便最大化商机。有关分类规则的一些研究将在第5节中进行审查。

在第6节中，我们讨论了数据聚类的技术。基本上，数据聚类是根据概念聚类原则对一组数据进行分组（没有预定义的类属性）：

最大化类内相似性并最小化类间相似性。例如，可以将一组商品对象首先聚集到一组类中，然后可以导出一组规则

基于这样的分类。这种聚类可以促进分类学的形成，这意味着将观察结构组织成将类似事件组合在一起的类的层次结构。

时间或时空数据构成了计算机中存储的大部分数据[9,80]。这种类型的数据库的示例包括：股票价格指数的金融数据库，医疗数据库和多媒体数据库，仅举几个例子。在时间或时空数据库中搜索类似模式在许多数据挖掘操作[1,3,56]中是必不可少的，以便发现和预测与特定模式相关的风险，因果关系和趋势。对这类数据库的典型查询包括识别具有类似增长模式的公司，具有相似销售模式的产品，具有类似价格变动的股票，具有相似天气模式的图像，

地质特征，环境污染或天体物理模式。这些查询总是需要相似匹配而不是精确匹配。基于模式的相似性的方法

搜索在第7节中进行了审查。在分布式信息提供环境中，文档或对象通常链接在一起以便于交互式访问。了解此类环境中的用户访问模式不仅有助于改进系统设计，还能够带来更好的营销决策。在这样的环境中捕获用户访问模式被称为挖掘路径遍历模式。然而，由于用户正沿着信息提供服务旅行以搜索所需信息，因此访问某些对象是因为它们的位置而不是其内容，显示了遍历模式问题与其他主要基于客户交易的其他问题之间的差异。第8节讨论了挖掘路径遍历模式的能力。

除了上面讨论的问题之外，数据挖掘当然还有很多其他方面值得研究。通常需要使用数据挖掘查询语言或图形用户界面来指定有趣的数据子集，相关的属性集以及要发现的规则类型。此外，通常需要执行交互式数据挖掘来检查，转换和操纵中间数据挖掘结果，关注不同的概念级别，或测试不同类型的阈值。数据和知识的可视化表示可以促进数据库中的交互式知识挖掘。

总结

数据挖掘是一个快速扩展的领域，报告了许多新的研究成果，最近开发了新的系统或原型。许多领域的研究人员和开发人员为数据挖掘的最新技术做出了贡献。因此，在一篇简短的文章中提供数据挖掘方法的全面概述是一项具有挑战性的任务。本文试图从数据库研究人员的角度对最近开发的数据挖掘技术进行一次相当全面的调查。最近，一些数据挖掘和机器学习研究人员对数据挖掘和知识发现进行了概述。我们对他们的调查的主要差异是本次调查的重点是数据库研究人员开发的技术，重点是在非常大的数据库中进行数据挖掘的有效方法。提供了可用数据挖掘技术的分类，并且已经提出了这些技术的比较研究。基于迄今为止所研究的数据挖掘方法的多样性和丰富的数据挖掘功能，最近开发了许多数据挖掘系统或原型，其中一些已经成功地用于在大型数据库中挖掘知识。在这里，我们简要介绍一些在最近的会议和期刊中报告的数据挖掘系统。但是，这种介绍并不完整。欢迎附录，并且需要对这些系统进行全面概述。

Quest是Agrawal在IBM Almaden研究中心开发的数据挖掘系统，它发现了大型数据库中的各种知识，包括关联规则，顺序模式，分类规则，模式匹配和分析等.KEFIR是一个知识发现系统由Piatetsky-Shapiro在GTE实验室开发，用于分析医疗保健数据。 SKICAT是一种知识发现系统，由喷气推进实验室开发，可根据主要天文天空测量结果自动检测和分类天空物体。

资料编号：[4779]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码