登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 计算机科学与技术 > 正文

基于关联规则的个性化推荐系统研究外文翻译资料

 2023-04-13 10:43:39  

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于关联规则的个性化推荐系统研究

摘要

随着网络技术的飞速发展,信息量迅速膨胀,各种数据变得庞大而分散。使用传统的关键字来检索搜索数据已经变得相当耗时并且难以集中精力。传统的搜索引擎已经无法帮助人们有效解决这一问题,于是个性化推荐系统应运而生。针对用户的行为和偏好,本文对不同的推荐技术进行了详细的比较。重点分析了当前流行的基于内容、关联规则和协同过滤推荐技术对当前需求的适用性。针对传统推荐系统算法的不足(算法的稀疏性问题)和当前推荐系统的冷启动问题,提出了基于关联规则的推荐系统的技术方案和体系结构。基于MovieLens数据集,设置了一系列评价指标,进行了对比实验,对算法的有效性进行了分析。

介绍

随着电子信息技术、网络技术和互联网技术的发展,人类的生活方式发生了革命性的变化。电子信息技术使得储存和处理大量信息成为了可能。网络技术还使数据处理结果能够分布到不同的系统,这大大增加了存储的信息量、共享程度和信息处理的速度。互联网的发展将这种趋势从一个小区域扩大到了全世界。目前,这些技术已经渗透到人们学习、工作和生活的各个领域。人们可以摆脱时间和空间的限制,方便高效地获得各种服务。然而,面对浩瀚的网络信息空间,用户需要花费大量时间搜索信息,这也大大降低了信息的利用率,导致“信息过载”现象1。个性化推荐技术应运而生。推荐的本质是代替用户对资源对象进行评价,帮助用户快速找到自己喜欢的产品2,3,虽然个性化推荐系统已经在电子商务领域得到应用,但是仍然存在很多等待解决的问题,比如冷启动、稀疏性4。这些问题引起了学者们的广泛关注。

个性化推荐系统技术

随着网络技术的飞速发展和信息的爆炸式增长,信息过载问题越来越严重。用户很难快速找到自己需要的信息。一些重要的信息淹没在信息的海洋中,成为孤立的信息。信息量迅速膨胀,各类数据变得庞大而分散,用户使用传统方法搜索数据变得耗时且难以集中。在传统的关键词检索无法帮助人们解决这一问题的情况下,推荐系统应运而生。

    1. 推荐的方法分类
      1. 基于内容的推荐

通过分析系统中用户的历史行为,即对已有项目进行描述和评分。在此基础上,根据对用户加工的物品的调查分析,可以建立物品的特征模型和用户的个人特征。内容推荐过程的关键步骤是将用户个人信息的特征与内容对象的特征相匹配,推荐结果反映用户对内容对象的某个物体的偏好。

图1 基于内容推荐的层次结构

如果个人数据能够准确反映用户喜好,基于内容的推荐。第一,物品表征。第二,侧面学习。第三,推荐生成。图1是基于内容的推荐系统的高层结构。推荐过程的三个阶段都是由一个独立的组件完成的。

      1. 基于协同过滤的推荐

协同过滤推荐系统是基于其他用户的选择来向一个用户推荐一个文档,而不考虑该文档的内容。如果当用户提供模糊的查询条件时,系统没有响应,这是不理想的。因此,一些系统整合并总结用户偏好基于统计信息提供个性化建议。该系统将分析不同用户的偏好和兴趣,以此为基础将用户划分为不同类型的社区。然后,这些系统为同一社区的用户提供符合他们偏好的对象。通过将新用户的偏好信息与现有的共同体偏好信息进行比较,并将该用户的偏好上传到共同体偏好数据库,系统可以汇总用户的偏好信息。

      1. 混合推荐

无论是哪种推荐算法,都有优缺点。在实际应用过程中,为了提高推荐系统的性能,可以用一个强算法代替一个算法中的劣势部分,形成混合推荐。比如在内容推荐和协同过滤推荐的基础上,在协同过滤算法中加入内容推荐算法或者在内容推荐算法中加入协同过滤算法。由于算法本身的多样性,不存在任意两种算法可以任意组合的情况。经过不断探索,混合推荐主要有七种类型,权重、切换、混合、级联、特征组合、特征增强、元级。

    1. 推荐的技术选项

基于内容的推荐的基本思想是用户会更喜欢他们已经购买的产品和相似的产品。所以算法的核心是分析每个产品的属性,并在此基础上计算出应该推荐的产品。要分析产品的相似性,首先需要描述产品的内容。描述一般是通过一组产品属性的定义,通过产品的不同属性进行相似度计算。我从文献中了解到主要有两种计算方法5,6,即向量近似计算和条件相似度。可能可以直观地显示支持不同推荐方法的算法覆盖用户偏好的程度。协同过滤和关联规则没有上述技术限制,是最成功、应用最广泛的推荐技术。这两种算法最大的特点是不需要特殊的数据源支持,可以充分利用现有资源。两种算法都可以通过历史记录为用户提供高度精准的推荐。这些推荐既能满足个性化偏好,又能在一定程度上预测用户行为。本文介绍的推荐系统将使用结合关联规则的推荐算法。

基于关联规则的推荐系统

    1. 关联规则基本概念的描述

关联规则是由Agrawal (1993)等人首先提出的。他们主要分析篮子分析的问题,主要是发现交易数据库中不同商品的关联规则。关联规则反映了特定数据之间的关系,用来揭示未知数据和数据之间的相互依赖关系。它的任务是在一个基于事务数据库T的支持度-置信度框架中,发现数据和项目之间的大量有趣的、相关的联系,生成置信度和置信度分别高于用户给定的最小支持度和最小置信度的所有关联规则。其算法设计的两个问题,首先找到支持度大于等于min_sup支持度的所有项目集,这些项目集称为频繁项目集。第二,使用在步骤1中找到的频繁项集来生成预期的规则。关联规则挖掘的三个度量:支持度、置信度、提升度。

    1. 关联规则的原理和过程

关联规则的评价标准主要是支持度和置信度。支持度和置信度这两个阈值是描述关联规则的两个重要概念。为了方便起见,最小支持度是supd,最小置信度是supd表示为min_conf。最小支持度表示项目集在统计意义。最小置信度表示规则的最小可靠性。假设是这样n个不同数据项的集合。给定一个数据事务集“T”。每个交易记录“t”是“I”的非空子集。也就是说,每个事务记录对应一个唯一标识符TID。对于任何非空项集,如果记录“t”包含“X”,则表示记录“t”支持该项设置“X”。对于整个数据集T,X的支持度定义为包含X的记录的比例在数据集T中,公式如下。

其中是数据集T中包含的X的记录数,|T|表示T中所有记录的个数,显然,如果|X|=k(即|X|表示X中数据项的个数),那么X称为k项集。如果X的支持度大于给定的最小支持度阈值,那么X称为频繁集。关联规则的表达式如下,其中X和Y为非空项集,X和Y不相交。关联规则的支持定义如下。

其中X是前一项,Y是后一项。置信度是前一项用作分母。

其中||Xcup;Y||/|T|和||X||/T分别表示数据集T中的联合记录和X记录的数量。

如果要求的关联规则支持度大于最小支持度,置信度大于最小置信度,则称为合格的关联规则。

需要注意的是,对于关联规则,计算支持度的工作主要是计数操作,需要遍历扫描的数据集T。

    1. 关联规则算法

关联规则挖掘算法是关联规则挖掘研究的主要内容。迄今为止,已经提出了许多有效的关联规则挖掘算法。最著名的关联规则发现方法是R. Agrawal提出的Apriori算法。Apriori算法主要包括两个步骤。第一步是找到事务数据库中大于或等于用户指定的最小支持度的所有数据项集合。第二步是使用频繁项集生成所需的关联规则。根据用户设定的最小置信度,最终得到强关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心。Apriori算法的核心思想中有两个关键步骤,连接步骤和修剪步骤。连接步骤的意义是找出Lk(频繁k项集),通过Lk-1与自身连接,生成候选k项集,记为Ck;Lk-1的元件是可连接的。剪枝步骤的意义在于Ck是Lk的超集,即其成员可以是也可以不是频繁的,但所有的频繁项集都包含在Ck中。我们扫描数据库以确定Ck中每个候选人的数量,从而确定Lk(计数值不小于最小支持计数的所有候选都是频繁的,因此属于Lk。但是Ck可能很大,所以设计的计算量很大。为了压缩Ck,使用了Apriori算法:任何非频繁(k-1)项集不能是频繁k项集的子集。因此,如果一个候选k项集的(k-1)项集不在Lk中,则该候选项可能不频繁,因此可以将其从Ck中删除。使用所有频繁项集的哈希树可以快速完成这个子集测试。

    1. 基于关联规则的推荐机制

推荐机制的框架如图2所示。偏好组中的知识被预处理以形成整个推荐机制的基础。在数据挖掘技术的应用过程中,产生了关联规则和分组知识。当用户发送服务请求时,系统将识别用户的偏好,并在识别请求后找到适合其偏好的规则来进行预测。当规则被激活,找到合适的知识,系统就会把结果提供给用户,用户的个性化需求就可以得到满足。

图2 推荐机制框架

对于用户来说,在线推荐的效率是一个重要因素。为了实现以高效为目标,将神经网络技术应用于用户类型分类。一旦据了解,推荐系统可以通过用户的信息对任何在线用户进行实时分类个性化属性。另一个关键因素是总结不同用户组的知识。这个数据挖掘中的关联规则经常被用来发现所选项目之间的关系。

将对用户偏好进行分析和预处理,以生成族群信息。这些信息结合历史交易数据,可以生成不同用户群的特征及其关联规则。当用户的服务请求发出后,系统会识别他的偏好类型,并从知识库中提取匹配的关联规则推荐给用户。基于这样的方法和流程,系统可以为不同的用户提供及时的在线推荐。

自动推荐系统的目标是基于用户类型和用户选择的项目向用户推荐相关信息。该机制的第一步是对用户信息进行预处理,明确用户属性和用户历史数据。信息清理、合并、转换等。实验者将所有信息组织成一个子数据集适合分析,然后用合适的算法分析。

模拟实验性能分析

    1. 评价指标和数据集

到目前为止,还没有一种算法可以适用于所有的推荐系统。如何衡量推荐算法的好坏,能否建立完善的评价体系,显得尤为重要。主流推荐系统目前使用的方法是选择推荐准确率作为衡量算法优劣的参考。应用比较广泛的是预测精度和分类精度。为了使推荐系统的评价更加全面,可以使用其他评价指标作为辅助指标。下面介绍推荐系统中这些比较重要的指标。

      1. 预测准确性。

如果用户的历史评分记录在推荐系统中,则预测精度可作为该推荐系统的评估方法。最经典的评价预测精度的方法是平均绝对误差(MAE)。主要的想法是比较预测分数和用户之间的平均绝对误差,这是实际分数。错误值为与推荐的准确度成反比。误差越小,精度越高。这个公式如下。

在在上面的公式中,“n”代表推荐系统中用户“i”的总数,via代表用户的真实评分,vcirc;ia代表系统的预测评分。平均值该系统所有用户的准确性中最重要的是推荐算法的准确性。

      1. 分类精度。

分类准确率和预测准确率的区别在于,它只用于确定用户对系统推荐的对象满意的比例,而不考虑算法评分是否正确。常用的分类准确率指标主要有准确率、召回率和命中率。下面也简单介绍一下这些指标。

准确率表示满足用户偏好的对象数量占给定推荐列表中所有推荐对象数量的百分比。准确率反映了目标用户对推荐资源对象的偏好。公式如下。

召回率是覆盖率的一种度量,它度量推荐列表中满足用户偏好的对象数量占用户喜欢的对象数量的百分比。召回率反映了推荐系统中目标用户偏好的概率。公式如下。

命中率表示在给定推荐列表长度的情况下,命中次数与列表长度之比的百分比。公式如下。

在测试中,如果出现的用户Ui选择了object Oj,并且object Oj也出现在推荐用户Ui。在列表中,它表明推荐算法是被禁止的(用户Ui-对象Oj)。随着推荐列表长度L的增加,归宿率增加,最大值为1。

    1. 数据集中实验和分析
      1. 数据预处理。

为了消除异常数据的影响,对数据集进行预处理是先决条件。移除数据集中小于或等于一次的对象。确保每个用户至少选择一个对象,并且每个对象至少被两个用户选择过。预处理后,数据集如表1所示。

表1 预处理后的数据信息

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589547],资料为PDF文档或Word文档,PDF文档可免费转换为Word

类型

MovieLens数据集

用户数量

95

对象数量

334

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图