基于协同过滤和深度学习的冷启动物品推荐系统外文翻译资料
2022-08-13 15:40:31
Computers in Human Behavior 67 (2017) 113e128
Contents lists available at ScienceDirect
Computers in Human Behavior
journal homepage: www.elsevier.com/locate/comphumbeh
Improving the accuracy of collaborative filtering recommendations using clustering and association rules mining on implicit data
Maryam Khanian Najafabadi*, Mohd Nazri Mahrin, Suriayati Chuprat, Haslina Md Sarkan
Advanced Informatics School (AIS), Universiti Teknologi Malaysia (UTM), Kuala Lumpur, Malaysia
a r t i c l e i n f o
Article history:
Received 12 September 2016 Received in revised form
7 November 2016
Accepted 9 November 2016
Available online 16 November 2016
Keywords: Recommender systems Collaborative filtering Sparsity problem Association rules mining Clustering
Implicit feedback
a b s t r a c t
The recommender systems are recently becoming more significant in the age of rapid development of the Internet technology due to their ability in making a decision to users on appropriate choices. Collaborative filtering (CF) is the most successful and most applied technique in the design of recom- mender systems where items to an active user will be recommended based on the past rating records from like-minded users. Unfortunately, CF may lead to the poor recommendation when user ratings on items are very sparse in comparison with the huge number of users and items in user-item matrix. To overcome this problem, this research applies the usersrsquo; implicit interaction records with items to effi- ciently process massive data by employing association rules mining. It captures the multiple purchases per transaction in association rules, rather than just counting total purchases made. To do this, a modified preprocessing is implemented to discover similar interest patterns among users based on multiple purchases done. In addition, the clustering technique has been employed in our technique to reduce the size of data and dimensionality of the item space as the performance of association rules mining. Then, similarities between items based on their features were computed to make recommendations. The ex- periments were conducted and the results were compared with basic CF and other extended version of CF techniques including K-Means clustering, hybrid representation, and probabilistic learning by using public dataset, namely, Million Song dataset. The experimental results demonstrated that our technique achieves the better performance when compared to the basic CF and other extended version of CF techniques in terms of Precision, Recall metrics, even when the data is very sparse.
copy; 2016 Elsevier Ltd. All rights reserved.
1. Introduction
Due to the increased overloading problem of information, the recommender systems are becoming more significant in the age of rapid development of the Internet technology. Recommender sys- tems have become an essential mechanism which provides users with useful selected information; in which this could be effective in making a decision for example in purchasing a product, selecting a movie to watch or doing any other online activity that requires making a choice or a decision (Huang, Ma, Cheng, amp; Wang, 2015). The recommendation system can be employed online for certain types of business or activity, such as e-commerce (e.g., Amazon1 a
book recommendation system), online news aggregators (e.g., Digg2) and online video sharing (e.g., YouTube3). This is because the Internet offers a wealth of information (such as online news, books, articles, music, movies and other products) that may be useful to potential purchasers or consumers (Kim, El-Saddik, amp; Jo, 2011a; Kim, Ha, Lee, Jo, amp; El-Saddik, 2011b).
Hence, a recommender system provides an alternative to discover items that users might not have found by themselves. One of the most successful technologies among the recommender sys- tems is Collaborative Filtering (CF) which is based on explicit rating feedback on the items/products by like-minded users (known as neighbors) (Huang et al., 2015; Kim et al., 2011a,b).
Many online companies and commercial systems (such as movie
* Corresponding author.
E-mail addresses: knmaryam2@live.utm.my, maryam64266@yahoo.com (M.K. Najafabadi).
2 www.digg.com.
http://dx.doi.org/10.1016/j.chb.2016.11.010
0747-5632/copy; 2016 Elsevier Ltd. All rights reserved.
recommendations in Netflix.com,4 book recommendations in Amazon.com, music recommendations in Last.fm5 and etc.) apply CF to generate recommendations to their customers. CF is the most applied and successful technique
剩余内容已隐藏,支付完成后下载完整资料
外文文献一:Collaborative filtering and deep learning based recommendation system for cold start items
基于协同过滤和深度学习的冷启动物品推荐系统
摘要:
推荐系统智能系统是一种特殊的智能系统,它利用用户对物品的历史评分或辅助信息,向用户推荐物品。它在广泛的网上购物、电子商务服务和社交网络应用中扮演着重要角色。协同过滤(CF)是目前最常用的推荐系统方法, 但由于没有评级记录、对系统中的某些新物品或用户只有少量的评级记录,该方法存在完全冷启动(CCS)问题,。本文基于紧耦合 CF 方法和深度学习神经网络的框架,提出了两种解决新物品 CCS 和 ICS 问题的推荐模型。采用特定的深度神经网络 SADE 提取物品的内容特征。对最新的 CF 模型 timeSVD 进行了改进,将内容特征引入冷启动物品的评 分预测中,该模型模拟并利用了用户偏好和物品特征的时间动态。在 Netflix 大型电影评级数据集上进行了大量的实 验,结果表明我们提出的推荐模型在很大程度上超过了冷启动物品评级预测的基准模型。对两种推荐模型进行了评 价和比较,提出了一种灵活的模型再培训和切换方案,以解决冷启动状态向非冷启动状态的转换。在 Netflix 电影推 荐系统上的实验结果表明,CF 方法和深度学习神经网络的紧密耦合对于冷启动物品推荐是可行的,也是非常有效的。 该设计是通用的,可以应用于许多其他推荐系统的网上购物和社交网络应用。冷启动项问题的解决可以大大提高推 荐系统的用户体验和信任度,有效地促进冷启动项的推荐。
1.引言
推荐系统在许多在线应用程序和电子商务服务中发挥着核心作用, 例如社交网络、电影、音乐和文章等产品的推荐,eBay 和 Netflix 都对 其系统采用了推荐技术,以估计客户的潜在偏好,并向用户推荐相关产 品或物品。无论是从收入还是从用户满意度来看,推荐系统的性能对这 些企业的商业成功都有着巨大的影响。
根据数据的类型和在推荐系统中的使用方式,推荐方法可以分为基于内容的推荐方法(cb)、基于协同过滤的推荐方法和基于混合的推荐方法。 Cb 过滤广泛应用于推荐系统的设计中,它利用条目的内容来创建特征和属性来匹配用户配置文件。将物品与用户以前喜欢的物品进行比较, 得出最匹配的物品。Cb 过滤方法的一个主要问题是需要了解用户对 某些类型物品的偏好,并将这些偏好应用于其他类型的物品。
Cf 方法是目前最流行的推荐系统设计方法。它利用了过去从用户行为中收集的大量数据,并预测用户将喜欢哪些物品。它不需要分析物品 的内容。相反,它依赖于用户和条目之间的关系,这些条目按照类型编 码在每个元素 rep-的评级反馈矩阵中对特定物品的特定用户评级感到敏感。基于CF的推荐的一个例子如图。左边显示 3 个用户和 4 部电影的关系图,这些关系图由 5 条边连接。每个边都与 1 到 5 个星级相关联,表示连接电影的用户偏好级别。根据 关系图生成右边的矩阵。一般的CF推荐任务是预测缺失的评级(例如那 些用符号“?”表示的评级)通过数据挖掘和对用户-物品评分矩阵的探索,对给定用户或给定物品进行评价。
然而,众所周知,CF 方法存在晶化和冷启动(CS)问题。在评级矩阵中,只有一小部分元素获得值。即使是最受欢迎的物品可能只有一些评 级。例如,在一个大的 Netflix评级用户约 18,000部电影。只有大约 1% 的评级矩阵元素得到评级。在稀疏评分矩阵下,如何评估物品和用户之 间的关系并提出有效的推荐是一个非常具有挑战性的问题。Cf 方法的另 一个众所周知的问题是 CS 问题,它可能发生在新用户或新物品上。Cf 方法需要从用户那里获得大量的评分,或者对某个物品进行评分,以便 有效地进行评分,但由于系统中的评分很少,这种方法对新用户、新项 目或两者都不起作用。另外,根据记录数是否为零,CS 问题可以分为 CCS 问题和 ICS 问题。一般来说,CS 物品的评分稀疏度高于 85%, CCS 物品的评分稀疏度为 100%。对推荐系统中的 CCS、ICS 和非 cs 项 目的分类进行了简单的说明。
混合推荐方法是将 CB 过滤方法和 CF 方法相结合,试图克服 CS 推荐问题的缺点和不足,提供给定用户可能感兴趣的物品的推荐。虽然采 用混合方法解决稀疏性和冷启动问题已经做了大量的工作,但是 CS 项 目的推荐仍然是一个开放的研究课题。
本文研究了向一般用户提供特定 CS 物品流行度预测的 CS 推荐问题,提出了一种预测 CCS物品和 ICS物品流行度的解决方案。这项工作有两 个主要动机。为了得到更好的推荐,需要推荐 CS 物品以获得评级,并且应该准确地 推荐 CS 物品以给用户更好的推荐系统体验。否则,项目可能会进入一个不受欢迎的循环,一直得不到评级。对于计划外的 CS 物品或物品(如书籍、电影等)的估计评级可以在这些 物品投放市场之前就给出这些物品的受欢迎程度,因此有助于在产品计划和销售策略上做出正确的决定。这种估计的准确性对于这种 目的是至关重要的。
我们设计了两个集成的推荐模型,利用在线检索到的物品描述,从 深度学习体系结构 SDAE()中学习物品特征,然后将这些特征提取出来 并集成到 timeSVD CF 模型()中。Timesvd 是性能最好的 CF 模型之 一,它跟踪数据中的时间变化行为,并考虑了时间动力学。
我们的贡献概述如下:提出了一个将 CF 算法和机器学习算法相结合的通用框架,以提高 CS 题目的识别性能。在本文提出的模型中,利用深度学习神经网络从 内容描述(如电影情节)中提取的内容特征作为 CCS 物品推荐模型中 的关键物品因子向量,并用 ICS 物品推荐模型中的物品因子向量进 行近似。内容特征不仅像现有的冷启动物品混合推荐算法一样被广 泛地用于确定物品相似度,而且成为推荐模型的重要组成部分,对 于模型的训练和 CS物品的未知评分的预测都有重要影响。将 CF 方法和机器学习算法集成到 CS 物品推荐中,给出了一个总体框 架。各种 CF 方法和机器学习算法可用于一般的推荐系统。集成的关 键在于利用机器学习算法提取物品特征,并将物品特征嵌入到 CF 建 模中。在总体框架的基础上,提出了具体的系统设计和模型,其中采用了最 先进的 CF 模型 timeSVD 和一种先进的深度学习神经网络模型 SADE进行 CS物品推荐。调查了这些模型在 Netflix电影推荐系统中 的应用情况,该系统的收视率接近 1 亿。实验结果表明,将 CF方法 和基于内容的推荐方法进行紧耦合是可行的,也是非常有效的。例 如,对 CCS 物品建议采用的 IRCD-CCS 模式,其预测值 RMSE 为 0.045,低于第二优秀的方法,这表明在推荐系统设计的研究领域的性能显 着提高。 除了分别设计和评价 CCS 物品和 ICS 物品的推荐模型外,我们还比较 了 ircd-CCS 模型和 ircd-ICS 模型在 ICS 物品评分预测方面的性能。 在实践中,推荐系统随着时间的推移不断向系统中引入新的物品。 如果一个新引进的物品是 CCS物品,CF模型不能为其提供评分预测。 如果该项是 ICS项,CF模型可能不会提供良好的推荐。将 CCS推荐 模型应用于 ICS 物品评分预测可能是有益的。我们提出了一个切换 ICS 物品推荐模型和再培训模型的方案,以处理物品状态从 CS 向非 CS 过渡的实际问题。据我们所知,这个实际问题以前没有在文献中 研究过。
本文的其余部分如下。描述有关工程,介绍了研究的问题和提出的 推荐模型,介绍了评价方法和实验结果,最后总结了论文的结论。
2.相关工作
从技术上讲,矩阵分解方法已经被许多作品应用到 CF 中。Mf 的重点是分解矩阵的低维用户潜在向量和物品拉帐篷向量。利用交替最小二 乘法(ALS)和最小二乘法(SGD())最小化求和距离,可以有效地求解该模 型。本文介绍了概率矩阵分解(PMF),这种概率模型在大数据集上比较 早期,并且性能优于标准的奇异值分解模型(SVD)。基于永磁同步电动 机,提出了几种永磁同步电动机的改进型和改进型由于传统的 CF 算法仅仅依赖于用户和条目之间的关系,而这种关系通常被编码在一个 U-I 矩阵中,因此对稀疏性问题和 CS 问题的推荐性 能受到很大的限制。为了克服这些问题,已经开发了大量方法,将 U-I 矩阵以外的其他信息来源纳入其中。特别是利用用户或物品的辅助信息 和交互相关信息来提高推荐的准确性。
辅助信息是指关于用户和物品的属性。对于用户属性,信任网络被合并到原始信息中进行预测。提出了一种考虑用户社会信任关系的概 率因素分析框架。作者利用用户的社交标签,设计了一种基于扩散的推 荐算法,该算法只适用于社交标签系统。用户采用用户的人口统计数据, 并应用一个简单的预测规则,通过对类似用户的加权评分进行总和来为 新用户打分。将 Authoscom-bines 属性选择和局部学习引入到推荐系统 中的Terview 过程。对于物品属性,协同主题建模应用主题模型和隐含狄利 克雷分布模型来学习物品内容特征。然而,这种模式该算法仅适用于隐式评分预测问题,内容高度稀疏的信息不能有效地学 习隐式报告。
深度学习技术在图像、视频和人工智能等领域取得了巨大的成功,是将深度学习应用于电影推荐系统的典型例子。然而,CDL 仅仅关注少 数用户的情况和用户与物品之间的隐式交互,并且考虑了非常简单的 CF模型。其主要目的推荐最高的 n项,而不是为明确的评级预测。
另一方面,与交互相关的信息指的是与 U-I交互行为相关的信息,比如时间戳和正在进行评级的位置。该模型通过将静态偏差和潜在因素转 化为与时间相关的因素,模拟了用户兴趣的时间动态。作者介绍了一套 附加的时间有限元向量,并利用张量分解来学习这些特征。提出了不同 用户之间的相似性。但它们不能直接应用于 CS问题。
Cs 问题一般可以根据用户或物品的完全缺失评分,分为 CS 用户问题和cs物品问题。对于 CS用户问题,由于系统信息如位置和性别不能 有效地描述用户的兴趣,最近的一些研究试图通过访谈过程来丰富用户 的个人资料。但是这种信息在正常情况下很难收集。此外,由于隐私问 题,获取新用户的个人信息更加困难。相比之下,本文的研究重点是 CS 物品问题和前文描述的研究动机。为了缓解 CS 物品的信息匮乏,到 目前为止,大多数研究工作都致力于用额外的信息(例如,收集物品属性) 来描述新物品。然而,现有的研究工作仍然存在一些局限性。首先,有 限的粗糙属性很难挖掘出新物品的具体特征。收集诸如标记、关键字和 类别之类的细粒度属性,总是耗费时间和成本。其次,大多数研究结合了 生成概率模型,容易过度适应 CS 物品情境。这些作品的最后一个问题 是它们没有考虑到时间信息。本文提出了一种集成深度学习和协同过滤 学习的方法来解决这些局限性,并大大提高了 CS题目的导入性能。
3.建议的推荐模式
在这一部分,我们提出了两个集成的建议模型用于 CF 和深度学习,称为 IRCD-CCS和 IRCD-ICS。假设一个推荐系统包含U个用户和V个非CS项。此外,假设有J个CCS物品,在调查之前没有收到用户的评级,而I个ICS物品,只收到用户的一些评级。我们让rating r u i(t)表示用户u在时间t时对物品i的速率。本文考虑的推荐任务是基于已知的CCS和ICS物品估计未知的评级。我们让rcirc;ui(t)表示r ui(t)的预测值。
3.1内容特征深度学习
因为传统的CF模型无法估计评级对于CS项以获得针对所建议模型的项的附加内容描述。从内容描述中提取物品特征,并与CF模型一起用于CS物品评级估计。
首先将所有物品的原始内容信息处理为基于词包方法生成向量。然后,SDAE学习这些物品相关向量以获得物品内容特征,然后在CF模型中使用这些特征。SDAE是一个由多个去噪自动编码器(dae)叠加而成的深度网络。SDAE的每一层都被训练为一个DAE,通过最小化重构其输入(前一层的输出)时的错误。通常我们把网络的前半层作为编码部分,后半层作为解码部分。编码部分尝试学习噪声破坏输入的特征表示,解码部分尝试在输出中重建干净输入本身。SDAE的示例结构如图3。
在所提出的 IRCD 中使用的 CF 模型是 timeSVD 。Timesvd 模型有几种变体。本文考虑了基于潜在因子的变量。对于基于潜在因子的模 型,用户 u 对物品 i 的评分由向量 qi(物品 i 的物品因子)和向量 pu(用户 u的用户因子)的内积计算,使用以下公式:
式中,cL表示网络L层的输出,wL和bL表示网络L层的权重矩阵和偏差向量。有关SDAE结构和培训的更多细节,请参见Wang等人。(2015年)。一旦训练好模型,就可以从网络的隐藏层C L/2中获取物品内容特征。对于给定的项i,用theta;i表示的特征表示是低维向量。
值得注意的是,除了学习评级记录,使用SDAE的另一个目的是降低基于物品内容的向量的维数,使其与潜在因素向量相同,然后将其融合到CF过程中以考虑到偏差、额外的隐式反馈和时间效应。
3.2timeSVD
提出的IRCD中使用的CF模型是timeSVD 。在那里是timeSVD 模型的几种变体。本文考虑了基于潜在因素的变量。对于基于潜在因素的模型,用户u对物品i的评级由向量q i(物品i的物品因子)和向量p u(用户u的用户因子)的内积计算,使用以下公式:
这里,v表示总体平均分,bi(t)和 bu(t)分别表示物品 i 和用户 u的时间意识偏差。 物品因素不会随着时间而改变,因为它们在本质上比人类更加静止。集合 n(u) 包含用户分级的物品 1因子|n(u)|2jisin;n(u)yj 表示隐式反馈的视角,其中 yj 是与隐式反馈有关的项 j 的向 量,需要从训练
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236059],资料为PDF文档或Word文档,PDF文档可免费转换为Word