基于用户兴趣的购买行为预测毕业论文
2020-02-17 23:05:02
摘 要
随着基于用户兴趣的购买行为的预测在大数据分析中的越来越广泛的应用,许多购买推荐模型应运而生。而基于用户兴趣的购买行为系统模型的设计需要大量丰富的消费者和商品的用户属性、商品属性和交互数据。基于用户的兴趣的预测就是为了解决用户选择的问题,帮助用户在繁多的产品中找到自己需要购买的产品。
本文介绍了一种用python设计的基于用户兴趣的购买行为预测系统。系统的数据采集模块能够把从公共数据库获取的数据包较为精准的来记录当前的用户信息数据,再通过一定模式来调入.数据,把实时数据处理为用户在处理数据的动态属性,以多种参数的属性的形式输出到最终结果上去上,采用交叉验证和相关度以及均方误差能提供有效的预测估计和误差分析,实现全方位有效的预估。
本文实现了研究基于概率矩阵分解的推荐算法,并以此算法为基础构建了模型,根据公共数据库,实现了基于用户兴趣的购买行为推荐。本文分别采用了基于用户的协同过滤算法和基于隐语义模型的协同过滤算法对购买行为进行预测,预测结果符合预期。
关键词:购买预测;协同过滤;隐语义模型
Abstract
With the more and more extensive application of prediction of purchase behavior based on user interest in large data analysis, many purchase recommendation models emerge as the times require. The design of purchasing behavior system model based on user interest requires a large number of rich user attributes, commodity attributes and interactive data of consumers and commodities. Prediction based on user interest is to solve the problem of user choice and help users find products they need to buy in a wide range of products.
In this paper, a purchasing behavior prediction system based on user interest designed by Python is introduced. The data acquisition module of the system can record the current user information data more accurately from the public database, and then import it through a certain mode. Data, real-time data processing as the dynamic attributes of the user in the processing of data, output the final results in the form of attributes of various parameters, and use cross-validation and correlation as well as mean square error to improve the performance of the system. It can be used for effective prediction and error analysis to realize all-round and effective prediction.
This paper realizes the recommendation algorithm based on probability matrix decomposition, and builds a model based on this algorithm. According to the public database, it realizes the recommendation of purchase behavior based on user's interest. In this paper, user-based collaborative filtering algorithm and implicit semantic model-based collaborative filtering algorithm are used to predict the purchase behavior, and the predicted results are in line with expectations.
Key Words: purchase prediction; collaborative filtering; implicit semantic model
目 录
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外相关技术及研究现状 2
1.3论文主要研究内容 4
第2章 算法简介 5
2.1 机器学习 5
2.2协同过滤算法和聚类算法 5
2.2.1基于用户的协同过滤预测 5
2.2.2基于物品的协同过滤算法 6
2.2.3基于隐语义模型的协同过滤算法 7
第3章 预测系统的设计 9
3.1基于用户兴趣的购买行为预测的基本步骤 9
3.2预测目标的选取与确定 9
3.3收集和整理数据 9
3.4 确定算法与建立模型 11
3.5 验证与评价 12
第4章 系统软件设计和结果 14
4.1基于用户的协同过滤软件分析 14
4.2基于隐语义模型的协同过滤软件分析 15
第5章 结果分析与总结 18
5.1数据分析 18
5.1.1 基于用户的协同过滤 18
5.1.2基于隐语义模型的协同过滤 18
5.2 预测结果分析 18
第6章 总结与展望 19
6.1 全文总结 19
6.2 未来工作展望 19
参考文献 21
致 谢 22
第1章 绪论
随着国内外信息现代化迅猛发展的势头,基于用户兴趣的购买行为的预测系统已经成为现在很多电子商务网站比如国内的天猫和京东等,国外的亚马逊和沃尔玛之类的下季度商品销售预测的重要参考依据,不断有新的预测模型被应用到购买行为预测系统当中,可以有效确保在有海量数据的支持下的预测模型的效率、可靠性与安全性。由于现在基于用户兴趣的购买行为的预测系统因算法的差异和模型不同,所以在商品和数据的选取上都需要满足一定的要求。购买行为预测系统需要根据一些信息平台来提供更加有效更加可靠的服务,因为更加完善更加可靠的用户购买推荐越来越受到人们的青睐,但是受到当前推荐算法技术发展滞后的局限,目前所能提供的算法模型推荐系统无法进行更加精准的预测,研发更加高效更加可靠地推荐系统算法变得越来越迫切。
1.1研究背景及意义
随着中国成为世界第二大经济体,经济快速发展,人民生活有了很大的提高,传统商务逐渐往电子商务转变,我国的互联网消费者整体规模逐年增长,电子商务市场更加稳健的发展,根据国家网信办2019年5月6日发布的《数字中国建设发展报告(2018年)》显示,截止2018年底,我国网民规模达8.29亿,互联网普及率达59.6%。随着互联网络技术的广泛使用,国内逐渐出现了像京东,天猫,唯品会之类的大型购物网站。如图1.1所示。这些购物网站聚集了海量的商品和用户信息,用户可以通过这些网站的首页的商品搜索或者商品分类,非常便利的及时的获取自己所需要的商品信息,通过商品信息的简介和用户评价等反馈方式也可以比较便利的获取到你所需要的商品的质量和销量等,而不是仅仅局限于到现场进行挑选,挑选完之后再进行购买这种传统的交易方法,极大的提高了用户购物的体验。同时,这种营销形式打破了时间和空间的限制,为商品的销售开创了一个新的方法,实现了用户与商家的互利共赢,提高了购买效率。
图1.1国内某电商平台
随着网络的普及,网络上的资源不断丰富,网络信息量不断膨胀,用户面临着越来越多的选择,而要从众多的选择当中选出自己真正需要的信息非常困难,这也就是信息过载现象。基于用户的兴趣的预测就是为了解决这些信息过载的问题,帮助用户在繁多的产品中找到自己需要购买的产品。为便于人们购物,实现购物的多元化,对基于用户兴趣的购买行为预测被认为是满足人们所喜好的购物需求的重要途径。
个性化推荐是购买行为预测的一种应用,能够给用户的日常生活带来非常大大的便利。个性化推荐的目标是根据消费者的背景、行为、习惯、消费记录等特征判断他的消费兴趣所在,为用户提供个性化推荐服务。而为了更好的提供个性化推荐服务,我们需要充分了解到上述特征,通过这些特征来判断用户的消费兴趣从而实现比较精准的推荐,商家也能更好的制定今后的销售方法和规划。
然而根据现有的兴趣模型依旧存在着许多问题等待着去完善,比如用户的偏好,物品的认可度,收集到的数据的整理等。所以我们应该在基于用户的协同算法下构建模型,之后再在此模型下进行优化,优化其在用户的偏好,物品的认可度上产生的误差,完善模型的构建。为了解决以上问题,论文将从大数据出发,实现对基于用户兴趣的购买行为预测。
1.2国内外相关技术及研究现状
随着互联网的发展和日益增长的信息和个体有限处理能力的矛盾,为用户提供个性化的购买行为预测日益受到用户的青睐,受到越来越多的学者的关注。
近年来基于用户兴趣的模型预测广泛发展,如李旭阳提出了一种基于LSTM和随机森林相结合的预测模型[1]。在这个预测模型当中,由于LSTM在序列数据处理中存在着比较好的效果,所以可以利用LSTM将用户行为的特征数据的前后关联序列作为我们所获取的一种特征,除此之外这种模型还需要提取用户信息特征和商品信息特征,将这些信息和随机森林相结合,提高了对用户购买商品的预测准确度
还有祝歆在《基于机器学习融合算法的网络购买行为预测研究》中则提到两种算法[2]。一种是基于逻辑回归算法,逻辑回归算法认为一件事情比如购买一件商品发生的概率满足贝努利分布,在利用数学上的最大似然估计完成推荐,另外一种则是基于向量机,而基于支持向量机的算法核心则是利用了一种超平面进行样本的划分,之后利用求解最优分类面完成比较精确的预测[3]。
郭磊在《一种结合推荐对象间关联关系的社会化推荐算法》中提到,社会化推荐方法通过充分的结合社会网络的特点,在获取了用户历史行为的基础上从而完成了在现实生活中的满足人们兴趣和需求的商品推荐[4]。社会推荐算法作为一种信息过滤技术一直以来就受到很多研究人员的研究,但是这种算法也有他的缺陷,比如这种算法仅仅是从用户间的社会关系出发,只考虑到了个性性格相似,相互信任甚至有着相似的爱好的人之间的关联,并没有充分考虑到推荐对象之间关联关系,和这些关系对推荐的商品所带来的差别和影响,正是为了解决以上这些问题,将社会化推荐和推荐对象之间的关联关系相结合起来,在现有的比较完善的社会化推荐方法的基础之上,提出了结合推荐对象间关联关系的社会化推荐算法,不仅考虑了较为亲密的人之间的关系也考虑到了推荐对象之间的关系,这个算法通过共享潜在的特征空间来对目标函数的状态方程进行约束,这个算法在社会化推荐的基础上提高了预测的准确性。
除此之外还有很多其他方法比如说国外研究的基于决策树模型实现预测用户的购买行为,计算机专家 Ross Quinlan,是 ID3 的提出者[5]。 ID3 决策树的优点在于它很多的分支,因此它能够涵盖非常多的情况,但是当决策树遇到连续的特征值时,则预测准确度会减低很多。 所以这个算法有一个非常大的缺点,这个缺点就是太过重视选取特征,并把它们作为数据的分割的最好的选择。
还有便是本文主要简介的协同过滤算法,协同过滤推荐算法是目前常用的推荐算法之一[6]。在现实生活当中,个体不是独立存在于社会当中的,而是与周围的个体紧密相关的。因此,可以将具有比较紧密关系的个体划分为一个用户组,对用户组的特征变量进行分类。在电子购物萌芽的时候,购买商品的用户数量远远比平台提供的商品数量少, 所以最初的协同过滤算法主要是从用户的角度出发。基于用户的协同过滤算法一般遵循以下步骤:首先构建用户和商品的评分矩阵、寻找相似目标、之后就是预测评分进行推荐[7]。
而基于隐语义模型的协同过滤基本思想是通过隐含特征联系用户与物品,把高维向量空间模型中的信息映射到低维的潜在语义空间中,通过把高维向量变成低维向量,从而利用隐含特征把商品和用户之间的关系紧密联系起来[8]。
除此之外还有很多其他方法比如说基于知识的购买推荐系统:首先利用推荐系统特定的知识,再获取相应的物品信息,用户信息,之后确定可以满足消费者需要的那些商品的特征,最后利用相似函数估计法去衡量消费者需求与你推荐商品之间匹配度[9]。
1.3论文主要研究内容
本文主要研究的是基于用户兴趣的购买行为预测。分析基于用户兴趣的购买行为预测的算法,并研究该基于概率矩阵的推荐算法模型,并根据公共数据库,对该模型进行优化,实现对用户兴趣的推荐本文主要研究内容安排如下:
第1章,首先对课题的背景进行了介绍,说明研究意义,然后叙述了“基于用户兴趣的购买行为预测”在国内外的研究现状、相关技术以主要研究方向和内容安排。
第2章,研究选择的算法确定技术方案,并对使用算法的工作原理进行阐述。
第3章,根据基于用户兴趣的购买行为预测所选择的算法进行了分析、设计,较为详细地介绍了系所使用算法的具体实现与设计思路,最后给出了使用算法的。
第4章,主要对基于用户兴趣的购买行为预测软件部分进行了设计,实现了显示误差和推荐的功能,之后完成一定量的改进和优化。
第5章,对本次设计中实现的功能、技术指标进行了总结,然后对仍存在的不足进行分析。
第2章 算法简介
2.1 机器学习
机器学习是一门多领域交叉学科,它的应用极其广泛,几乎覆盖了人工智能的方方面面,机器学习通过研究计算机来模拟人类的学习行为,从而掌握新的科学和技术,再通过不断更新的知识来不断完善自己的性能和效率,之后再不断地学习不断的完善,作为人工智能的核心,机器学习发挥着越来越重要的作用。
机器学习是很多已知的算法的总称,这些算法尝试从许多历史数据中发现问题找出某种尚未获知的规律,并且用这些规律来进行预测[10]。换言之,机器学习可以看做是从很多很多的算法当中选择一种最符合现实状况的算法,并利用这个算法来完成预测。以这个算法为基础构造模型,输入满足条件的样本数据,通过这个模型获得输出数据得到预测结果或者结论。当然,机器学习在众多算法中所选择出的算法必须满足于所提供的样本和应用的范围,算法的选择是完成模型构建的最重要的一步,所以必须从多个角度进行考虑。
2.2协同过滤算法和聚类算法
在众多推荐系统中,协同过滤算法和聚类算法是很多学者和研究人员研究的最早的算法,这两者算法因为其比较好的预测效果和精准度而被广泛应用于推荐系统模型。协同过滤算法通过对用户历史数据的挖掘来获取用户的特征信息;在总结用户的偏好,商品的普遍评价之后,利用这些数据比如用户的信息,商品的信息经过一个完整的推荐模型实现对用户进行商品的推荐。常见的协同过滤推荐算法有基于用户和基于隐语义模型的协同过滤算法。
另外一种算法则是利用聚类算法,聚类通过把数据通过分成很多很多组,让这些组成为多个类或者簇,这是最常见的划分聚类[11]。通过划分可以实现在被划分到同一个组的同簇中的对象之间具有较高的相似度,而在这个划分的组之外的之间的组它们当中的不同簇中的对象差别较大,而在在进行预测的过程中,我们通常情况下会把划分到一个组的簇中的数据对象作为一个整体来进行对待,而将其作为整体来对待的话会给我们减少许多没有必要的计算,提高了计算的效率。常见有K 均值聚类算法[12]。在下述的章节中我们将分别对这两类推荐算法的原理和实现方法进行简单的介绍。
2.2.1基于用户的协同过滤预测
基于用户的协同过滤算法应用广泛,这种算法通过用户的背景、行为、习惯、消费记录等特征判断他的消费兴趣所在,并对这些我们所收集到的特征进行度量和打分,之后根据不同用户对相同商品或者内容的态度和偏好程度计算两个不同用户之间的关系,在两者相似度比较高的情况下换言之也就是兴趣爱好性情相似的用户之间完成算法实现的预测得出结果。
这个算法首先需要首先发现兴趣相似的用户,相似度有很多种衡量方法,本文采用Pearson相关系数和余弦相似度计算两个用户之间的相似度。通过Pearson相关系数来计算时我们首先必须获取两个用户的共同评分,并且将那些有着共同评分的的n个商品看做一组向量,之后就可以通过引用公式2.1计算这两个用户在这n个商品上的评分的相似度。
(公式2.1) |
其中是用户u和v都评过分的项目的集合,是用户u所有评分的平均分,是用户v所有评分的平均分,和是用户对商品的评分。
另外一种计算余弦相似度的方法则是把用户的评分看作是一个向量,收集到两个用户的评分,这样就可以得到两个向量,这两个向量夹角的余弦就可以通过引用公式2.2来评估两个用户之间的相似性。
(公式2.2) |
和是用户对商品的评分。
得到用户相似度后,接下来的工作就是对相似度比较接近的几个用户的对于某件商品通过引用公式2.3进行评分预测。
(公式2.3) |
其中得到的就是用户u对物品i的评分的预测,K是全体样本的集合, 是余弦相似度,是用户对商品的评分,是用户v所有评分的平均分。
2.2.2基于物品的协同过滤算法
基于物品的协同过滤算法与上文所述的原理基本类似,只需将上文所提到的应用对象从用户换成商品即可。通过获取用户对商品的偏好和物品的口碑的评分,之后再通过计算不同用户对不同物品的评分,在获得物品之间关系之后,便可以根据算法完成对用户进行相似物品的推荐的任务。
2.2.3基于隐语义模型的协同过滤算法
SVD是数学中一种重要的矩阵分解方法,只有满秩的方阵才可以做特征值分解,任何实矩阵都可以通过公式2.4做奇异值分解[13]。
(公式2.4) |
在推荐系统中A代表item-user矩阵,即行向量是item向量,列向量是user向量。V是变换后的user向量,U是变换后的item向量。