数据驱动的用户行为预测方法及应用毕业论文
2021-10-27 22:25:56
摘 要
线上购物已经与现代人生活密不可分,用户群体在电商平台进行购物相关行为时,会产生大量行为数据,本文将用户的浏览商品行为数据作为研究对象,利用特征工程相关技术以及马尔科夫模型,对用户行为进行预测,并且对不同步长模型预测结果进行对比,所得结果对于电商平台的消息推送和精准营销具有重要的实际意义。
本文主要利用特征工程技术提取用户的浏览商品特征,通过将不同类型的一级特征进行二次组合,构建用户浏览商品的二次组合特征。二次组合特征表达的浏览商品特征更加准确,将该用户一天各时段的浏览所用流量最多的商品的二次组合特征作为各时段的状态,对各时段行为状态进行类别编码,作为数据驱动,利用加权马尔科夫模型对下一时段用户行为状态进行预测。研究结果表明:加权马尔科夫的预测结果准确,并且二次组合特征让预测结果更加地符合实际。通过对不同步长加权马尔科夫模型的预测结果进行对比,行为预测模型的预测结果随着步长的增多,可以在保证预测结果准确的前提下,表达出更加符合实际行为的预测结果,验证了利用加权马尔科夫模型进行用户行为预测的可行性以及优越性。
关键词:特征工程;马尔科夫链;数据驱动;用户浏览商品行为预测
Abstract
Online shopping is inseparable from the lives of modern people. When the user group make shopping-related activities on the e-commerce platform, a large amount of behavior data will be generated. In this paper, the user's browsing product behavior data will be used as the research object, using technologies about feature engineering and marcov models , to predict user’s behavior, and compare the prediction results of models using different step sizes. The results obtained have practical significance for the e-commerce platform's message push and precision marketing.
We mainly use feature engineering technology to extract the features of commodities the user browses, and construct the secondary combination features of the commodities by combination of different types of primary features. The features of products the user browses expressed by the secondary combination of features are more accurate. We use secondary combination features of the products with the most traffic used by the user in each time period of the day as the status of each time period. Then class-code the behavior status of each period as a data driver and use the weighted markov models to predict the user behavior state in the next period. The research results show that the prediction results of weighted marcov models are accurate, and the secondary combination feature makes the prediction result more practical. By comparing the prediction results of the weighted marcov models using different step sizes, the prediction results of the behavioral prediction model increase with the step sizes, which can ensure that the prediction results are accurate and express the results that are more in line with the actual behaviors. The weighted marcov model for user behavior prediction is feasible and superior.
Key Words:feature engineering;marcov chain;data-driven;user browsing product behavior prediction
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1研究背景及意义 1
1.1.1 研究背景 1
1.1.2目的及意义 1
1.2 国内外的研究现状分析 1
1.3研究内容与目标 3
1.3.1研究目标 3
1.3.2研究内容 3
1.4技术路线 4
第2章 基于特征工程的用户浏览行为分析 5
2.1 特征工程 5
2.1.1 特征提取 5
2.1.2 特征构造 6
2.1.3 特征缩放 6
2.1.4 特征编码 7
2.1.5 特征降维 7
2.2 用户浏览商品行为特征挖掘 7
2.3 用户浏览商品特征的二次组合 9
2.4 本章小结 11
第3章 基于加权马尔科夫模型的用户浏览行为研究 12
3.1 马尔科夫模型的建立 12
3.1.1 单马尔科夫模型 12
3.1.2 加权马尔科夫模型 14
3.2 用户浏览行为模型适用性分析 14
3.3 基于用户浏览行为的加权马尔科夫模型 15
3.3.1 基于行为状态的自相关系数构建 15
3.3.2 用户浏览行为状态转移矩阵构建 16
3.4 本章小结 18
第4章 基于二次组合特征工程的加权马尔科夫模型的设计与实现 19
4.1 二次组合用户浏览行为特征构建 19
4.2 电商用户行为预测 20
4.3 模型预测效果对比验证 22
4.3.1 各步长模型预测 22
4.3.2 模型预测效果对比分析 25
4.4 本章小结 26
结语 27
参考文献 28
致 谢 30
第1章 绪论
在当今网络如此发达的时代,电子商务平台成为了用户主流的购物平台。本章主要介绍了用户行为预测的研究背景以及意义,阐明了当今用户行为预测的重要性,分析该领域的国内外研究现状,简要的介绍常用的行为预测方法与技术,最后对本文的研究内容、目标以及技术路线图进行了阐述。
1.1研究背景及意义
1.1.1 研究背景
随着如今英特网的蓬勃发展,现代化的技术给社会以及人们带来了许多便利,也正是因为网络的发达,其产生的网络数据量也是极其的庞大,世界也迎来了“大数据”的时代。“大数据”在2008年首次被人们提出,其含义就是无法在一定时间内用常规的方法及其技术来管理甚至利用的庞大的数据集合。若对大数据的处理方法技术恰当高效,其可以成为有很强决策力的、发现力的和优化能力的信息数据集合。近年来数据信息总量突飞猛进,阿里巴巴创办人马云在台湾的演讲中就提到未来将是DT(Data Technology)的时代。通过对现有数据的准确分析,来对用户行为进行预测和研究,满足用户潜在的需求,为企业带来强大的经济效益。
1.1.2目的及意义
本文将利用二次组合特征工程与加权马尔科夫模型相结合的方法,对某用户的下一时段行为状态进行预测,将现有的用户浏览商品的信息进行过滤筛选,得到具有利用价值的行为状态信息,通过得到的原始行为状态信息,利用马尔科夫模型,对用户的浏览商品行为进行较为准确的预测。当准确的掌握了用户的浏览商品信息并且正确预测了用户行为,就可以提供更加准确优质的服务以及产品,给用户提供更加个性化的推送服务,在潜在地增加了平台收入的同时,也大幅度提高客户的满意程度。
1.2 国内外的研究现状分析
经过近十年的中文文献以及近五年的英文文献的阅读,对国内外用户行为预测的研究现状分析如下:
宋美琦,陈烨,张瑞 [1]梳理了国内外2008年至2018年的相关文献,由此总结了不同层面用户画像技术的应用价值,强调使用更加多维的数据使用户画像更加准确。