登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

O2O优惠券使用预测毕业论文

 2020-02-23 18:18:43  

摘 要

随着移动设备的完善和普及,人们的支付方式目前较多依赖于移动终端支付:如使用支付宝、微信等支付形式,与此同时,美团、口碑网等典型online to offline性质的App也逐渐占领市场。O2O(online to offline)商业模式是一种将实体经济和线上资源融合到一起的新兴商业模式,而目前使用优惠券刺激老用户的活跃度以及吸引新客户进店消费,是O2O平台的一种重要营销以及提高用户活跃度的方式。

然而O2O平台没有经过优化的优惠券投放具有随机性,易对多数用户造成无意义的干扰,导致电子浪费并且容易造成用户不良的使用感,从而放弃使用优惠券甚至是此App,所以优惠券的个性化投放对O2O商业模式具有十分积极的意义。

本文基于阿里巴巴天池官网提供的2016.01.01至2016.06.30对用户优惠券领取以及线下消费中优惠券的核销行为记录的数据表,用户线上点击、优惠券领取以及消费中优惠券核销行为的纪录表,从中抽取有效特征,根据数据分布以及特征选择适合的分类器,对2016年7月份用户领取优惠劵后是否核销的结果进行预测,从而达到较好的预测效果。

关键词:O2O; 优惠券; 分类器; 个性化投放; 预测

Abstract

With the perfection and popularization of mobile devices, people’s payment methods currently rely more on mobile terminal payment. For example, PayPal, WeChat and other forms of payment are used. At the same time, apps such as U.S. Group and Koubei’s typical online to offline app gradually Dominate the market. The O2O (online to offline) business model is an emerging business model that integrates the real economy with online resources. At present, the use of coupons to stimulate the activity of old users and attract new customers into the store is one of the O2O platforms. Important marketing and ways to increase user activity.

However, the O2O platform does not have randomized coupons that have not been optimized. It is easy to cause meaningless interference to most users. This causes electronic waste and can easily cause users to use the coupons, thus giving up the use of coupons or even the app, so coupons Personalized delivery has a very positive significance for the O2O business model.

This article is based on the data sheet of the record of the cancellation of user coupons and offline coupons from 2016.01.01 to 2016.06.30 provided by Alibaba's official website. The users click online, receive coupons, and consume coupons. The record of the sales behavior table, which extracts effective features from the list, selects the appropriate classifier according to the data distribution and features, and predicts whether the user will receive the discount after July 2016, so as to achieve a better prediction effect.

Keywords: O2O; coupons; classifiers; personalized delivery; forecast

目 录

第1章 绪论 1

1.1研究背景与意义 1

1.2国内外发展研究现状 2

1.2.1国内发展研究现状 2

1.2.2 国外发展研究现状 2

1.3 研究内容 3

1.4 本文的组织结构 3

第2章 数据特征提取 4

2.1数据预处理 4

2.1.1数据宏观分析 4

2.2.2具体数据分析 4

2.2数据处理 7

2.3特征提取 7

2.3.1用户线下相关的特征 7

2.3.2用户线上相关的特征 8

2.3.3商家相关的特征 9

2.3.4用户-商家交互特征 9

2.3.5优惠券相关的特征 10

2.4特征融合 10

2.5本章小结 10

第3章 基于XGBoost模型的预测 11

3.1 XGBoost原理 11

3.1.1XGBoost原理概述 11

3.1.2XGBoost优点 11

3.2基于XGBoost的实验 11

3.2.1XGBoost算法设计 11

3.2.2参数设计 12

3.1.4 XGBoost参数调优 14

3.3实验结果 15

3.3.1训练AUC值 15

3.2.2实验结果 15

3.2.3保留特征评分特征重要性分析 16

3.3实验优化 16

3.3.1预测集的特征提取 16

第4章 结论 18

4.1总结 18

4.2展望 18

致谢 20

参考文献 21

第1章 绪论

1.1研究背景与意义

随着智能手机以及互联网技术在现代社会的完善和普及,支付方式从以前的现金支付、刷卡机终端支付,变成了随处可见的二维码支付,与消费紧密相关的优惠券也逐渐电子化。各行各业搭上了互联网这班疾驰的列车,进入了高速发展阶段,这其中以线上-线下的消费模式最为吸引眼球。Online-to-Offline电子商务模式,是连接线上用户和线下商家和整合线下资源的多项连通商业模式[1]

O2O商业模式是一种立足与本地生活,为人们提供便利实惠,将实体经济与线上用户连接在一起,通过网络让实体经济可以延伸到虚拟世界的渠道,是在如今以淘宝为首的线上经济如火如荼的情况下,为实体线下经济注入活力的一种新兴商业模式。线下实体营业商户可以采用线上吸引和发掘的方式招揽客户;同时消费者可以在实体店消费前,在线上进行商品的筛选及支付[2]。TrialPay 创始人 AlexRampell提出了这样的模式,随后被应用于 2006年沃尔玛公司的B2C战略中,以网络团购的形式出现在人们的视野中[3]

目前,各互联网公司运营的O2O电商不止拘泥于旧形式,而是与社交网络如微信、qq、微博以及手机支付终端、定位完美结合。在原有的通过网络组团购买的基础上,还添加了根据网络购买用户定位提供的支付优惠、买卖论坛、个性化推荐商品等的增值服务[4],从事 O2O 电商的企业更是数以万计,除了美团、Foursuare、大众点评等后起之秀外,还不乏FaceBook、Twitter、腾讯和百度等业界巨鳄也希望能在O2O巨大的市场份额中分一杯羹,与此同时,O2O 电商交易额也在以指数级的速度地增加。O2O行业因为其本身消费的特点,关联着世界各地数亿的消费者,各类APP每日记录的用户行为和位置记录超过百亿条,因而成为大数据科研和商业化运营的最佳结合点之一。 面向O2O平台的数据挖掘对于精准营销的实施、O2O平台的优化、客户关系的稳定、增值服务的实施以及对用户实现个性化推荐都有非常重要的意义。

O2O产业产生的消费和交易量日益增长,用户对于服务的要求也逐步提高。企业不仅需要实现对消费群体的精准定位,还要实现商品服务的个性化定制以及对优惠券的精准营销。事实上,随着数字时代的深化,优惠券的形式也在不断地改变[5]。技术的发展给优惠券的存在创造了新的形式。以智能手机为例,可以通过网站、app、小程序为用户推送优惠券信息,而用户不需要接 触商户就可以领取到优惠券,优惠券存储在用户设备中,因为非常便于随身携带所以使用率得到了相对的提高。智能手机与互联网交易平台的出现使得商户传统管理优惠券的模式产生了翻天覆体的变化,而且也促进了O2O平台的勃发,另外对于用户,也达到了真正的实惠的关注。

国内O2O平台中目前与用户行为联系最突出的就是线上优惠券与线下的店面消费相结合的方式。目前,O2O平台的营销手段主要是通过优惠券来激发老用户的二次购买欲,增加新的客源流量。每个用户的消费行为是不同的,这就导致优惠券的随机投放将容易产生一些负面的情况,对于无消费需要的用户来说,将会产生厌烦情绪,同时对商家和平台而言,这样大量地发放优惠券会使用户产生该产品是滞销搞活动,产生抵制的消费心理。这样,不仅浪费了优惠资格、营销成本大大提升,还在一定程度上拉低了用户的消费量。所以对于优惠券的定向投放是提升优惠券核销率的重要手段。

1.2国内外发展研究现状

1.2.1国内发展研究现状

目前,国内各具有O2O业务的公司都有团队在致力于实现算法的优化如支付宝、美团等,能够实现对客户的精准营销和个性化推荐的服务,从而增加用户粘性。不少公司不仅是内部团队在为此工作,并且举办了许多比赛,开放了不少用户消费行为的数据供参赛选手研究,通过比赛的方式集思广益。其中蚂蚁金服在16年底举办了大数据与计算智能系列赛之O2O优惠券使用情况预测,为参赛选手提供了O2O线上线下场景中,优惠券信息以及用户消费等有关的大量数据信息,希望参赛方通过分析数据、构建数学模型的手段,根据提供的用户数据来预判该用户在规定的时间段内使用相应优惠券的概率,以为提供对用户最有用的优惠券打下数据基础。

1.2.2 国外发展研究现状

国外020电子商务模式发展早于我国,并且由于国情以及消费习惯的关系,在早期已经发展得比较成熟,例如 Uber和Groupon。各类公司业务划分得比较清晰,针对于用户和商户/企业的研究优化主要是一些专业的公司,具体如下:

  1. Everstring:Everstring是一个用户预测系统,通过不断地主动对全网在线企业的信息进行数据挖掘和数据分析,将每家企业内部的客户关系管理系统获取到的信息结合起来,利用机器学习对客户模信息进行量化,建立模型精准预测谁是下一个客户。
  2. Dato:GraphLab提供了一个完整的平台,可以从别的应用程序或者服务中抓取数据,使用机器学习手段处理学习这些数据,并在机器学习得到的知识为基础上,能够进行正确的预测和相应决策的制定。

3.Zementis: 预测分析决策管理平台。

1.3 研究内容

定向投放是使优惠券核销率得到提高的重要方法,它可以通过消费者的消费行为做出正确发放优惠券的决策,使得用户可以得到真正意义上的优惠,同时提升商家在用户群中的口碑和形象。本文通过对O2O消费场景相关的丰富数据的分析和建模,并选择合适的分类器对于用户在规定时间内使用相应优惠券的概率进行精准预测。

本文对于实验结果采用的评价标准是优惠券核销预测的平均AUC值(ROC曲线下面积)的大小,即对每个优惠券coupon_id单独计算核销预测的AUC值,再对所有优惠券的AUC值求均值,AUC值越大,代表预测的准确率越高。

1.4 本文的组织结构

本文对于O2O(offline to online)商业模式下,在营销方面存在的优惠券泛滥问题进行了分析,进行对现有的消费数据进行特征工程,基于Xgboost模型实现O2O优惠券使用情况的预测。本文的组织结构安排如下:

第一章介绍了课题研究的背景和意义,分析了国内外关于客户的精准营销和O2O商务模式下的个性化推荐的研究现状,对课题的主要研究内容进行了简要阐述。并对本文的研究工作和论文的结构安排进行总结。

第二章从宏观和现实意义介绍了消费数据,介绍了数据表各个字段代表的意义,以及字段共同决定的用户行为。分析了对用户使用优惠券进行消费的影响因素,完成了对消费数据特征的提取。

第三章介绍了XGBoost模型,提出并实现了基于XGBoost模型的O2O优惠券使用情况预测。

第四章总结和展望,对本文提出的研究方法和实验结果进行分析总结,并提出不足之处和改进的方向。

第2章 数据特征提取

2.1数据预处理

2.1.1数据宏观分析

阿里天池官网提供的数据分为3个表,表格信息如表2.1所示。分别表示用户线下消费和优惠券领取行为、用户线上点击/消费和优惠券领取行为以及用户O2O线下优惠券使用预测样本。其中,数据表offline_train中包含1754884条记录,其中有1053282条领取优惠券的记录,共计539438个用户,9736种优惠券,8415个商户。领取优惠券区间为:20160101-20160615;消费区间为:20160101-20160630。

表格名称

数据描述

数据大小

offline_train

用户线下消费和优惠券领取行为

1754884条

online_train

用户线上点击/消费和优惠券领取行为

461509KB

offline_test_revised

用户O2O线下优惠券使用预测样本

76309条

表2.1 数据宏观分析表

对于用户O2O线下优惠券使用预测样本off_test_revised数据表:其中76307个用户与offline_train表(下面简称为表1)有交集(76307/76309);35965个用户与online_train表(下面简称为表2)有交集(35965/76309);1558个商户与表1有交集(1558/1559),优惠券ID与是全新的,与表1表2均无交集。通过对3个数据表进行数据统计,我们可以看到要进行的7月份优惠券消费预测的用户和商户都与表1表2有大量的交集,这意味着我们可以通过对表1表2进行用户和商户的特征提取,另外优惠券虽然没有重复的id,但是通过优惠券的特征(满减或折扣率)提取,从而达到对7月份优惠券消费的准确预测。

2.2.2具体数据分析

数据表offline_train的字段含义如表2.2所示,记录了用户的优惠券领取情况、优惠券的优惠力度、使用情况、用户的消费情况,以及用户常活动地点与商户的最近门店距离。根据表2.2以及具体数据可知,数据中的Date字段代表是否领消费,coupon_ID字段代表是否领取优惠券,这两个数据决定了用户行为有三种情况:领了优惠券但是未消费,没领优惠券已消费为常规消费,以及领了优惠券并已消费为优惠券消费。所以本数据作为刻画线下用户特点的主要依据较为合理。字段discount_rate记录优惠券的优惠率,有可能用户会根据优惠率来决定是否进行消费。

字段distance记录了用户离商户的最近门店的距离,离用户较近的门店可能会总领取优惠券,但不一定会每一张优惠券都使用。离用户较远的门店如果有优惠券,用户可能不会领取相关的优惠券,但也可能领取优惠率较高的优惠券,之后专程去使用。

领券日期和消费日期的联系可以刻画出用户的消费习惯,如果领券日期为周末之前一两天,那么在其他因素相同的情况下,此优惠券的核销率可能会稍微高一些。如果领券日期为周一,可能此优惠券的核销率会稍低。总之,本数据集比较适合用于刻画线下用户特征,描述用户消费偏好:对优惠折扣、商户距离的敏感度,以及消费日期的偏好。

列名

描述

User_id

用户ID

Merchant_id

商户ID

Coupon_id

优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_received字段无意义

Discount_rate

优惠率:x \in (0,1)代表折扣率;x:y表示满x减y。单位是元

Distance

user经常活动的地点离该merchant的最近门店距离是x*500米(如果是连锁店,则取最近的一家门店),x\in(0,10);null表示无此信息,0表示低于500米,10表示大于5公里;

Date_received

领取优惠券日期

Date

消费日期:如果Date=null amp; Coupon_id != null,该记录表示领取优惠券但没有使用,即负样本;如果Date!=null amp; Coupon_id = null,则表示普通消费日期;如果Date!=null amp; Coupon_id != null,则表示用优惠券消费日期,即正样本;

表2.2 用户线下消费和优惠券领取行为

数据表online_train的字段含义如表2.3所示,记录了用户的优惠券点击浏览情况、领取情况,优惠券的优惠力度、使用情况以及用户的消费情况。根据表2.3以及具体数据可知,数据中的Action字段代表了用户的点击、消费、领取优惠券的行为。Date字段代表是否消费,coupon_ID字段代表是否领取优惠券,这三个数据决定了用户行为有五种情况:(1)用户点击了该优惠券但没领优惠券并且未消费。(2)用户点击并领取了优惠券但是未消费。(3)用户点击并领取了优惠券并且已消费。(4)用户点击但是没领取优惠券并已消费。(5)用户没有点击动作。所以本数据作为刻画线上用户特点的主要依据较为合理。字段discount_rate记录优惠券的优惠率,用户会根据优惠率来决定是否进行点击浏览以及领取消费。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图