基于用户时空行为特征的知识资源精准推荐毕业论文
2020-02-19 17:01:23
摘 要
网络的迅猛发展已经影响到人们触手可及的方方面面,用户不仅产生了大量线上信息,还有现实的行为信息,经过复杂的采集和筛除机制,可得到饱含时空信息的数据,分析这些信息背后的语义信息能否精准地作为下次动作的预测,能否把基于线上操作的信息结合线下用户具体的时空环境做知识资源的推送,是亟待解决的问题。针对时空数据研究和知识付费行为的研究不在少数,但是几乎是分散的讨论。未来知识的分享与推荐的趋势将越来越强调精准性,故利用时空行为得到用户画像,再二次重复时空轨迹推送资源将打破原有知识推荐被动化的局面。本文利用时空聚类方法分析用户行为轨迹路线,得出时空相关性和行为属性特征的相关结论,利用此结果进行用户画像,最后结合具体时空信息作出推荐,为知识资源精准推荐提出新的思路。
关键词:时空数据 用户行为 知识资源 精准推荐
Abstract
The rapid development of the network has affected all aspects of people's reach. Users not only generate a large amount of online information, but also realistic behavior information. After complex collection and screening mechanisms, data can be obtained and analyzed. Whether the semantic information behind can be accurately predicted as the next action, whether the online operation-based information can be combined with the specific time and space environment of the offline user to push the knowledge resources is an urgent problem to be solved. Research on spatio-temporal data research and knowledge-paying behavior is not rare, but it is almost a decentralized discussion. The trend of sharing and recommending future knowledge will increasingly emphasize accuracy. Therefore, using time and space behavior to obtain user portraits, and repeating time and space trajectory push resources will break the passive situation of original knowledge recommendation. This paper uses the spatio-temporal clustering method to analyze the user behavior trajectory, and draws the relevant conclusions of spatio-temporal correlation and behavioral attribute characteristics. The results are used to make user portraits. Finally, the specific time-space information is used to make recommendations, which proposes new ideas for accurate recommendation of knowledge resources.
Key words: Spatio-temporal Data; User Behavior; Knowledge Resources; Accurate Recommendation
目录
摘要 I
Abstract II
第1章 绪论 1
1.1 研究背景 1
1.2 研究目的及意义 1
1.3国内外文献综述 1
1.3.1时空数据语义发掘 2
1.3.2知识资源精准推荐方式 2
第2章 用户时空行为相关理论研究 4
2.1时空行为的定义及特征 4
2.1.1时空行为的定义 4
2.1.2时空行为的特征 4
2.2时空行为数据的来源 5
2.2.1 时代背景 5
2.2.2 时空行为数据源 5
2.3时空数据转化为用户行为特征分析维度 6
2.3.1地理位置 6
2.3.2时间序列 6
2.3.3时空关联 7
第3章 知识资源发展历程及用户接受推荐的影响因素分析 8
3.1 时代背景 8
3.2 知识领域的发展趋势 9
3.3 用户接受知识资源推荐的影响因素分析 9
第4章 知识资源推荐的现状与存在问题 11
4.1 知识资源推荐的传统方法 11
4.1.1 基于内容的知识推荐模式 11
4.1.2 基于协同过滤的知识推荐模式 11
4.1.3 基于组合形式的知识推荐模式 12
4.2 传统方式所面对的问题 13
4.3 知识付费领域的优化建议 13
第5章 基于用户时空行为特征精准推荐的优势及挑战 15
5.1实现时空行为特征与知识资源精准推荐的步骤 15
5.1.1时空轨迹数据和用户行为轨迹聚类分析 15
5.1.2将用户分群多维标签化,得出用户画像 16
5.1.3结合用户画像和实时时空,精准推送知识资源 17
5.2利用用户时空行为特征进行知识资源精准推荐的优势 17
5.3基于时空行为特征进行精准推荐面临的挑战 18
第6章 结论 19
参考文献 20
致谢 21
第1章 绪论
1.1 研究背景
地理信息技术和无线通讯技术如同并驾齐驱的马车,使人们对蕴含大量个体行为数据的采集方式逐渐健全,用云计算和大数据来处理电商时代的一系列营销已经游刃有余。科技向前发展,推动经济已经慢慢脱离对物质和经验的依赖感,个体在知识拓展、精神的富足的追求,都离不开知识和信息的筛选和接受,2016年以来知识付费形成燎原之势,得到、知乎和微博等问答社区都说明市场对于知识有强烈的需求。是否可以利用个体的时空行为数据分析用户画像并结合实时时空进行知识资源精准推荐成为不容小觑的知识付费发展之路。
1.2 研究目的及意义
未来是一张开放的网,网络的迅猛发展将会影响到人们触手可及的方方面面,物联网发展的趋势势不可挡,人不仅在其中发出指令完成大量单次动作,这些动作产生了大量信息,经过复杂的采集机制,这些信息经过筛除后又可得到饱含时空信息的数据,分析这些信息背后的语义信息能否精准地作为下次动作的预测 ,能否把基于线上操作的信息结合线下用户具体的时空环境做知识资源的推送,是亟待解决的问题。
在往常,对海量的知识资源和用户进行标签匹配已经足够让人生畏,此种方案还要收集海量的用户行为数据,并结合实时位置分析,看似是在把事情变得更加复杂,但考虑到任何推荐最终落脚点都应该回归至用户本身,根据其种种表现,数据能比他们自己更深刻了解自己,在他们看到推荐时,他们应该要想说,我刚想说这个有没有好的课程,这就来了。把已经很熟悉的用户放在一个特定的时间空间里,需要给他推送的资源会更好定位,如此看来,应该采取先做加法,再做减法的策略。在融合发展之下,知识资源要像打破僵局,与其他传媒相比形成自己的核心竞争力,就要规避短处,努力抓住机遇,顺风迎接挑战。综上所述,根据知识资源推荐面临的生存现状,探究其发展的路径,提出优化建议,有重要的现实意义。
1.3国内外文献综述
4G和现在已经提上议程的5G技术的迅速发展,移动端的普及,都让访问互联网的用户与日俱增,甚至逐渐达到峰值。用户们从尝试选择到慢慢依赖,越来越多用户都在使用移动终端来完成购物、支付、查询、娱乐等以往需要通过PC端来完成的日常生活需求。若非刻意控制,人类已经离不开移动设备,故由此生成来海量带有用户时空属性的数据。时空数据往往携带了大量隐藏的语义信息,这些含义的获得在一方面可分析用户偏好,另外还可据此推测用户需求,进而提供精准时空推荐和预测服务,作用不可小觑。因此,已经有很多学者把目光聚焦此处,时空数据的理解和应用成为了时空数据挖掘领域的研究热点。
在互联网时代,移动互联网的高速发展下,物质满足已经达不到人们的心理需求,各种产业形态的重构催生了新的业务形态,在以旺盛生命力蓬勃发展的产业里,共享经济下知识和技能的经济化突破了对机构和职业的层层壁垒,占据上风。在过去几年,在这个行业里发展迅速的企业越来越夺人眼目,如罗辑思维团队出品的知识服务产品“得到”,以付费音频订阅为主打的“喜马拉雅FM”,以知识问答大V代言的产品“知乎”,在各种社交平台上,都能找到付费问答与订阅模式的付费知识栏目。针对知识资源推荐,具体分析算法的文章和研究如何准确的抓取用户的喜好的文章较多,还有一部分文章讨论影响用户为知识付费因素及未来发展趋势。
综合起来主要是分两个方面对时空行为特征和知识资源推荐进行了论述。
1.3.1时空数据语义发掘
刘大有等人[1]对近些年的时空数据挖掘研究进展进行了概括,归纳了时空数据的挖掘任务,并对这五类任务的研究进展作了介绍。姚迪等人[2]对理解时空数据元素的含义进行了系统的归纳和总结,然后,整理了时空语义的注释方法。最后,从用户行为角度切入时空数据语义可以应用的领域及未来可研究方向。胡立等人[3]设计了一种基于用户轨迹聚类分析的推荐算法,首先获取用户的停留点,再根据所有停留点间的地理位置紧密程度做聚类分析,进行相似度比较,最后用真实的轨迹验证算法的准确性。秦昆等人[4]分析了行为轨迹时空聚类挖掘的方法和思路,提出了求解方法,并通过三个应用展示其应用成果。孟祥武等人[5]总结了关于用户轨迹数据的移动推荐系统的一些手段和模型,具体论述了其特点,在传统模式上作的继承和创新,最后分析了这类应用的发展趋势和前景。李艳妮等人[6]设计了多视图多粒度可视方式,通过有效利用数据的时空属性等,识别用用户行为。
1.3.2知识资源精准推荐方式
宋建超[7]指出了知识付费的发展困境,并对其发展趋势作出探索,提出知识付费不仅需要优质内容,知识付费核心的商业价值在于分享体验。当前商业模式虽然对准内容,但发展趋势将更强调分享的精确匹配和社交性。王传珍[8]提出稀缺的优质知识产品形式变得轻便、直达,在传播、支付、评价体系的不断完善下,交易闭环完成。种种便利让知识付费产品的用户接受度更高。与外卖等传统经济不同,知识交易的频率相对低且个性化程度非常高。 陈燕[9]分析知识付费的现状,明确现阶段知识付费的瓶颈和制约因素,分别从法律规范、技术支持、内容细分、用户运营提出了知识付费平台应对此作出的四大改变。马小培[10]分析了知识推荐服务在移动环境下的时代特征,再从内容推荐、协同过滤、组合推荐三个方面探讨了推荐模式的优劣,最后以动力出发,分三个维度讨论了保障机制。吴彦文等人[11]指出海量的数字资源让用户检索时不能有效把握,会浪费大量时间和精力,指出了基于单一推荐方法都会导致检索结果片面,提出一种基于数字资源聚合模型的多标签协同过滤推荐方法。
从以上研究材料可以看出,针对时空数据研究和知识付费行为的研究不在少数,但是几乎是分散的讨论。未来知识的分享与推荐的趋势将越来越强调精准性,故利用时空行为得到用户画像,再二次重复时空轨迹推送资源将打破原有知识推荐被动化的局面。考虑将其组合的方式少有人提及,我将试图着力对此加以探究,为此前研究的不足做必要的补充。
第2章 用户时空行为相关理论研究
2.1时空行为的定义及特征
2.1.1时空行为的定义
随着无线通信技术的广泛应用、移动手机的普及、大众对网络观念和使用习惯的改变,以及快速创新的移动终端,其市场占有率大幅提升,互联网发展的速度和发展规模,大大超乎了多数人的想象。广域的泛在网让网络像影子一样随时随地、如影随形成为可能,除了睡眠时间,大多用户都会随身携带移动设备,用户日常使用的应用程序提供了大量包括时空行为的信息,使得获取数据更高效便捷。
对个体而言,时空行为表现为在指定时间和空间范围内,所采集数据对象在一定时间范围内在地理位置上的移动。
2.1.2时空行为的特征
不管是“日出而作,日落而歇”的生理规律,还是朝九晚五的职业规律,作为组成社会关系的人,在时间方面总在遵循一定的规律行动,这些规律和其他社会属性比如职业种类、生活习惯、性格爱好碰撞在一起,就造成了复杂的时空移动行为。随着研究的深入,收集和分析数据的不断完善,科学家对人类行为在时间上满足泊松分布的质疑,并提出了非泊松分布和阵发的行为特征。
人类行为的空间特征在很大程度上取决于社会资源的分布,社会资源的扩散和集中会清楚地影响到人类转移下一地点的趋势,这也与人类转换地点往往即转换社会角色和目的有关。在最初的研究中,个体移动选择的下一地点往往是随机的,即随机游走模型。随移动设备兴起的定位服务,人们通过大量及时动态的地理数据分析,提出人类行为表现具有“莱维飞行” 特性,大部分时候只会进行小距离的地点转换,但随着交通便利也有很大概率也会做长途飞行,又由于现实生活中人类活动都是有一定边界,被认为作为布朗运动一般形式的简单的莱维飞行扩充至“戴尾莱维飞行”。
人类行为在时间和空间维度上的规律性,可以更好得帮助我们预测运动轨迹,把握用户画像,除此之外,人类时空行为的规律性,不仅表现在个体维度上的地点偏好,也会因为社交网的相互影响,展现为群体层次上的 “潮汐效应”。
2.2时空行为数据的来源
2.2.1 时代背景
这是一个不断变革的时代,互联网带动物联网发展,人们对其接纳度大大提升,在大数据以及云计算等不断涌现的新技术和新革命所创造的条件下,使想法变成现实更具有可靠性。以往面对庞大的数据,要么无法采集,要么采集了无法发现价值所在,一叶障目导致一无所获,进入大数据时代后,我们逐渐转换视角,以往对因果关系的执着慢慢转化为对相互关系的探索,我们得到的数据,除了告诉我们知道了什么,还教会我们了解为什么,拥有数据后,按照有效筛选、分析、推断的步骤,我们可以从客观层面上更靠近真相。大数据的出现将使移动互联网和社交网络奔向一个全新的征途,精准营销在建模分析的完善下在个性化时代谱写新的曲子。
2.2.2 时空行为数据源
大数据的“大”体现在四个典型特征上,数据在数量上巨大,数据增长速度快、类型繁多以及单位数据价值密度低、总体数据价值大。如何在庞大复杂的总体数据量中最大范围地发现个体用户时空数据的价值好比沙里淘金,这个问题的最终指向是通过何种渠道蕴含大量用户时空行为信息的数据。进入21世纪,在地理信息系统技术和无限通信技术逐渐发展、利用计算机进行时空分析的理论和实践的不断完善的情况下,以前困扰科学家的难题——获取数据手段单一得到了解决,各种信息平台的发展为获得更全面和复杂的用户时空行为数据提供了更大的可能。可以获取优质用户时空行为数据的大数据源主要有以下:
移动数据及移动应用数据。快速普及的智能手机使移动手机用户在数量上大幅增长,传统方式是通过移动基站获取实时监测移动设备信号,获取移动设备的实时位置。移动端的核心节点已经由PC端转移到每个“人”身上,基于智能手机的移动应用程序,例如微博的打卡、淘宝的签到,抑或是社交平台,都大量记录了用户的时空信息。且用移动数据采集还具有更明显的优势,手机作为人人必须的随身物品,定位可以实时移动,比起传统的基站收集,更具有实时性、稳定性、准确性。
社会媒体数据。包括腾讯QQ、微信、抖音、微博、快手等社交网站数据,它们反映了用户的情绪、喜好和社交行为。以抖音为例,在2018年抖音数据报告中,抖音日活跃用户已经突破2.5亿,国内月活跃用户突破5亿,日均上传量为1000万条,日均使用时间为20.27分钟,单条视频点赞量最高能达1966万。此类数据不仅量大、更新速度快,而且用户参与度高,结合抖音打卡和喜好等功能,可获取用户优质大数据。
传感器网络实时感知监测数据。随着物联网的发展,传感器的形态也在发生巨大变化,不仅能生成传感数据,还能对数据进行压缩、加密等智能处理,体积变小,成为通信设备的一部分,和多种传感器形成一个智能传感网络。
企业应用数据。该类数据可记录用户的购买行为,对于长期的喜好分析和用户画像有重要意义。例如支付宝可记录单个用户的消费情况,还能进行店家的位置信息和交易时间的获取,公交和地铁这种遍布城市的出行方式的电子卡化可获取用户的实时位置信息。
2.3时空数据转化为用户行为特征分析维度
2.3.1地理位置
地理位置能够在一定程度上直观反映用户的可能行为,属于时空数据的基本单位。利用地理位置可以清楚辨认出用户的轨迹、兴趣区域、路线,其具有静态和隐藏两类属性,前者指不随时间变化发生改变或变化不明显的本质属性,例如教学楼占地面积、可容纳学生人数。而后者则指在地理位置之下隐藏的信息,比如每个教学楼里教室的课程每年都在发生变化,在不同时期还会举办大型考试等活动,这类信息往往不能根据直观观察得出结论。理解地理位置所包含的用户行为可通过以下框架进行研究。
通过采集用户地理位置中的轨迹和他的停留区域可以轻易发现用户的习惯和爱好,比如一个总是出现在健身房的人,可推断他对健身和健康等相关领域的兴趣会比较高,而一个定时到访书店的人,则可大胆判断这是一个喜欢阅读的人或身边有阅读需求的孩子。研究其停留区域的多名用户,还可发现群体兴趣相似性。这是因为地理重叠往往也代表此地的硬件设备和氛围的束缚,例如被早上超市的打折活动吸引而来的大爷大妈和家庭主妇,或者经常去同一家电影院的用户,往往可以为他们找到起码一个共同的标签,根据标签很容易分析得到 该人群的爱好。当然,从广义上讲,就算他们没有出现在同一个地点,但当他们到达的都是一种类型的场所时,我们也完全可认为他们也具有相同的行为兴趣。例如在不同省市的A、B,出现在咖啡馆的几率都很高,虽然他们没有在一个地理位置,但他们的行为模式还是相似的,很大几率拥有同一个兴趣。
2.3.2时间序列
时间属性在用户行为中表现为用户的某个观测值随时间的变化规律。最显著的特征是轨迹的规律性和周期性,可以据此推断用户的行程规律,根据行程判断其职业和性格。
用户行为的先后顺序往往也隐藏着特殊语义,从该活动规律可进行位置预测,根据用户停留地点的时间间隔到下一次转换地点,可以总结出区域游离程度,从而判断用户属于开放性抑或内敛性格。除此之外,还一个重要的指标是访问频次,及访问同个地点的频繁程度,根据到达地点的频繁程度可以把用户的爱好等排序,挖掘更深层次的喜好和习惯。
2.3.3时空关联
时间和空间往往能在最大程度上限制人们的活动,反映人深层次的行为模式,一部分原因是在特定的时间和场合,人们会自觉约束自己的行为,比如参加大型会议,不仅在时间层面上受到个人日程安排的限制,空间层面上已指定特定场所,且与会人员、个人性格、交流方式都会影响到会议的成果;而外在的基础设施和场景布置也是引起用户行为变化的重要因素,例如居住在同一个地区的老人有更大的几率在早晨或傍晚选择同一个公园散步,小孩子选择同一个幼儿园,家庭主妇选择同一个菜市场或大型超市,这些共性就是人在能力或给定的工具下引起的行为制约。
第3章 知识资源发展历程及用户接受推荐的影响因素分析
3.1 时代背景
进入二十一世纪以来,科技革命推动了信息的传播,知识逐渐取代物质和经验成为推动经济发展的主导元素,人类已经进入知识经济时代。知识经济是以知识为基点,立足于知识的创新、分享与应用基础上的经济。作为新经济形态的一种表现形式,它以不断发展的科学技术为核心,是在知识信息的生生不息的产生、分配、存储、使用和消费之中不断扩大的经济 。