基于大数据分析的个性化推荐系统毕业论文
2021-04-05 10:46:44
摘 要
随着计算机科学技术的不断进步,人们已经来到大数据的时代,为解决信息量过载的问题,提出了个性化推荐系统的解决方案。在大数据时代的背景下,传统的推荐技术对数据的处理不够快速,因此,利用Hadoop分布式并行计算的方式,有效提高了对大数据的处理能力和计算速度。
本文主要实现了基于大数据分析的个性化推荐系统,重点研究了大数据框架Hadoop和推荐系统经典的基于物品的协同过滤算法,完成了个性化推荐系统。本文首先研究了推荐系统的关键技术和大数据分析的开发环境,基于Hadoop分布式平台,在Linux环境下完成了实验平台的搭建。然后对推荐系统的功能进行了设计,对整个实验的过程进行了分析,使用MapReduce编程模型完成对数据的计算和处理,将推荐结果显示出来,推荐结果达到了预期的要求,实现了个性化的推荐。
关键词:大数据;推荐系统;协同过滤;Hadoop
Abstract
With the continuous progress of computer science and technology, people have come to the era of big data. In order to solve the problem of information overload, personalized recommendation system is proposed. In the context of the era of big data, the traditional recommendation technology is not fast enough to process data. Therefore, Hadoop distributed parallel computing method can effectively improve the processing capacity and computing speed of big data.
This paper mainly realizes the personalized recommendation system based on big data analysis, focuses on the study of the big data framework Hadoop and the recommendation system's classic collaborative filtering algorithm based on items, and completes the personalized recommendation system. The paper first studied the key technology of the recommendation system and the development environment of big data analysis. Based on the Hadoop distributed platform, the experimental platform was built under the Linux environment. Then, the functions to be realized in the recommendation system are designed and the process of the experiment is analyzed. The MapReduce programming model is used to complete the calculation and processing of the data. The recommendation results are displayed.
Keywords: big data;recommendation system;collaboration filter;Hadoop
目 录
第1章 绪论 1
1.1研究背景与意义 1
1.2国内外研究现状 2
1.3论文主要研究内容 3
1.4论文组织结构 4
第2章 关键技术概述 5
2.1推荐系统概念与应用 5
2.2 基于物品的协同过滤推荐算法 5
2.3 Hadoop技术概述 6
2.3.1 Hadoop概述 6
2.3.2分布式文件系统HDFS 7
2.3.3 MapReduce技术 8
2.4 Java图形用户界面 10
第3章 系统设计与实现 11
3.1推荐系统模型架构 11
3.2系统设计 12
3.3实验环境搭建 13
3.4实验数据 13
3.5实验过程 14
3.6结果与分析 15
第4章 总结与展望 19
4.1总结 19
4.2展望 19
参考文献 21
附录 23
致谢 27
第1章 绪论
1.1研究背景与意义
随着社会逐渐的发展和进步,如今已经进入了互联网的时代,互联网融入了人们生产和生活中,已经充斥着生活的方方面面。与此同时,各种电子设备的不断更新,各种智能应用的纷纷涌现,正在不断改变我们生活的方式。然而,随着互联网用户数量的持续的增多,互联网中的数据量的急剧增长,有许多知名的网站如京东、淘宝、豆瓣等网站的访问量巨大,人们获取信息的方式不再匮乏,逐渐发展成信息量过载的现象。面对海量的互联网信息数据时,人们不能精确的找到自己将要用到的信息,获取有用的信息的过程也变得繁复。在推荐系统出现之前,搜索引擎是处理用户信息负载量过大的主要形式,但搜索引擎仅仅是通过用户的输入来匹配用户所需要的信息并且反馈给用户,但在这个过程中,数据量依旧十分的庞大,找到符合自己所需要的有用信息的任务也十分的艰巨,因此,在大量的数据中如何根据用户不同的行为数据来提取对用户有用的数据并反馈给用户,这是要解决的问题的关键。
个性化推荐系统的问世,十分有效的处理了这个麻烦,是目前互联网中十分常见的智能产品,它可以将每一个用户在互联网中产生的个人偏好、浏览历史、购买记录、评价信息等数据进行收集和处理,基于这些巨大的用户数据挖掘出用户感兴趣的或喜爱的产品推荐给用户,或者给用户推荐一些没有想到的而可能喜欢的产品,提高推荐的多样性,这在很大程度上方便了用户,给用户带来了不一样的体验。所以,个性化推荐系统及其相关的理论和技术的研究非常具有意义。
推荐系统本身具有商业价值,国外一些大型的网络交易平台提供了个性化推荐服务,比如亚马逊网站,通过用户对商品的满意度评分以及用户对商品评论的信息,利用这些数据为用户提供个性化的推荐服务。国内的一些公司如淘宝、京东等,也通过个性化的推荐系统,根据用户的搜索、购买记录、点击量以及用户评价等信息,为用户推荐更加适合的商品,提升自己网站的服务质量,让用户有更好的购买体验,同时还可以增加销售金额。
在大数据时代的今天,基于大数据的分布式处理平台的出现,解决了大数据的处理和分析的能力,将大数据处理技术应用到推荐领域中,在基于庞大数据的推荐在准确性和新颖性等方面都有很大的优势,所以将分布式处理平台与推荐系统相结合是一种可行的技术方案。分布式处理是将计算工作分配到大量的节点上,通过计算机集群实现资源的共享,同时在多节点的计算任务执行中,拥有较高的计算速度,满足了当前海量数据的处理的要求。