基于复杂网络的在线婚恋交友大数据分析毕业论文
2021-12-22 22:14:04
论文总字数:28848字
摘 要
在信息爆炸的时代,大数据在电商、社交、金融、生物医药等等各个领域展现出了巨大的优势和作用,通过对海量数据进行存储和分析,人们可以找到蕴含在数据之中的规律,并以此来指导生产实践、优化服务,可以说掌握了这门信息技术,就掌握了时代的走向和脉搏。而大数据分析之中极为关键的一环便是对数据的集中分析,高效的智能算法在当今世上各个领域都已得到应用,正是这些算法将数据中潜藏的、靠人们自身难以发觉的关键信息展露在人们眼前,而如何进一步对这些算法进行改进、优化和创新进而产生更大的作用则是当前时代的一大课题。在婚恋交友领域,如何设计智能推荐算法进行准确高效的用户匹配则是各大婚恋交友网站所力求突破的关键环节之一。
在这样的大环境之下,鉴于大数据的广阔前景,为了能够对这一领域有更深入的了解和体会,本课题根据已有的数据分析架构和算法,采用python语言尝试对交友网站的用户互动信息进行分析。当下热门的交友网站拥有大量的用户基础,用户的多样性以及用户之间纷繁复杂的联系构成了一个规模巨大的复杂网络,本课题将尝试进行指标设计分析通过这些数据来探寻用户在交友过程中的趋向和偏好,重点对用户互动行为进行分析,设计合理的算法评估用户之间的好感度,并且使用web框架Flask搭建一个交互网站,使用开源图表库echarts以及相关工具包对统计信息进行可视化展示,同时尝试实现一套较为完备的基于协同过滤算法的推荐系统,能够通过用户信息完成交友推荐功能。本课题通过对数据的分析利用和直观展现,力求从数据中发现用户之间隐藏的联系,使算法更好地服务用户。
关键词:大数据;协同过滤;复杂网络;推荐算法
Big data analysis of online dating based on complex networks
Abstract
In the era of information explosion, big data has shown huge advantages in various fields such as e-commerce, social networking, finance, biomedicine, etc. By storing and analyzing massive data, one can find the laws embedded in the data , And use this to guide production practices and optimize services. It can be said that if someone mastered this information technology ,then he has mastered the trend and pulse of the times. The most critical part of big data analysis is the centralized analysis of data. Efficient intelligent algorithms have been applied in all fields of the world today. It is these algorithms that hide the data and are difficult for people to find out. Information is exposed to people's eyes, and how to further improve, optimize and innovate these algorithms to produce a greater role is a major issue in the current era. In the field of marriage and dating, how to design intelligent recommendation algorithms for accurate and efficient user matching is one of the key links that major dating websites strive to break through.
Under such a large environment, in view of the broad prospects of big data, in order to have a more in-depth understanding and experience in this field, this topic uses python language to try to meet the users of dating sites based on the existing data analysis architecture and algorithms. Interactive information for analysis. The current popular dating site has a large user base. The diversity of users and the intricate connections between users constitute a huge and complex network. This topic will try to analyze the indicators through these data to explore users in the process of making friends Trends and preferences, focusing on the analysis of user interaction behavior, designing reasonable algorithms to evaluate user favorability, and using the web framework Flask to build an interactive website, using the open source chart library echarts and related toolkits to visualize statistical information At the same time, try to implement a more complete recommendation system based on collaborative filtering algorithm, which can complete the recommendation function of friends through user information. In this topic, through the analysis and utilization of data and intuitive display, it strives to find hidden connections between users from the data, so that the algorithm can better serve users.
Keywords: big data; collaborative filtering; complex networks; recommendation algorithm
目 录
摘 要 I
Abstract II
第一章:绪论 1
1.1 背景介绍及意义 1
1.2 研究现状 2
1.2.1 推荐系统 2
1.2.2 世纪佳缘的推荐系统 3
1.3 本课题研究内容 3
1.4 论文结构 4
1.5 本章小结 4
第二章:技术背景 5
2.1 python语言 5
2.1.1 python语言简介 5
2.1.2 python开发环境 5
2.1.3 python pycharm HbuliderX 5
2.2 Flask框架 6
2.3 SQLite数据库 7
2.4 Echarts图表库 8
2.5 推荐算法 8
2.6 本章小结 12
第三章 系统需求分析与概要设计 13
3.1可行性分析 13
3.2 需求分析 14
3.2.1 算法需求 14
3.2.2 系统功能需求 14
3.3 系统概要设计 14
3.3.1 业务流程 14
3.3.2 功能模块设计 15
第四章 系统设计与实现 17
4.1 后台算法设计 17
4.1.1 数据预处理 17
4.1.2 数据分析 19
4.1.3 推荐算法实现 24
4.2 交互页面开发 27
4.2.1 搭建Flask项目 27
4.2.2 数据库搭建 28
4.2.3 用户信息录入 30
4.2.4 推荐结果展示 33
4.3 数据可视化页面开发 34
4.3.1 数据收集 34
4.3.2 可视化页面 35
第五章 系统展示与功能测试 38
5.1 信息录入 38
5.2 推荐结果展示 39
5.3 可视化页面 40
5.2.1 整体布局 40
5.2.2 图表模块 40
第六章 总结与展望 45
参考文献 46
致 谢 48
第一章:绪论
本章是总起章节,系统介绍了本课题的研究背景及其意义,同时对相关领域的研究现状进行了大致介绍,指明了本课题的研究内容和方向,并且对本文的章节大纲进行了介绍,描绘了本文的总体布局。
1.1 背景介绍及意义
大数据是时下热门的话题,高效的智能算法在当今世上各个领域都已得到广泛应用,而如何进一步对这些算法进行改进、优化、创新进而产生更大的作用是值得每一位研究者深入钻研的。文献[9]对复杂网络进行了大体的描绘和解释,复杂网络简而言之即表现出高度复杂性的网络,基于复杂网络模型抽象化出大数据分析模型,建立多要素及其间联系的形式描述和可计算模型,可将大数据分析问题转化为复杂网络的性质分析,从而能够使用复杂网络来分析解决生活中的实际问题。
文献[28]指出,在这个科技不断发展,生活压力不断上升的时代,有的人忙完了学业忙事业,勤勤恳恳地打拼却因为忙碌或是自负而忘了去好好追寻生命的另一半,有的人深陷于网络的便利,反而导致了性格日渐腼腆孤僻,交际圈狭窄,等到了该谈婚论嫁的年纪才发现已经无从下手。由于诸如此类的种种原因,在日益庞大的婚恋需求下,各类婚恋交友网站(如世纪佳缘,珍爱网等)应运而生。据相关人口统计数据数据显示,2015年中国15岁以上的单身人口数量约达三亿人,存在近两千万的性别缺口,且未来此缺口仍将存在。此外,根据《2016年中国统计年鉴》统计数据显示,1980年至2000年是中国生育高峰期,按时间推算可知这部分人口正在进入婚恋需求期,且这种情况将继续持续。因此,时至今日,婚恋交友网站仍有稳固的用户基础和发展条件,同时文献[12]和文献[16]都指出,越来越多的人也都选择这种便捷高效的择偶渠道。在此大背景之下,各大热门交友网站实时产生的数以千万计的用户活动信息就成了相关领域从业者和学者们宝贵的研究数据,若是能从中探寻出正确的规律,就能牢牢把握住用户。由于婚恋交友与电商、影视行业存在本质的不同,它最显著的特点在于它没有用户喜好、评分等显性反馈行为可供参考,于是在设计相关推荐算法时,需通过用户信息或是用户点击、交互等行为设计一套参考评价指标。针对本课题所分析的数据集来讲,用户信息中年龄段,地域,教育背景,职业等等因素在一定程度上能够视作相似用户集群的分类指标,用户互动中发信主动方和收信方的往来的频率、时间等要素能够作为每组用户之间好感度的评价指标,在此基础上就能够进行进一步的数据分析和推荐算法实现。
请支付后下载全文,论文总字数:28848字