基于网络爬虫的网络小说主题分析系统数据分析开题报告
2023-02-05 23:32:51
1. 研究目的与意义
随着互联网的不断发展,网络爬虫成为筛选海量数据任务的主要方式,是搜索引擎主要的主要信息来源。网络爬虫能够爬取网页的内容,将海量数据进行遍历并建立索引。而随着互联网带来的巨大变革,人们的生活方式也发生了巨大的变化。在大众文化蓬勃发展的文化背景下,网络文学应运而生、蓬勃发展,逐渐成为明显区分于传统文学的个性突出的文学形式。网络文学以其全新的文学理念和独特的表现形态,成为当今小说创作的热门载体。作为新兴的文艺范式,它受到人们的普遍喜爱,在年轻人中更是倍受青睐。电子书以低成本、携带方便等特点在很多方面代替了传统书籍。除此之外,与传统书籍相比,网络小说的语言更贴近生活,娱乐性更强。随着行业规范化进程的持续推进,国内网络文学业务模式更加多元,为业务的可持续发展奠定了良好基础。截至2019年6月,我国网络文学用户规模达4.55亿,较2018年底增长2253万,占网民整体的53.2%;手机网络文学用户规模达4.35亿,较2018年底增长2527万,占手机网民的51.4%。但是目前各大网站对于网络小说的管理问题尚待完善,且各个网站对于网络小说的版权限制参差不一随着网络小说信息的爆炸增长,资源变得更加多元,网络小说呈现种类繁多,难以筛选的特点。传统的方法是将小说进行分类,然后用户根据类别自行搜索。但是这类方法存在问题,即部分小说难以明确分类,且小说分类过于泛泛,用户难以发现自己喜欢的小说,因此,用户搜索小说的方式仍存在问题。而如何通过网络爬虫技术建立起模型,在海量的互联网数据中抓取网络小说信息并加以分析整合正是本课题要研究的主要内容。
2. 研究内容和预期目标
本文主要研究基于网络爬虫的网络小说主题分析系统数据分析。本文拟解决如下几个关键问题:
(1)对目前网络爬虫技术进行深入的研究。学习了解各种爬虫类型的原理及其具体实现过程,分析对比各种类型网络爬虫的原理、及其优点和缺点。
(2)分析目前网络小说主题的种类,根据用户的个性化需求选择基于内容的算法与混合推荐算法。
3. 国内外研究现状
网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。1994年,De Bra P等人提出了fish-search算法,指导爬虫,通过使用查询来爬行系统。1998年,M.Hersovici等人在fish-search算法的基础上进行了改进,形成了shark-search算法,shark-search算法已经有了相关理论基础,文本检索背采用做他们的搜索策略,此算法容易计算,但是算法常常把网络连接里面的结果信息忽略掉,因此,与fish-search相比,其准确性不高。2003年,Abiteboul等人提出了一种基于在线页面重要指数的抓取战略算法;2013年,Yadav P等人提出了基于本体的内容聚焦爬行的智能爬行的新概念。2017年,Catalin等人针对爬虫不断优化带来了一系列新的挑战,提出了IDS方法和工具结合挖掘算法。
在国内,目前基于网络爬虫的数据分析被广泛使用,比较常见的领域有电子商务、音乐、新闻、电影等。同样在书籍方面也有较多应用。李春秋提出将每本书的内容进行分词,并且用词的词频-反文档频率组成权重向量,继而在每个类别中使用cosine公式计算小说之间的相似度并根据用户历史行为进行推荐。
4. 计划与进度安排
第一阶段:2022.10.14—2022.10.31确定选题
第二阶段:2022.11.01—2022.11.29 撰写、提交、修改开题报告
第三阶段:2022.11.30—2022.01.17撰写、提交论文初稿和中期检查表
5. 参考文献
[1] bird s, loper e. nltk: the naturallanguage toolkit[c],2004.
[2]judy cushing, rachel hastings.introducing computational linguistics with nltk (natural language toolkit)[j].
[3]司同. 实时社交媒体分析系统的设计与实现[d].哈尔滨工业大学,2013.