基于关键词查询的聚焦网络爬虫外文翻译资料
2022-08-27 10:00:28
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
可在www.sciencedirect.com在线获得m
科学指南
Procedia计算机科学125(2018)584–590
第六届智能计算和通信国际会议,2017年,2017年12月7日至8日,印度库鲁什特拉
基于关键词查询的聚焦网络爬虫
马尼什·库马尔*a、安基特·宾达拉、罗宾·乔达摩、拉杰什·巴蒂亚
印度昌迪加尔佩克理工大学,160012
摘要
由于数据量非常大,在网上查找信息是一项困难而富有挑战性的任务。搜索引擎可以用来促进这项任务,但它仍然很难覆盖网络上存在的所有网页。本文提出了一种基于查询的爬虫,利用一组与用户感兴趣的主题相关的关键词在搜索界面上进行查询。这些搜索界面可以在种子网址对应的网站网页上找到。这有助于爬虫从域中获取最相关的链接,而无需深入该域。没有现有的聚焦爬行方法使用基于查询的方法来找到感兴趣的网页。在建议的爬虫中,关键字列表被传递到在网站上找到的搜索查询接口。提议的工作将基于特定领域中的关键词给出最相关的信息,而不需要实际爬行通过它们之间的许多不相关的链接。
2018作者。由Elsevier B.V .出版。
由第六届智能计算和通信国际会议科学委员会负责的同行评审。
关键词:Web爬虫;信息检索;聚焦网络爬虫;基于查询的爬虫。
1。 介绍
搜索引擎可以被定义为一个旨在从万维网上寻找信息的程序。搜索引擎通过根据用户查询搜索索引数据库来产生结果。通常,标准是根据关键字或短语来指定的。检索到的结果以符合指定标准的有序方式呈现。在后端,搜索引擎使用定期更新的索引来快速高效地运行。搜索引擎通过搜索网络的大部分来维护它们的数据库索引。搜索引擎不同于网络目录,因为目录是由人工编辑维护的.另一方面,搜索引擎使用爬虫。_______
*对应作者。同TELEPHONE。: 91-9041858682
电子邮件地址:manishkamboj3@gmail.com
作者。由Elsevier B.V .出版。
由第六届智能计算和通信国际会议科学委员会负责的同行评审10.1016/j.procs.2017.12.075
网络爬虫也称为网络蜘蛛或网络机器人。这些是通过跟随超链接递归浏览万维网的自动计算机程序[1]。爬虫从网络获取数据的过程被称为网络爬行。网络爬虫下载访问过的网页,以便创建这些网页的索引。网络爬虫从要访问的统一资源定位符列表开始,称为种子网址。当爬虫启动时,它会获取网页中的所有超链接,并将它们添加到一个供进一步访问的网址列表中[2]。
提出一种基于查询的聚焦爬虫,在网页上使用可搜索接口。这些接口公开了提供种子网址的网站的后端数据库。建议的工作比现有的方法更好,因为它不需要沿着一条路径到达感兴趣的网页。所提出的爬虫使用我们的动态关键词列表在种子网页上拍摄一组查询。我们通过学习机制维护和优化关键词列表,并动态更新列表。论文的其余部分组织如下:第2节代表现有工作的文献综述。第3节详细讨论了工作背后的动机、设计和架构以及建议工作的实现细节。
2。 背景及相关工作
专注的网络爬虫[3]知道它的爬行边界,而不是收集和索引互联网上的所有网页。它有选择地寻找与一组预定义主题相关的网页。它会在网页上找到那些最相关的链接,同时避开不相关的网页区域。各种爬虫的最新评论在[2]中给出。聚焦网络爬虫的目的是收集网络上与感兴趣的特定主题相关的所有信息[4]。研究[5]讨论了使用扫描或爬网处理文本数据库的执行计划。选择的方法对执行时间和精度有很大影响。寻找隐藏网站的查询接口是一个活跃的研究领域[10]。这些接口不用于集中抓取。
基于关键字查询的聚焦爬虫使用元数据来引导爬行过程。关键字数据集用于创建有效的查询,获得的结果反馈给系统。一个名为桑德汉[6]的印度旅游和健康项目就是一个例子,这个项目是一个多语言平台。该项目旨在使用N-gram方法识别网页的语言。出于培训目的,使用区域、非区域和健康查询。唐等。[7]提出了一种针对通过查询检索的网页的医学信息相关性和质量的聚焦爬行。他们使用相关反馈爬虫,通过示例进行查询。Altingovde等人。[8]构建了一个查询引擎,允许对提取的数据进行关键字和高级查询。最终形成了一个特定于领域的门户网站,可以从后端数据库中提取信息。3.拟议的工作
本节详细讨论了工作背后的动机、设计和建议工作的架构。
3.1。 动机
这项工作可以认为是我们以前工作的延伸[9]。最近开发的爬虫包括开发一个基于网址排序的聚焦网络爬虫。爬虫将输入作为包含:印度姓氏列表、印度城市和印度主要机构名称列表以及种子网址的文件。我们上一个工作的基本架构如图1所示。
最初,DFS爬行技术被应用,其中爬行器从种子网址开始,并继续盲目地爬行链接到网页的下一个网址,直到达到某个深度。计算与网页上存在的关键词数据库相匹配的关键词的数量。具有最大数量的匹配关键词的网页被认为是最相关的。
本文对上述工作进行了扩展。上面的爬虫从每个领域收集的前10个最相关的网页被选出。从这些网页中,从在这些网址中出现次数最多的单词中生成优先关键词列表。这样生成的优先关键字列表被用来在爬行的每一步对网址进行优先排序。它用于对种子网址进行排序,并进一步对获得的网址进行排序,以将网页的相关性与用户感兴趣的主题相匹配。
图。1.一种基于离散傅立叶变换的聚焦网络爬虫
3.2。 设计与建筑
图2显示了建议的爬虫及其工作流程图。当用户给出一组种子网址,并选择其中一个种子网址进行探索时,这个过程就开始了。结果是使用谷歌应用编程接口(API)和种子URL上的搜索接口获得的,关键字数据集在两种情况下都用于起草查询。结果被收集和合并,基于加权标签计算每个网页的适应值。网页根据适合度值进行优先排序,并由网络爬虫进行探索。接下来,我们将详细讨论主要组件。
- 初始种子:种子网址是爬行过程开始的那些网址。初始种子数据库包含一组网址。
- 搜索界面:从选择的种子网址,接下来我们试图在相应的网页中找到搜索界面。它包括查找任何搜索框,单选按钮,复选框,文本框等。
- 使用关键字进行查询:为此,使用了一个名为Selenium的工具。在网页上找到搜索界面后,为关键词列表中的每个单词起草查询。
- 谷歌应用编程接口调用:如果网页上没有对应于种子网址的搜索界面,则在谷歌上为每个关键词传递关键词查询。使用谷歌的高级搜索选项,查询的域被限制为种子网址。这样做主要是因为观察到首先;某些网站上可能没有搜索界面。第二,种子URL网页搜索和限制域的谷歌搜索的结果不同,即使搜索界面使用谷歌支持的搜索。因此,为了合并所有的结果,使用了谷歌应用编程接口。
- 收集的顶级结果:所有关键字查询的顶级结果都是为种子网址和谷歌应用编程接口搜索收集的。
- 合并两个结果:从种子网址关键词搜索和谷歌应用编程接口搜索中收集的结果随后被合并到每个关键词的一个列表中。从列表中删除重复的链接,从而从搜索中给出实际的相关链接。
- 适合度值计算:合并列表中每个网页的适合度值是这样计算的:首先根据网页的标签结构创建网页的文档对象模型树,如图3所示。在这个步骤中,每个标签的权重被分配并作为输入提供给爬虫。下面讨论计算适应值的两种方法。
- 对网址进行优先排序:根据网页的适合度值,然后根据它们在优先级队列中的适合度值对网址进行优先排序。
- 基于优先级的抓取:现在基于优先级,抓取器按照网址的优先级顺序获取网页。
图。2.建议的爬虫工作流程图
图。3.为示例网页创建的DOM树
最大权重法:从根到叶的路径上的最大权重被指定为路径得分。网页上所有路径得分之和即为网页的适应度值。
݁ݎ݄ܿܵݐܲܽ ሻݎݐݏ݁ܿ݊ܣ݄ݐ݂݊ݐ݄݃݅݁ݓǥ ݎݐݏ݁ܿ݊ܣ݀ݎ͵݂ݐ݄݃݅݁ݓǡ ݎݐݏ݁ܿ݊ܣ݀݊ʹ݂ݐ݄݃݅݁ݓǡ ݎݐݏ݁ܿ݊ܣݐݏ݂ͳݐ݄݃݅݁ݓሺ ൌ
例如,图3显示其中一个路径得分将为
ܽܲݎ݄ܿܵݐ݁ ൌ
ሺ ݐ݄݃݅݁ݓ݂Ԣݎݐݏ݊݃Ԣݐܽ݃ǡ ݐ݄݃݁݅ݓ݂Ԣܽݎ݃ܽݎ݄ܽԢݐܽ݃ǡ ݐ݄݃݅݁ݓԢͳ݄Ԣ݂ݐܽ݃ǡ ݐ݄݃݅݁ݓ݂Ԣܾ݀ݕԢݐܽ݃ǡ ݐ݄݃݅݁ݓ݂Ԣ݄ݐ݈݉Ԣݐܽ݃ሻ
K级权重:在这种方法中,从根到叶的路径中的所有标签的权重被考虑用于计算页面的适应值。路径得分计算如下:
路径得分示例:
。
3.3。 实施细节
提出的基于关键词查询的网络爬虫是用Python实现的。使用的主要库有美人汤、Selenium客户端API和WebDriver、Google Search API、正则表达式模块、Urllib2。
4。 结果和讨论
本节介绍了对各种网站上的测试运行的讨论和分析。作为我们主要项目的一部分,我们测试了提议的网络爬虫,以找到在印度以外工作的印度裔院士的网页。作为对爬虫的输入,准备一个关键字列表。爬虫在国外25所大学网站上运行,寻找印度裔院士。作为示例,我们代表威斯康星大学的结果。
图。4.威斯康星大学的样本结果
图。5.与计算的分数相对应的网页
在图4中,分数1代表使用最大父方法计算的分数,分数2代表使用等级K方法计算的分数。图5显示了该大学的相应网页
基于网址排序与基于查询的网络爬虫
在我们以前的基于网址排序的网络爬虫[9]中,相关的网址是在爬行过许多其他网页后经过一定深度后找到的,而在我们的基于查询的爬虫中,我们只在第一深度找到那些相关的链接,如图6所示,用于各种外国大学网站。
图。6.基于网址排序与基于查询的网络爬虫
网页相关性计算:K层法与最大祖先法
网页相关性计算是任何网络爬虫最重要的方面之一。它告诉我们网页信息对我们的爬虫有多重要。我们构造了两种相同的方法,结果如图7所示.如果我们只使用关键词的出现作为网页相关性的标准,它不能给我们完整的图片。考虑网页的超文本标记语言结构给了我们另一个参数来以结构化的方式比较这些网页。
图。7.使用两种方法计算网页相关性(领域:普林斯顿)
解释
- 在域内,由于网页的结构相似,k层法优于最大值法。此外,除了文本标签字段的每个祖先的权重之外,它还包括文本字段的深度,这为网页的相关性提供了一个很好的想法。
- 在互域中,max方法更好,因为两个域的结构可能不相似,因此考虑每个文本字段的最大加权祖先标记来计算页面相关性可以很好地了解页面的相关程度。
5。 结论
该文讨论了一种基于关键词查询的聚焦爬虫,能够快速抓取网页。感兴趣的网页是独立于它们在网站中出现的级别进行爬网的。基于查询的爬虫在耗时和精度方面比以前的BFS爬虫更有效。页面相关性计算器使用相关网页的DOM结构。这种方法在决定网页的相关性时将网页和元标签一起考虑。我们讨论了计算网页相关性的K层方法和最大祖先方法。从结果和讨论可以得出结论,K层方法更适合于域内,最大祖先方法更适合于域间。参考
- 布林,s。页,l。(2012)《转载:大规模超文本网络搜索引擎剖析》。电脑。网络。56 (18): 3825–3833.doi:10.1016/j . com net . 2012 . 10 . 007。
- Kumar,m 。 巴蒂亚,。藤,d。(2017)“用于信息检索的网络爬虫调查。威利跨学科。《启示录》。数据最小值。知道。迪斯科。e1218.doi:10.1002/widm.1218。
- Shokouhi M,Chubak P,Raeesy Z。(2005)“用遗传算法增强聚焦爬行。《信息技术:编码和计算》,2005年.ITCC 2005.2005年国际会议,4月4日,2: 503-508。
-
Chakrabarti,s 。 范登伯格,医学博士,。Dom,b。(1999)“聚焦爬行:一种特定主题网络资源发现的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405924],资料为PDF文档或Word文档,PDF文档可免费转换为Word