登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 经济学类 > 电子商务 > 正文

鉴定在博客中的意见领袖外文翻译资料

 2023-01-11 10:01:52  

鉴定在博客中的意见领袖

原文作者: Xiaodan Song, Yun Chi, Koji Hino, Belle L. Tseng 单位:NEC美国实验室

摘要:意见领袖是那些带来新的信息,思想,和意见,然后传播到大众,从而影响他人的意见和决定的,有时尚口碑的人。在社会网络中的意见领袖捕捉最有代表性的意见,其结果对于理解这个庞大的复杂的博客圈是非常重要的。在本文中,我们提出了一种新的算法称为影响排名,用来确定博客中的意见领袖。这个影响排名的算法根据不仅仅是和别人的博客相比,他的是多么的重要,而且还看他博客的信息对其他网络的贡献是有多么的新颖。试验

结果表明,该算法能有效地确定有影响力的意见领袖。

关键词:意见领袖,博客排名,网络概述

引言

博客是一个能让数以百万计的人们轻松地发布,阅读,回复,并分享他们的想法,经验和专业知识的自媒体网络。博客是一种了解人们对于事件的反应,及客户对于一个产品和一个公司服务的看法的卓有成效的媒体,因为会有很多人在博客上反应许多话题、事件和观点的。

相对于传统的网站,博客的风格更适合对话。谈话通常从那些介绍新的信息,想法和意见开始,然后蔓延到他们的朋友,家人,和同事。社会影响,该现象的描述能够从一个人的行为可以直接或间接地影响着思想,情感,和其他人口中的[ 1,2 ]的行为,这些都是可以在博客圈的对话中看出的。那些在形成和反映人民群众中起关键作用的的意见称为在“创新扩散理论”[ 2,3 ]中的意见领袖。意见领袖通过各种方式吸收意见,然后把这些信息传递给特定的需要接受意见的人。意见领袖的重要作用已经引起了越来越多的关注,因为通过互联网可用的网络数据是庞大的。其中,[ 4,5 ]试图建立影响消费者模型,并了解他是如何影响在网络的传播的。最近,宋某等人。研究了在意见领袖与群众之间的非对称的人际影响力,并提出了一种非对称的建议算法,以改善的建议性能[6,7]。大量的博客,是发现意见领袖识别一个人值得阅读的价值。它也将更有效的为公司,客户服务和市场研究人员,寻求和利用意见领袖的帮助,了解客户的心声,管理好自己的品牌和声誉,并推广自己的产品。

作为一种激励的例子,图1(a)说明了七个博客在发表自己的见解的时候是如何引用(链接)到对方的博客的。博客A,B,C和D在讨论同样的话题——如如何使用日亚发现在整个网页中的图像相似的面孔和对象。然后博客E发起谷歌收购日亚传闻的讨论,并链接到博客A和C,介绍如何使用日亚的视觉搜索。继博客E后,博客F和G开始讨论这次收购传闻。在这个简单的例子中,博客A和博客E是意见领袖--他们引进了创新的意见和影响其他博客的意见。这些意见领袖捕捉了最有代表性的意见,对于理解和捕捉这个“日亚”网络(图1(b))的意见是非常重要的。

图1:一个激励的例子

在本文中,我们讨论了如何识别对于理解博客有影响力的意见领袖的问题。在意见领袖的基础上,我们根据一个博客在网络中是多么重要,提供的信息是如何的新颖提出了一个影响排名的算法。在影响排名中前几个的往往是在网络中更有影响力的,信息更全面的,因此这个更可能是意见领袖。

本文的其余部分安排如下。我们在第2节中的回顾相关工作。在3节中,我们提出了我们的影响排名算法。在第4节中我们描述了影响排名是如何通过总结博客的实验数据去寻找意见领袖的。最后,在第5节中总结。

相关工作

在创新扩散理论[2,3],两种技术都有被广泛的用于定位意见领袖:通过设计问卷调查和访谈来自制定方法和社会方法。这些方法是昂贵的,并非常难以管理和执行[8]。与此相反,在庞大的博客数据集中容易获得的链接和内容能够提供信息的搜索和查询行为的证据,从而使鉴定意见领袖有可能实现,而不需要全面设计和昂贵的问卷调查和访谈的任务。

识别网络中的节点的重要性,一直是在许多研究领域的一个活跃的问题[9-11]。PageRank和HITS [ 9,11 ]是两种流行的和成功的用来确定网页的重要性基于链接的网页排名算法。作为一个特征向量中心度量的变体,作为特征向量中心度量的一个变种,在PageRank之后的直觉是一个网页在的网络中与相邻 [9 ]相结合的重要性成正比。HITS背后的直觉是不错的集线器经常指向好的部门,良好的部门通常指向的好枢纽[11]。因此,一个网页在网络中的权威得分是那些网页指向它的综合枢纽分数比例,其枢纽得分是正比于这些网页的权威,它指出联合评分。PageRank和HITS都提供了计算节点在网络中的重要性的方法。然而,每个建设成网络的节点是如何新颖,是意见领袖的一个基本属性,是不考虑这两种模式的。

新的信息的检测一直是信息检索和过滤的重要课题[ 12 ]。第一故事的检测是与话题检测和跟踪相关的,是去检测以前没有公布过的新的故事。在信息过滤方面,张等人提供了一组冗余措施,用来评估是否有包含新信息的有关文件[13]。然而,在这些研究中,要分析的数据是文件流,因此他们的链接结构在这个框架中是没有被探讨过的。相比较而言,通过超链接的博客中的对话对于理解推荐行为和信息传播来说是非常重要的。因此,上述工作不能用于直接确定意见领袖。

在博客圈中的相关信息扩散的工作,库马尔等人,确定了基于社区的提取和爆裂分析[ 14 ]的博客突发性群体。格鲁尔等人。分析了一个特殊话题的博客帖子的时间特性。亚达等人。研究了显式和隐式链接结构、动力学的博客[ 16 ]。中岛等人,激发讨论和总结;总结讨论,通过螺纹检测[ 17 ] 试图找到搅拌器。然而,他们这些在信息传播过程中,新颖博客的提供者的目的不是获得意见领袖。

影响排名

意见领袖是新信息的提供者,也影响其他博客的意见。因此,信息的新颖性和它在博客位置的重要性是决定领袖博客的至关重要的特性。在本节中,我们将讨论如何衡量博客信息的新颖性,然后提出我们影响排名算法。

在一个博客条目生成时,输入的内容可以来自其他博客的链接,或是由自己从其他媒体,如新闻或电视节目产生的,或是原始思想的新的信息。你可以想象这个博客有一个额外的来源有助于产生新的网络信息。在我们的研究中,我们模拟这个通过博客链接的额外源为隐节点。隐节点允许博客产生额外的信息,不依赖于链接,并因此代表产生新的信息的能力,表示为Nov (sdot; | Out (sdot;)),表示从这个博客连接到另外的博客。

衡量一个博客信息的新颖性,让我们首先把每个在博客中条目作为一个文件。我们首先执行隐含狄利克雷分配(LDA)[ 19 ],以减少数据的维数并产生一个用于表示主题空间的条目。然后,我们放每个入口到这个话题空间来生成一个特征向量来表示条目。之后,每个文档作为一个特征向量,余弦相似或是库勒巴克莱布勒(KL)散度可以用来计算相异度。在[ 13 ]表明,余弦相似性信息的新颖性检测是有效的,优于在几个实验KL散度。因此,在本文中,我们使用余弦距离来衡量信息新奇性。

随后,信息的新颖性是由隐藏在博客A的一个入口Ae产生的,博客A是衡量入口和其他入口链接的信息新颖性的。信息的新颖性入口AE有助于网络进行计算:

然后,信息新颖性的入口Ae对网络或者是隐藏节点入口Ae的贡献可以总结为:

通过博客一个隐藏节点所提供的信息的新颖性是衡量对它所包含的条目的新颖性的平均得分。当Ae是一个博客兴趣的入口是,那么卡片(Set(Ae))是整个博客A兴趣入口的数量。在本文中,信息新颖性的范围严格在0到1之间。

给定每个博客信息的新颖性,计算一个博客的影响排名,让我们先考虑一组n个博客作为一个有向图,用邻接矩阵G。如果博客i链接到博客J,Gij=1,否则的话Gij=0。然后我们通过缩放邻接矩阵G的其他排项来获得邻接矩阵W。博客A的影响排名,记为IR(A),A表示意见领袖。影响排名是作为邻国,包括隐藏节点的联合意见领袖:

上述参数beta;是用来调节新颖性信息对领导的重要性的,In(·)是这个节点集到那个节点·的链接。

一般而言

影响排名可以安装到一个随机的游走的框架中,这个框架包含节点,隐藏节点和两者之间的联系。参数beta;反映了显著的新颖性,是对我们预计的意见领袖的检测。当beta;较大时,我们往往会发现贡献更多新颖信息的意见领袖。一个极端的例子是当时,我们看好的最新颖的信息贡献者会被检测为意见领袖的。当beta;较小时,博客在网络中的重要性是我们希望检测意见领袖显著标准。举一个极端的例子,当beta;=0是,影响排名下降到的PageRank。

由于网络中的悬空节点(没有任何连接的节点)和环状通道的存在,这个独特的答案式(5)可能不存在。为了解决这个问题,我们采取了PageRank所用的“随机跳跃”的补救措施[9]。调整后的标准化的邻接矩阵可以写为:

当alpha;是随机游动的如下链接的概率,1-alpha;是一个随机跳动的概率,delta; alpha; = minus; (1 ) n是一个选择使其随机跳跃的特定的随机界面的概率。一个典型的值是s 0.85 alpha; = . e是所有的n矢量,a是矢量分量ai=1,如果第i的W相当于一个悬挂节点,那么为0,否则的话,我们有:

因此,影响排名可以通过求解线性方程来获得式(8)。各种数值方法,包括Jacobi,GaussSeidel,或者Conjugate Gradient都可以用来解觉这个线性系统[18]。

图2给出了影响排名算法的建议,我们找出意见领袖应该通过考虑网络节点在互联网中的重要性和新颖信息对互联网的贡献。

算法:影响排名算法

输入:G:邻接矩阵,每个节点的内容(无论是博客还是一个条目)

输出:检测到的意见领袖与影响等级分数

开始

1)标准化G产生W

2) 由LDA生成主题矢量代表节点的内容

3)有两种式(3)(日志)公式(1)(条目)的每个节点计算信息的新颖性。

4)通过解方程式(8)计算的影响排名。

结束

图2:影响排名算法

结论

博客是一种了解人们意见卓有成效的媒体。然而,由于博客巨大的内容量和复杂的链接结构,博客难以被充分的了解。意见领袖是那些带来新信息,思想和意见,然后传播到群组的人。他们是信息量最多,影响力最大的节点,并在网络捕获最有代表性的意见。识别意见领袖是对理解这个庞大和复杂的博客非常重要的。

在本文中,我们提出了一种新的排名算法影响排名算法,用来识别那些最新的信息提供者,并在网络上具有极具影响力的意见领袖。在这个算法中,我们定义了一个来衡量新颖信息的条目和博客的方法。影响排名是通过考虑信息在网络中节点的重要性和新颖性来确定意见领袖的。此外,还提供了影响排名的解决。在NEC的博客数据集上的实验表明,意见领袖是通过影响排名实现更好的覆盖率,多样性和失真比较4方面的基线算法来检测的。

外文文献出处:Anke Carina Tschoertner 、Comelia Jers 、Michael Schenk: Are all opinion leaders opinion givers?—Are all opinion givers opinion leaders? A clarification of constructs based on empirical data

附外文文献原文

Identifying Opinion Leaders in the Blogosphere

Xiaodan Song, Yun Chi, Koji Hino, Belle L. Tseng

NEC Laboratories America, 10080 N. Wolfe Road, SW3-350, Cupertino, CA 95014, USA

{xiaodan, ychi, hino, belle}@sv.nec-labs.com

ABSTRACT

Opinion leaders are those who bring in new information ,ideas, and opinions, then disseminate them down to the masses ,and thus influence the opinions and decisions of others by a fashion of word of mouth. Opinion leaders capture the most representative opinions in the social network, and consequently are important for understanding the massive and complex blogosphere. In this paper, we propose a novel algorithm called InfluenceRank to identify opinion leaders in the blogosphere. The InfluenceRank algorithm ranks blogs according to not only how important they are as compared to other blogs,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[287305],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图