| 主页 | 频道首页 | 本站地图 | 论坛留言 | 合作联系 | 本站消息 | |
科技动态 技术发展 文化研究 生物生态 人的研究 生命起源 基因工程 科学普及 科学探索 专题其他

谁对谁说了什么-Twitter研究进展

2011-06-09
Twitter,Twitter研究进展
谁对谁说了什么-Twitter研究进展

《Who says what to whom on Twitter》简述

作者:Shaomei Wu, Jake M. Hofman, Winter A. Mason, Duncan J. Watts

发表于:WWW’11 Hyderabad, India: Proceedings of the 20th international conference on world wide web

ACM New York, 2011

ISBN: 978-1-4503-0632-4 doi > 10.1145/1963405.1963504

整理人:张千明

主要研究内容:

本文将Twitter中的用户分为了两大类——普通用户和精英用户,精英用户又被分为四类,分别为媒体(media)、名人(celebrities)、博主(bloggers)和组织机构(formal organizations)。基于此分类,本文先后关注了不同类型用户的受关注程度、信息流向、不同话题的受关注程度、寿命及其在不同类型用户中的生存方式。研究发现: (a) 2万个精英用户吸引了大约50%的关注;(b) 媒体创造了大部分的信息;(c) 精英用户倾向于关注同类型用户;(d) two-step flow是Twitter中的一种重要信息传播方式;(e) 不同类型的用户关注不同类型的tweet,而且不同类型的tweet的寿命不同。

论文的贡献主要在三个方面:

1) 引入了一种方法来区分精英用户和普通用户,并用此方法将精英用户分为四类媒体(media)、名人(celebrities)、博主(bloggers)和组织机构(formal organizations);

2) 通过调查不同类型间的信息流向,发现:尽管用户的关注主要集中于少数精英用户,其中许多信息是通过大量中介用户间接传递给广大用户;

3) 不同类型的用于关注的话题不同,不同类型话题的寿命也不同(跨度从不满1天到数月之间)。

下文主要对于本文的研究结果进行简单重述,而对于本文采用方法则不去深究。

数据信息:

作为国外微博的领军人Twitter,在2011年3月达到了2亿用户,每天产生6500万微博。作者抓取了部分数据作为研究对象,包含4200万个用户,15亿条边(关注关系),并且有2009年7月28日起到2010年3月8日之间的50亿条tweet(出于研究的需要,在这里仅关注了其中的2.6亿条,比较容易对其进行分类)。在4200万个用户中,作者选取了2万个精英用户,分别包含5000个media用户、5000个celebrities用户、5000个bloggers用户和5000个formal organizations用户。分类之后,与每种类型的用户相关的tweet数目如表2(Table 2)所示。可见媒体发出的信息占精英用户中的绝大部分。

同质性 --- Homophily

作者研究了精英用户之间的关注关系,发现了很强的同质性,即名人倾向于收听名人、而博主则倾向于关注博主。

微博中普通用户接受到的信息有许多不同的来源,其中大部分都不是传统的媒体机构,尽管媒体用户是Twitter中最活跃的用户,也仅有15%的信息是从media用户直接传到普通用户的。但是精英用户毕竟是少数,还不足总用户数量的0.05%,但是他们却吸引了大约50%的关注。即使media用户没有其他精英用户的关注,信息流也不会变的平均。

那么精英用户之间的关注情况是怎么样的呢?请看下图,Figure 3,展示了信息的流向,A箭头指向B表示B类用户从A类用户那里接受到信息。

从Figure 3中可以看出,用户更倾向于关注同类的用户。但是organizations用户比较特殊,关注Blogger用户更多,但实际上,从organizations那里获得的关注其实上是比较平均的。需要指出Figure 3的统计方法是有一点问题的:Figure 3仅仅是关注了B类用户从A类用户那里接受到的信息量,但是却没有注意到很多内容并没有被阅读。于是Figure 4就仅仅关注了转发的微博,即A箭头指向B表示A类用户转发了B类用户的微博。

Figure 4则反映了与Figure 3迥然不同的结果,名人很少转发名人的消息,而博主相互转发的可能性就非常的大,而且媒体被转发的微博有一半是通过博主。

Two-step Flow

Two-step Flow的本质在于来自媒体的信息并非直接传播给大众,而是首先要传到一个媒介(中介)intermediary,这个intermediary则起到过滤的作用——决定将哪些信息转送给他们的粉丝并将哪些信息过滤掉。那么在Twitter中,有多大比例的信息是直接传递给大众,又有多少信息是通过two-step flow的方式传播的呢?Twitter中又有多少intermediary用户,这些intermediary又都是哪种类型的呢?

在回答这些问题之前,需要指出在Twitter里面信息通过intermediary传播有两种方式:转发(retweet)和再引入(reintroduce)。关于“转发”,大家都很熟悉,就是说当你接收到一则消息,然后通过官方的功能或者是其他一些方法(如“RT @user”或者“via @user”)将这则信息再广播出去(广播给你的粉丝);而对于“再引入”,是作者引入的一个概念,当一个用户推送某则消息,但是他不知道这则消息在他引入之前就已经有人引入了,此时就假设这则消息的再出现与之前被引入的行为是独立的。

为了研究在Twitter中信息的传播方式,作者做了一个实验:随机采样了100万个普通用户,对每个用户统计其通过5千个media用户而得到的URL的数目n;其中有60万个用户至少从media用户那里接收到1个URL;然后,关注其中每一个普通用户得到的URL,记这些URL中有 n2 个是通过two-step flow的方式传达的。统计结果得到 n2/n 的平均值为0.46,这说明,有46%的消息是通过two-step flow的方式传播而不是直接传播给大众。

那么intermediary是哪些用户呢?如果一个URL是被一个media用户首次引入,但一些用户却是从另外的用户u 获取该信息,那么用户u 则被称之为intermediary。intermediary的数量比关注他们的用户少的多,但也非常多,大约有50万,其中96%都被划分为普通用户而不是精英用户。注意,精英用户只有2万,即他们几乎全部都是intermediary。然而,最主要的intermediary都属于那些仅占4%的精英用户,比如Ashton Kucher(asplusk)作为10万用户的intermediary。事实上,intermediary的界限并不明显,有些intermediary同样也通过two-step flow的方式收到信息。

哪些人关注哪些话题?(Who listens to what?)

这个问题可以通过一个图进行非常清晰的说明。作者分析由New York Times发出的URL,将6370条URL分成21类,但其中数目超过100的仅有9个。如Figure 7(下页)所示,作者将前8个数据的结果展示给我们,每个子图代表一种类型的URL,而每一个子图中的阴影柱则反映了某种类型的URL所占的比例(不同的用户分开统计),other代表普通用户。可以清晰的看出,新闻类的信息引起的关注最多;organizations对于art类的URL几乎完全不感兴趣;celebrities对于sport比较感兴趣却较少地关注health相关的内容。

微博的寿命(lifespan of content & lifespan by category)

不同类型用户引入的URL的寿命是不同的。如图Figure 9(a)(下页),是微博寿命的数目分布图,对应精英用户URL的走势与普通用户的相似(普通用户的曲线比较靠上是由于用户数量上的差异);Figure 9(b)(下页)则是微博寿命的概率分布图。两图中的每条线都对应于某一特定类型的用户群体。Figure 9(b)显示出:media用户产生的URL,有很大一部分的寿命为0,也就是仅出现了一次;始于blogger的长寿的URL,相对于其他类型的用户,占了较多的比例。

这种现象其实可以与不同类型用户关注不同类型URL联系起来。比如说新鲜事很快就会被更新,而blogger关注的信息则更持久(比如说health类得),在数月之后也有可能引起关注、转发等行为。

为了做更进一步的分析,作者关注了最“长寿”的3.5万个URL(寿命在200天以上),并且将他们映射到21034个不同领域。如Figure 10所示,这些URL主要属于影视、音乐和书籍类。Twitter应属于media的 子类。

这些URL(尤其是“长寿”的URL)是如何在Twitter中“生存”的呢?是转发,还是再引入?Figure 11展示了对于不同类型的用户,具有不同生命周期的URL被转发的比例。

对于普通用户(即Twitter中的大部分用户)来讲,“长寿”的内容不是通过“转发”的方式传播,而是通过“再引入”的方式在Twitter中存在;而精英用户则不同,有一半甚至更多的内容通过“转发”的方式长期存在。

总结:

1) 精英用户与普通用户的影响及行为特征不同

2) 约占0.05%的精英用户吸引了大约50%的关注

3) 关注行为更多发生在同类用户之间(同质性)

4) two-step flow传播方式在Twitter中的重要性以及intermediary的分布

5) 不同类用户关注的话题不同,不同类话题受到的关注程度也不同

6) 不同类话题的“寿命”不同,且“生存”方式不同

含图全文下载:who_says_what_to_whom_on_twitter.pdf http://blog.sciencenet.cn/home.php?mod=attachment&id=6192

三大证据相继破灭:进化论,一个错误的信仰
霍金:天堂和来世只是害怕死亡者的童话故事
我们最该知道的10大科学定律及理论
给笔记本外接一个显示器的方法
世界著名实验室简介
伦理与政治考量过滤科学之真
人大讲座的开场白-大学生社会责任
浅析北美中国老板中的变态者 霍金和霍金辐射
李醒民专访:遨游在科学的三维世界里
人类学家提出可能引发地球崩溃的12个因素
无线WEP和WPA密码及破解原理
丘成桐:感情的培养是做大学问最重要的一部分
没有秘密——阿桑奇的理想
论抽象社会
科学与竞争:以日本物理学为例
《科学》主编:中国论文拒稿率高因投稿最多
“科学家一定需要博士帽吗”
如何培养自然科学领域的巨匠
爱因斯坦是如何获得诺贝尔奖的
美国多名退役军官曝UFO曾多次光顾该国核基地
哲学笔记I--被操纵的人性
PRL:物理定律可能并非全宇宙通用
李晓宁:形式逻辑为何产生于西方
《逻辑起源》连载
自然逻辑的产生、发展及意义
论现代逻辑
评论:被人为割裂的中国互联网
互联网大帝孙正义
城市交通网络拓扑结构复杂性研究
无线上网卡老掉线问题掉线的方法
科学家揭秘章鱼保罗预测的秘密
科学家和《阿凡达》里的科学
许成钢:经济学、经济学家与经济学教育
谢宇:漫谈定量与定性研究方法
如何在顶级科学杂志上发表论文
中国如何招聘教授:十年的变化和今后的趋势
学术资料账号密码全集汇总
混沌中的数学
幂律分布、幂律涌现与幂律谱
数学的若干发展和中国的数学
嘉路兰的螺旋历法理论
基金项目《动态评价网络的统计分析与信息挖掘》
人类文明的斐波那契演进
数学的常数美
科学创新犹如渔夫打鱼
超难的75道逻辑思维题
被禁70年的创富秘诀《硅谷禁书》
RSS文件形式
怀念路遥-贾平凹的BLOG
跨学科交流+开辟自己的领域=创新的境界
大师似苗如何栽
五大疯狂天才剖析
Windows 7下载及使用Windows 7升级
艺术与科学的“姻缘”——谈文艺复兴时期艺术与近代科学兴起的关系
Google TrustRank and Hilltop
实证研究方法
一位北大CCER研究生的经济学、金融学学习感悟
潘晓《人生的路啊怎么越走越窄》
Windows XP系统端口关闭方法
世界上最牛的论文
TXP1atform.exe中毒归来
google使用技巧
Widget发展和Widget的各种应用
身体语言密码29
现代科学研究专题其他1 现代科学研究专题其他2

本栏目主要介绍科学技术方面,包括现代科学研究成果、现代科技、现代科学技术、谁对谁说了什么-Twitter研究进展等。特别关注有关人与文化的价值方面的研究。

『科学频道首页』 『本栏页首』 『关闭窗口』