数字足迹:在线社会研究的机遇与挑战(上) | 社论前沿
2019-10-18 10:56:15
  • 0
  • 0
  • 0

来源:原创: 杨阿诺(编译) 社论前沿

摘要:对于世界范围内的数亿人口而言,在线互动已成为日常生活的一部分。这些互动在单个事件层面上产生了关于人类行为和社会互动的时间戳记录,其规模是全球性的,使得研究人员可以通过使用观察数据和控制实地实验来解决有关社会身份、地位、冲突、合作、集体行动和传播等基本问题。这一前所未有的机遇也带来了一些方法论上的挑战,包括归纳概括线下世界的观察结果,保护个人隐私,以及解决“大数据”和网络实验所带来的逻辑挑战。作者回顾了在线社交研究方面的最新进展,并对理论和方法上的机会与局限进行了批判性评价。

这是社论前沿第S1437次推送

微信号:shelunqianyan

引言

科学的学科不仅通过新的发现、理论和范式取得革命性的进步,而且还发明了新的工具和方法。电子显微镜、太空望远镜、粒子加速器和磁共振成像使科学家能够以更大的尺度或更精细的分辨率来观察世界,揭示以前模糊的细节和未预料的模式,体验科学突破的尤里卡时刻。在本篇综述中,作者认为先进的线上活动观测工具对社会科学和行为科学有着类似的转化效应。这些研究旨在说明,从线上社区和网络收集的数字足迹,如何使人们能够以前所未有的方式来理解人类行为和社会互动。

虽然电子通信对社会的影响已得到广泛承认,但它对社会和行为科学的影响也十分深远,它提供了全球化却又细密的观测数据,并为群体规模试验提供了一个场所。一篇2001年发表在《社会学年度评论》的“互联网的社会影响”(Diaggio et al., 2001)文章,将互联网视为社会不平等再现、社区动员和闲暇时间的利用方面的一种变革。但本文作者分析的是在线数据使用对社会科学知识的促进作用,而非互联网对社会的影响。

硬科学

过去的一个世纪里并不缺乏社会理论,但在数据获取方面非常受限。原因很简单:社会生活很难被观察。例如,询问一个被孤立的人与朋友有关的事,比观察持续存在的与友谊有关的互动和交流要容易得多。民族志研究者——对整个网络的观察研究和调查使得社会互动的完整记录成为可能,但成本高得令人望而却步,除非观察对象是极小的群体。因此,一般通过直接接触收集关系数据的社会互动研究,会局限于诸如俱乐部(Zachary, 1977)和村庄(Entwisle et al. 2007)等有限的小群体。国家级别的人口长时间序列数据收集,通常由政府和学术界的多个合作机构承担,如Framingham的心脏研究 和国家青少年健康纵向研究。通过调查以自我为中心的网络(随机选择的人及其网络邻居)来测量群体层次的网络结构,可以用来研究网络节点的属性(如度)和边缘(如关系强度),但这种方法有很大的局限性,包括无法测量网络的基本属性(如距离、聚类、连通性和中心性)或社会互动(如扩散和极化)。

由于观察群体规模的社会互动较为困难,大多数调查依赖于随机抽样,这些样本由选定的独立观测数据组成,提供基本人口分布的无偏表示。然而,这种方法不能直接测量出被访者朋友的影响力。众所周知,人并不完全“为自己思考”,但当我们使用随机抽样研究意见形成时,只能假设被访者的意见完全由其特征决定,如人口背景、物质利益或个人经历。因此,很难排除这样一种可能性,即意见上的人口差异(例如,大学毕业生的社会自由主义)是伪造的,或被无法测量的同辈影响效应所夸大。相反,滚雪球抽样使获取网络邻居之间的关系数据成为可能,可以用它来度量网络邻居之间信念和行为网络的人口统计学差异,但在选择被访者时,路径依赖使得获得人口分布的无偏表示变得更加困难。

随着全球越来越多的人选择使用需要提供详细关系记录的设备进行互动,对社会互动观测能力的长期限制正在迅速消失。来自在线社交网络的数据——电子邮件档案、电话记录、短信和社交媒体帖子——允许研究人员将社会生活建模为行为者之间的关系,取代了衡量个体特征变量之间关系的社会生活路径分析模型。

数字技术的使用迅速增加,从电子邮件到移动电话,再到社交媒体,产生了带有时间印记的社会互动的数字足迹,为收集庞大而又微观的实验和观测数据提供了机会。在线数据可以提供日常活动的详细记录以及社会关系的频率和强度,而不是与被调查者的行为和互动有关的回顾性报告。

这种研究策略并不新鲜。几十年来,社会和行为科学家已经获得了政府和组织的行政或记录保存过程的数据。组织跟踪他们的成员名单,公司跟踪客户的购买几率和员工表现,银行从信用卡交易中收集大量数据。我们的手机、平板电脑和笔记本电脑报告了我们访问的每一个网页和点击的每一个链接,甚至可以报告我们的准确位置和移动位置。我们的社交互动是通过电子邮件、Skype、即时通讯、Facebook和Twitter来实现的。我们的照片既是身份标记、地理标记,也是时间戳,我们上传的东西形成了一个包含时间和地点的记录。Facebook等社交媒体平台和亚马逊(Amazon Mechanical Turk)这样的在线劳动力市场,都可以通过来自世界各地的数千名参与者进行控制实验。

 

势如破竹

社会望远镜

拥有观察数亿人的能力意味着我们可以用小效应量来测量差异,否则这些差异可能会被随机变化所淹没。就像阿雷西博天文台这样巨大的天线需要探测中子星发射的低频辐射一样,在线网络包含了一个巨大的社会科学天线,它可以观测到宏观事物(如国家间交流密度的全球化模式),也可以观测微观事物(如情绪与微行为的随时变化)。

在线行为是实时记录而非追溯性的。在社交网络研究中,当调查个体的互动模式时,他们会受到各种潜在偏见的影响。问题的措辞和排序会使被调查者受到人为限制或以其它方式改变其个人报告,从而导致研究者对网络规模的低估。而在线行为——时间戳和被动记录——可以提供每个人何时和与谁互动的明确记录。

随着智能手机的流行,线上行为的线下情况变得可以获得,如共同参与公共活动。比如,在一定时间范围和给定事件的有限半径内,对一组推文进行采样(在Twitter上发布的简短消息),可以重构线上活动对线下活动的助推作用,或在研究分析中添加地理变量。

虚拟实验室

虽然大多数使用在线数据的研究都是观察性的,但越来越多的研究使用网络作为控制实验的虚拟实验室。实验解决了所有在线或非在线观察研究的一个关键限制:无法在观测现象时不受潜在无法测量的因素的干扰。

有着随机分配的控制实验是一种解决方案。在一组突破性的研究中,Centola(2010,2011)创建了一个基于网络的健康信息社区,在该社区中,社交网络用户的聚集程度和同质性水平可以被控制。通过随机分配参与者的条件,Centola删除了共享环境和网络自相关,只留下传染的可能性作为解释。他发现,与随机条件下的传染率和传染程度相比,聚类条件下的几率和程度更高。在小世界网络中,复杂传染从多个邻居被感染时提供的社会强化中获益。当网络高度聚集时,这种社会强化就更有可能发生。部分在线实验没有自己创建网站,而是使用现有网站。Bond等人(2012年)通过控制Facebook用户是否接触到其朋友的投票数量信息,来检验社会影响对选民投票率的影响。

研究应用

社交网络、传染和扩散

社会网络分析是最早使用在线数据的研究之一。虽然存在许多社交网站,但研究人员主要研究Twitter和Facebook,后者分别拥有超过3亿和10亿全球用户。Facebook的个人资料包含丰富的人口统计数据,包括全名、出生日期、地理位置、与朋友、组织、政治和社会运动的联系以及文化品位。虽然人口结构并不丰富,但其数据更容易通过较为开放的API(应用程序编程接口)获得。Facebook的私人数据通常不能用于研究目的,但有几种供研究人员使用Facebook数据的策略。第一,研究人员可以构建应用程序,或附加应用程序,当用户使用时,允许研究人员访问用户的人口和行为数据。这些应用程序可以针对那些具有所需人口特征、网络属性、文化或政治偏好的用户。然而研究人员需要注意,对自选择的依赖意味着获取的数据是一个非随机的方便样本,其结果甚至不能推广到目标亚群体。第二,研究人员可以以实验室实验的方式邀请参与者进入实验,然后登录到他们的Facebook帐户。

一些研究人员已与Facebook的工作人员协商好,获取匿名的私人用户数据供研究之用。例如Golder等(2007)发现非朋友间的私人信息主要在深夜传送,Traud等(2010)比较了多所大学的网络结构,Mayer 和 Puller(2008)在一所大学内模拟关系的形成。一些研究人员与Facebook自己的内部研究团队合作,分析私人数据,并进行大规模实验。Das和Kramer (2013)对自我表达中的抑制进行了检验,由于内部日志的存在,该研究才成为可能,这些日志是用户编写但最终选择不发布的消息。

boyd 和Ellison (2007) 确定了社交网站独特的结构:个人简介和公开可见的网络邻居列表(后者共享关系)。他们注意到,他人以自我为中心的网络,其可见性因站点而异,并且随着时间的推移而变化。例如,LinkedIn只让付费用户看到一些可见概况。Twitter允许用户间接查看他们所关注的人收到的内容,但前提是后者也关注前者。Facebook需要对称的社交关系,而Twitter和大多数博客平台则允许不对称的联系存在,往往导致长尾分布(如,名人通常有数千名粉丝)。有些平台要求用户有确切的线下身份(如Google Plus和Facebook),而大多数平台没有要求。这些不同的要求影响用户的行为,帮助一些平台蓬勃发展并获得信任与合作,而有些要求则表现出不信任和敌意。这些差异反过来为理解结构、规范、文化协议和激励措施的差异如何影响个人和集体结果提供了重要的研究机会。

许多研究利用在线网络再次确定了关系重要性研究中的两大经典发现,即Granovetter的“弱关系的力量”和Burt的结构洞。一些研究复制了Milgram对小世界现象的经典研究,对“六度分离”理论进行了再验证。Dodds等人(2003)在全球电子邮件网络搜索的实验研究中发现了相似的平均路径长度,Leskovec和Horvitz(2008)使用一个拥有2.4亿用户的全球即时通讯网络,观察到平均路径长度为6.6步,而Milgram为5.2步。

大量的网络数据还使人们得以研究结构条件如何影响社会性传染的传播,包括决定加入一个团体、接受一项协定或传播信息。Bakshy等人(2012)通过2.5亿Facebook用户发布的新闻信息发现,新信息主要通过弱关系传播。相反,通过使用460万用户(约占全国人口的20%)的移动电话记录,Onnela等人(2007)发现,虽然弱联系“使网络团结在一起”(因为没有联系的网络属于被孤立部分,最容易在这些关系中被删除),但大多数信息都是通过中等强度的纽带传递的。

文献来源:Scott A. Golder and Michael W. Macy. Digital Footprints: Opportunities and Challenges for Online Social Research[J].Annual Review of Sociology,2014.40:129-152.

文献整理:杨阿诺

最新文章
相关阅读