大数据时代传统社会调查过时了吗?李丁的回答

邮件原稿,未编辑,有错漏,后面再改。

清利:

 

关于你提的问题,我回京后写了一些东西。你先看看,如果有什么问题,后面沟通的时候可以详细讨论。

 

 

大数据给传统社会调查带来的挑战

移动互联网的快速发展和迅速普及,使得社会行动者的态度、行为被迅速的信息化,并被互联网设备记录下来,这为科研人员研究各类社会行动者的态度、行为提供了新的、以往的信息收集手段无法采集的大量信息,无论是从变量意义上,还是从案例意义上,都大大提高了人类记录和采集相关信息的能力。

 

今天的社会行动者是quantified actors,而互联网和智能设备成为时时刻刻在采集大家的信息的大型感应器,人在与这些设备互动的过程中,也成为这个大型social sensor(社会感应器)的一部分。这极大降低了人们获取某些信息的成本。比方说,以前要了解一个人的收入和支出很难,在现金使用越来越少,大家都更多依赖银行和手机支付的情况下,要了解大家的收入、支出,甚至收入支出的流水都非常容易。以前我们要了解一个社区的流动人口很难,在手机基本普及的情况下,我们通过手机信令数据就能够相对比较准确地估计一个小区的外来人口的占比和相关结构。以往我们要采集10000个人的信息成本很高,需要知道这1万个人在什么地方,需要详尽办法找到将问卷投递给这1万个人的渠道(通过单位介绍信,行政命令,通过熟人网络,通过电话,邮件,派调查员直接登门造访)耗费大量的成本才能获得这么多案例的信息。但是在大家普遍使用某些互联网设备的情况下,不管你在哪里,只要你联网,只要你同意了某些协议,你的信息就会源源不断地提交到相关的数据库中。因此,要获得1万个案例数据,甚至千万,上亿案例数据都是可能。

在这样的背景下,谁能够先占有这些数据,并能够从中提取出有价值的信息和知识,谁就有可能获得有关行动者的新的知识,社会运行的新的规律。一部分研究者和领域对传统信息采集手段(例如抽样调查,包括案例访谈等等)的依赖就会降低,就是说,我不用传统的渠道仍然能够生产出有价值的知识产品。这个大趋势是不可避免的,无视这一趋势,看不到新数据中所蕴藏的有价值的信息和规律是不可取的。

 

传统社会调查的必要性和获得的信息的独特性,大数据获得的信息的局限性

但是在大数据条件下,对传统抽样调查的绝对需求是增长的。这与传统信息采集方式的相对优势,以及大数据的局限性是紧密相关的。大数据虽然很大,但是仍然是有边界的,无论在案例意义上,还是在变量意义上都是有边界的。

 

首先,被互联网、职能设备感知和记录的社会行动者并不覆盖全部的行动者。大数据到底覆盖了哪些主体、对哪些主体覆盖得更严密,没有线下数据(普查数据或者严格的抽样数据)的校验,很有可能出现偏差。尤其当我们关注的主体不是网民、现有用户,而是全部居民和潜在用户的情况下。就像1936年《文学摘要》预测错美国总统选举一样,如果你认识不到大数据的覆盖率或者代表怎样的群体,即便样本规模再大,得出来的知识和规律都有可能是误导性的。要从案例规模上挑战科学抽样调查是很难的,实际上,传统抽样调查正是在案例规模竞争中战胜普查和非概率大样本,才成为现代量化研究的主要选择的。

 

其次,在变量意义上,大数据也是有边界的。尽管今天采集和储存数据的成本越来越低了,但仍然是要耗费成本的。对于每一个企业和研究单位而言,采集什么数据,采集那些数据都是有取舍的,不可能什么数据都采集,而且通常优先采集的是关涉业务流程的信息流、资金流数据。这些数据社会意义密度很低,要从总提取出有社会价值的信息成本很高。尽管现在通过数据开放、黑客攻击、数据交易、勾兑,很多企业和单位都试图将能够获得的信息都串并起来,增加关于这些主体的信息量(也就是增加变量的个数),但是仍然面临很多的利益的壁垒、技术的壁垒、甚至伦理的壁垒,成本很高。每个单位都有很大的样本量,但是每个样本的变量信息很少。例如,一些数据集中有基本人口特征信息,一些数据中有健康信息,有的数据集有生活方式信息,如果这些信息没有串并起来,要做出新的、更深入的健康研究是很难的。因此,我们可以看到不管是政府部门,还是企业都在强调数据的开放共享,倡导建立数据共享标准,而一些信息贩子都在拉群勾兑,为什么呀?从根本上讲,就是为了将这不同的信息串并起来,将行动主体嵌入到一定的社会网络或者情境中,增加各个研究对象的有效信息量。如果串并不起来,大家在朋友圈里看那个“什么叫大数据,情人节订披萨”那个段子就不可能出现,也不用担心。

 

传统的社会调查是在理论指导下在短时间内,高强度地获取大量信息的过程。不管是实地调查、访谈,还是问卷调查,实际上都是研究者利用信息采集工具试图短时间内获得大量关键信息的努力,信息密度非常高。问卷调查的目的直接性、设计性、标准化程度更强,而且基于概率抽样理论做了成本削减,效率是非常高的。这与目前大数据大多数都是生产过程中顺带产生的痕迹数据有很大的不同,要从这些痕迹数据中提取出同等价值和密度的信息成本很高。例如传统调查我们直接询问受访者的收入情况,尽管会存在测量误差,在信度和效度可以讨论。要根据大数据来进行估计,你首先需要有他的银行账户的信息,现金收入信息,让后将很多很多次的收支记录进行计算和统计才能得到。要理清这些收支关系,做好关于收入的界定和技术实现其实成本是很高的。可以这么说,如果不使用传统的社会调查方式,今天即便世界上能力最强的互联网公司将他们所有资产和人力都汇集起来,可能也无法从现有互联网痕迹数据中获得一个和CGSS一样具有同等代表性,同等信度、效度、信息密度,相同变量的数据集——除非从网上下载了北大调查中心或社科院采用传统方式收集的数据来充数。

 

在这种情况下,传统社会调查研究仍有发挥作用的巨大空间。我认为,要获得某些高密度的、具有统计代表性的数据,传统的调查方式目前来说,还是最经济、最便宜的方式之一。只要传统的调查方式在获取这些新信息上具有成本优势和科学性优势,传统的信息采集方式就会有生存的空间。而且大数据再大,人们总会有新的信息需求,绝对的信息饱和是不可能的,大数据会带来更多的信息需求,传统数据采集方式会有更大的发展空间。对于研究人员而言,信息越多,质量越好是最高兴的事情,没有信息的情况下我们只能做假定,靠猜和推测。但是信息数量和信息质量都是需要代价和成本的,大数据的出现降低了获取某些信息的成本,这对研究人员是一件幸事。但是确实应该明了大数据的局限性,以及传统研究方式的优势,避免盲目崇拜。

 

有些学者对大数据持拒斥态度,似乎与质性和量化研究的分歧

 

关于大数据目前已经引发了很多争论,我想真正拒斥大数据的研究者是没有的,大家拒斥的是对大数据的错误使用,或者对于大数据不带反思的盲目使用。这不仅是质性研究者反对的,同时也是量化研究者反对的。目前质性研究者对大数据的质疑和警告的声音更大,引发了大家的讨论,量化研究者确实应该借此机会认真的反思和改进大数据的生产和研究过程,避免头脑发热、盲目冒进和大数据崇拜。但如果只是没有真凭实据的空口放炮,逗大家玩,这就有点为老不尊了。倘若甚至还真利用学术权威妨碍学科布局、梯队发展,这就有点逆历史潮流而动了。我想,给予建设性的批评、意见,大家在协同进步才是正确的姿态。

 

在潘绥铭老师和刘林平老师的争论中,潘老师的一些细节论述刘老师已经进行了细致回应,大家可以看到大数据巨大的发展空间,但这些都不是潘老师关注的重点。潘老师的要点是:第一,大数据你需要认识到自己的不足,承认自己有原罪,你不能太狂妄,搞大数据崇拜;第二,你再怎么厉害,你也不可能取代传统的方式和方法,特别是在人文社会领域;第三,似乎有一点大家是各干各,各留空间,永远不要有交集的好的意思。我认为部分有些道理,但又不全对。有道理的地方在于,大数据确实应该注意自己的不足,要谨慎,要在社会情境中理解信息的含义,明了大数据的片面之处和代表性不足之处,要对自己的数据加工过程保持反思性,并充分利用其它研究的成果和经验,包括非量化的人文社科研究的长处。但说大数据有其独特的原罪,两种研究方法不具交集,就过于将大数据研究、量化研究方法和质性研究方法(包括人类既有认知过程和方法)割裂开了。

 

实际上,大数据面临的几乎所有问题也是质性研究、传统抽样实证研究同样或多或少面临的问题。人类只能凭借自己有限的感觉能力、脆弱的理性思维、波动的理解能力来获取来自这个世界的数据、从中加工总结出有用的信息、知识与理论。世界是不是真是我们理解或总结出来的样子,只能继续凭借这些有限的能力获得反馈信息来验证。从这个意义上讲,认识的过程,不管是量化的研究和质性的研究,都存在割裂、篡改、人为的成分,但这并不妨碍我们去获得有价值的信息,除了人力,人还能依赖什么,信赖什么呢?多数人也并不完全迷信自己获得的知识和理论是永恒的真理,相反,总是倾向于认为它们是值得改进的。我们没有必要对大数据提这样过分的要求,大数据也不要轻狂或者为了获得发展资源而向社会许诺这样不切实际的愿望。关键在于,我们能否公开获得这些新信息、新知识、新理论的方法和过程,被其他人在科学意义上理解、检验、认同和支持,变成人类的共同知识财富。当然,现实社会中,知识和观点的形成、传播、理解、认同和支持有太多社会、权力因素的影响,甚至并不主要依据科学逻辑而被支持或反对。但对于科学研究者而言,不管是量化研究,还是质性研究,应该就科学研究最值得坚持的基本价值、逻辑、原则达成共识。加里*金的观点值得参考:研究的目在于推论,研究过程是公开的(方法是可学习和共享的,结论是可对比和复制的),研究结论是不确定的,研究的主要内容就是研究方法等等。在这些共识的基础上,量化研究和质性研究所做的众多不同努力好取舍都可以摆到台面上来讨论、对比、交流,如果大家在一些价值取舍上出现分歧,我们也可以有所保留的基础上做到相互理解,尊重,各美其美。彼此之间相互隔绝、对立、攻击,甚至连尝试相互理解都不愿意,这其实不是在做科学研究、做学术,而是玩权术和权力。

 

如何看待大数据技术,在社会学研究中是否有可能结合社会调查与大数据两者的优势,进行数据获取。

 

当我们有了一些基本的共识,了解不同方法的优势与不足,并且掌握不同方法的使用之后,不同方法之间的取舍、综合利用是可能的。一直以来很多研究者就在综合利用质性的研究方法和量化的研究方法。具体到大数据和传统研究方法的结合上:

 

第一,传统的质性研究方法和抽样调查方法能够补充大数据的不足,帮助我们理解大数据的社会含义,帮助我们进行大数据的采集和加工。比方说,有时候,互联网痕迹数据不知道如何解释和理解,拍脑袋是不行的,有时候凭借我们的先验知识也不够,这个时候我们将用户找过来,深入访谈,了解一些使用的过程和情境,就能对这样的痕迹的意义有更确切的把握,为未来采集什么数据提供指导,防止数据加工过程掉进胡编乱造或者篡改的陷阱里面。有时候,在大数据中变量信息不足,我们就可以抽取一些案例,通过传统方式收集一部分信息,然后与既有信息串并起来,就有可能做出很好的研究。比方说,微信采集了我们大量的日常交流、阅读信息,但是缺乏一个人性行为信息,我们就可以争取抽取一个代表性的用户样本,派访问员去接触、争取信任,获得有关信息,从而估计出微信使用行为习惯与性行为之间的关系。当我们估计出一定的规律之后,可以将相关的参数作为先验信息放到模型中,对那些没有线下调查信息的用户的性行为进行预测。有时候,大数据的案例代表性不确定,或者覆盖不全。我们就可以通过传统调查方式,在更完备的抽样框抽取一个小样本,收集一部分信息,来评估当前的用户属于人群中的哪一部份,哪些特征的潜在用户更有可能变为真实用户等等。

 

第二,大数据也能为传统调查研究提供重要的信息补充。质性研究如果能够在既有的访谈、观察的基础上,还能获得受访对象在互联网的痕迹数据、社会交往数据、经济往来数据、行动轨迹数据、所在社区的社会背景信息等等,就能对研究对象有更全面的了解和把握。就像今天的技术在公安在破案过程中扮演重要作用,社交媒体数据及其他互联网痕迹数据能够有利于招聘单位对应聘者的全面了解一样,懂得低成本、高效地采集和利用多源数据,无意会有所助益。做这样的个案数据的采集和串并是可能的,但是成本还很高,风险很大,特别是那些需要获得授权并不公开的隐私数据。由于大数据的信息密度低,分割性、零碎性很高,做到大规模的个体层面的数据串并成本还很高(确实有一定的价值,有些公司和单位在努力通过用户的手机号、手机识别码、身份证号等进行信息串并)。目前,基于宏观单位例如地区、社区、组织、上市公司等的公开信息汇总和串并相对容易,并且已经涌现了大量研究。现在大家看到的各种空间数据可视化,其实就是通过地理坐标这一共同的变量,将零散的、低密度的信息都汇总叠加都特定的坐标点上形成的新信息。例如将众多的用户及其使用的智能设备作为一个一个的社会感应器,反映出一个社区的人口属性、活动特征、态度倾向等信息。这些信息可以与传统的社区调查串并起来使用。现在城市研究和规划行业,社会感应数据和卫星遥感数据的串并就非常常见。这些汇总信息也可以作为社会背景信息增进案例的理解。比方说,CGSS全国调查了480个村居,如果我知道这些村居的地理坐标,就可以将互联网上的所有带有这些坐标信息的数据都汇总出来,例如我们可能知道每个村平均每天有多少人使用微博、周边有多少商业点、有多少人进行网购,有多少人往北京打电话等等,从而让我们知道自己的受访对象嵌入在怎样的互联网环境、关系网络及社会环境中。

 

第三,在移动互联网时代和大数据环境下为试验研究、质性研究、抽样调查提供了新的条件和机会。相关的技术可以帮助我们进行刺激控制、随机分组,结果信息采集;帮助我们进行在线的访谈和互动;为我们提供抽样框,进行问卷的投放、回收,并监控调查的整个过程等等。只要我们设计合理,新技术和新数据都有可能给我们带来超过成本的回报。当然,前提条件是我们确实掌握了不同方法的技术,知道他们的不足或限制。作为年轻人即便对某种方法情有独钟,也应该花一些心思了解一下其他方法是怎么做的,做到知己知彼。记住老人的提醒,但又不能全信老人的忽悠,进而故步自封,应该保持一种开放的、终生学习的姿态。

 

每个人的精力是有限的,能将这些方法全部融会贯通是对青年学者提出的比老一辈更高的要求;另一方面,更应该强调不同方法之间的分工合作,每个人度都不得不有所取舍,但作为一个团队,其成员可以发挥各自的优势,通力合作。不管对于个人,还是团体,都需要我们彼此加强交流、学习、互动和理解,不断积累和提高共识的程度,共同推进知识的累积性增长。社会学应该给予自己的学生全面的研究方法训练,要充分利用全球的开放教育资源提升学生的数据收集、信息处理能力,不断学习和自我提升,不能局限于自己已经懂的,擅长的那点东西。

 

 

 

 

 

发件人张清俐 <shdjwam@126.com>
日期2017年2月16日 星期四 下午4:31
李丁 <liding@ruc.edu.cn>
《中国社会科学报》采访邀约

 

李老师:新年好!

       我是中国社会科学报记者张清俐,感谢您欣然接受本报关于“大数据时代给社会调查带来的挑战和机遇”这个话题的采访。如不为难,盼望您近日可以就我们关心的问题给予简要答复,以飨读者。以下是采访提纲:

选题背景:大数据时代是否需要社会调查?大数据时代凭借智能设备,通过数据挖掘技术可以获得海量数据,利用这些数据由此还兴起了计算社会学这一学科。有学者提出,依赖于问卷调查的传统社会调查所能获得的数据与大数据相比,就是小数据。那么社会调查在大数据时代是否还有必要?在大数据技术兴起背景下,传统的社会调查方法如何彰显其优势和独特价值?本报近期就这一学术争鸣话题进行采访报道。

采访提纲:

一、请您谈一谈大数据给传统社会调查带来的挑战,比如大数据技术所依赖的是现代先进的网络信息技术、智能设备等,这些技术已经非常普及,而传统的社会调查以专门人员进行问卷调查为主要形式,以您所在团队所发起的“中国综合社会调查”为例,以年度为单位,每年大概要耗费多少人力物力?再如信息量的比较,“中国综合社会调查”已经开展了多久,以年度为单位,每年可以获得的数据量多大?能够反映的信息面多宽?而此番比较之下,大数据在获取数据信息的渠道、以及信息量等方面具有怎样优势?

二、有学者提出,社会调查不仅耗费巨大,且获得的信息有限。那么传统以问卷为主要形式的社会调查其独特价值在哪些方面,也就是说,社会调查这样研究方式的必要性以及由此获得的数据信息的独特价值?较之于社会调查,大数据获得数据信息存在哪些局限性?

三、社会调查获得数据对于社会学尤其是社会学量化研究不可或缺,现在有些社会学者已然开始积极“拥抱”大数据技术,比如将交通、通讯、社会服务产品等产生的数据信息为社会学分析所用,乃至由此产生计算社会学这一学科。也有些学者对大数据技术持拒斥态度。这背后似乎隐含量化研究与质性研究的分歧。您本人主持参与大量社会调查,您是如何看待大数据技术?在社会学研究中,是否有可能结合社会调查与大数据两者各自的优势,进行数据获取?
盼望您就以上采访问题贡献真知灼见,再次感谢!

                   顺颂

时祺

                          中国社会科学报张清俐 敬邀

张清俐

中国社会科学杂志社 中国社会科学报