数据诚信:亟需斩断商业利益链

时间:2022-06-12 09:30:16

数据诚信:亟需斩断商业利益链

“第三方数据”如其名称所示,始终脱不开加诸数据之上的公信力问题。信任是现代社会正常运行的剂和重要资本。第三方数据,无论是对企业或组织运行状况的监测,还是基于主客观指标体系的各种排行榜和评估报告,其之所以成为一种社会需求,恰恰是因为同行以及公众对企业或者组织自身数据的公信力有质疑。现代管理是运行于数据之上的,数据背后是巨大的利益关联。当公信力成为获取商业利益的必备要素和资本时,第三方以客观性为数据赋权本身也不可避免地被纳入到利益链中。

第三方数据从指标设计、抽样策略到呈现,方法多样,不一而足。委托方、媒体和受众的参与,以及众多第三方机构的涌现及相互竞争,极大地增加了这一传播过程的复杂性,激发了公众对第三方数据背后存在的操作空间的隐忧和“阴谋论”想象。可以说,“第三方数据”的公信力问题是与生俱来的。而公信力对于提供这样的数据的机构或者公司而言,则是生死攸关的问题。

与学术研究或管理决策对数据的使用不同,许多第三方数据之争往往同传播有着千丝万缕的关系。当数据作为业绩、市场、效益的佐证,为委托方获取公关传播中的优势时,这一传播过程难免受到来自各方面的影响而不断抽离和杂糅数据本身所蕴含的信息和语境。如果说学术领域并不鲜见的数据造假仅仅发生在学术共同体内的知识生产和传播过程中;从传播的角度而言,生产第三方数据的咨询机构,传播和诠释第三方数据的媒介(往往也是委托方),以及解读数据的公众都将不可避免地影响着第三方数据的有效性和可信度,以及其可能产生的各种舆论效果。

咨询机构的能力和诚信,媒介从业者和委托方的诚信和素养,以及公众的素养左右了这一传播过程。任何传播参与者能力、诚信和素养的缺失,都会给商业利益带来可乘之机,伤害“第三方数据”应有的客观性。而这些能力、诚信和素养问题集中体现在对互联网数据本身的获取、应用和理解之上。

商业利益:屁股决定脑袋

与传统的社会调查或市场调查相同的是,互联网数据的应用始终包含数据的获取和解读两个环节。在整个数据的生产和传播过程中,如何保证数据获取方法的信度和效度,是第三方数据最重要却也是最脆弱的部分;而不同类型的互联网数据及其获取方法,其信度、效度也各不相同。目前常见的互联网第三方数据可以分为三类:旨在获取网络用户态度和情感信息的网络调查数据,旨在客观监测用户网络使用行为的监测数据,以及对网络用户可能消费的网络内容的挖掘数据。其中,网络调查可看作是传统社会调查方法的线上延续,以了解用户的态度、认知等主观心理;而后二者则着重从用户的浏览行为和内容生产、消费行为人手,自下而上的对用户行为进行客观描述和总结。这三类数据及其获取方法,在信度、效度上可能存在问题是各不相同的,其遭到误用和误读的可能性,既有相似之处也各有特殊性。

从社会科学的方法论角度而言,量化数据往往是为了归纳各种经过操作化定义的概念在特定总体中的一般情况。无论是网民的态度,还是特定网站的受欢迎程度,其背后的方法论意涵仍然是对研究者感兴趣的现象进行概念化和操作化,并通过科学的方法进行测量以获得具有代表性且可信的数据。实际上,第三方数据之争的背后往往是人们过于关注经过归纳的数据对抽象概念的反映也就是结论,而忽视方法论层面的数据获取的过程和其中的各种推断逻辑的合理性。

无论是针对用户的态度还是行为,数据总是同各种概念以及其具体的算法和指标联系在一起的,而这往往是最容易引发争论之处。流量、活跃用户、用户群、独立用户,亦或是页面浏览量、视频浏览量、有效浏览量……无论是北京奥运四大门户自封冠军,还是世界杯优酷和酷6的流量之争,都或多或少涉及到这些名称各异、具体定义也并无公认标准的多样化指标。一些常见的概念常常可以有多种操作化定义,各个监测机构之间有时各取所需加以采用,相互之间在同一名称下实际上遵循并不完全对应的操作定义,导致名义上类似的项目的测量,其实际结果并不具有可比性。例如“流行程度”这一概念,既可以用页面浏览量来测量,也可以用独立用户数来反映,因为“流行程度”这一概念本身足够抽象,提供了不同的理解空间。委托方往往倾向于选择对自己有利的指标,而媒体、受众则容易忽视指标本身的含义而刻板地将其同相对抽象的概念联系起来――无论是出于利益还是认知省力,人们都可能倾向于对数据反映的概念进行泛化或不当地比较,而忽视指标是否真的能够完全反映这些概念。这是基于概念的不同定义而出现的算法问题。

具体而言,不同机构在提供所谓的第三方数据时,对一些具有重要社会意涵的概念的测量往往过于简单化,或者泛化,看似指标林立,却常常难以深入揭示数据背后的现象和规律。另一方面,海量数据的挖掘也面临诸多问题,而目前大多数第三方数据提供机构往往以牺牲有效性作为降低算法复杂性之代价。例如,关于一个网站的影响力,往往作化为浏览量、独立用户数目等。这些指标当然能够从不同侧面反映出网站的受欢迎程度,但显然,还不足以完整的反映一个网站的影响力,因为同样的浏览量下,浏览者人口特征的差异,以及平均驻留时间等,都应该在网站影响力的测量中加以考虑。这种指标设计上的缺陷,有时也同目前第三方咨询机构本身的定位有关。目前绝大部分的咨询机构或多或少都定位于市场调查,其关注的指标也有限地集中在反映网站流量或关键词频等相关方面。

然而,流量和词频显然不能揭示全部的互联网现象,这些概念本身也常常在不同情境中需要进行调整。与之对应的,更丰富的用户浏览行为,传播行为,以及其创制的内容的差异性,却往往得不到应有的重视。当然,从技术上言,这也部分地受制于目前基于服务器日志,页面嵌入代码,或在线问卷调查方法本身的局限性。加上指标设计的细节往往不受媒介、受众重视,使得一些机构在监测报告时,对数据的获取方法的交代语焉不详,让人无从判断其数据结果的有效性和可信度。

亟待加强公信力

同时,抽样方法始终是制约第三方数据代表性的重要因素。在线调查的代表性问题固然由来已久,围绕其上的关注点或讨论焦点有两个:一是样本对网民总体的代表性问题;二是调查样本即使对网民总体有代表性,但仍然无法保证对公众有代表性。在实际的网络调查中,无论是国内还是国外,基于方便样本进行总结归纳甚至推广结果的调查比比皆是,而理论上言,这样的调查结果的外部效度都是有问题的,是无法加以推广到样本以外的群体的。而对于服务器日志或页面嵌入代码而言,尽管可以借助数据挖掘而一定程度上避免抽样,但其所涉及的总体往往很有限――例如 2008年北京奥运四大门户争封“冠军”事件中,某些门户所引用的尼尔森数据并未涉及搜狐,因为当时尼尔森并未获得搜狐授权嵌入页面代码。换言之,使用日志和页码嵌入代码这两种数据收集方法,本身决定了其数据来源必然是局部的、有某种系统偏向性的。然而,媒介、委托人和受众却往往容易忽视数据所代表的总体具体是什么,样本怎样获得,以及是否具有代表性。

实际上,这些影响第三方数据结果的各种因素,不仅涉及到第三方数据机构的调研能力,更涉及相关咨询机构和委托方的社会责任和行业诚信问题。由于缺乏统一的规范和有效、透明的防范机制,无论是在概念化和操作化,还是在抽样、统计环节,都为各种形式的“作弊”或数据操纵提供了空间。而对于委托方而言,数据一旦购买到手,大多成为公关文案的材料,尤其是那些握有门户网站或可以方便的以软新闻的形式的委托方。委托方完全可以从利己的角度,选择所谓的第三方数据咨询机构,并对后者的监测过程和结果通过暗示或明示施加压力,让数据朝着最有利于自己的方式呈现。这无疑是对第三方数据公司的专业操守和公信力的考验。

除了数据的生产可能有问题,受众作为传播过程的终端,作为数据的消费者,其实也有一个素养问题,包括科学素养和媒介素养。对于统计数据本身而言,前文提到的概念化、操作化、测量、总体、样本、代表性问题,以及对统计、概率的理解,都属于科学素养或职业素养的范畴,首先需要得到受众和媒介从业人员的重视。而对于受众而言,媒介素养更多地体现在其能否有效识别出媒介内容背后的说服动机,并能够理性地解读作为媒介内容的数据。实际上大部分互联网第三方数据在呈现时早已经过了整个传播过程的层层筛选,受众很难了解到数据背后的真实细节,因此保持对数据本身和传播意图的敏感性是有益的。例如,关于如何看待在线民意调查的结果及相关报道,一个有基本素养的读者,其会对测量概念的有效性、数据的代表性保持敏感和警觉,而非不加拷问的照单全收。受众和媒介从业人员素养的提高,反过来将鞭策第三方数据咨询机构提高数据质量,重视其数据和品牌的公信力。

斩断利益链条

第三方数据之争不仅是数据本身的问题,第三方数据本身就注定其与利益和传播相勾连,因而纷争乱象背后不仅仅是技术问题,或是单纯的传播过程;而体现在利益群体,数据生产者,委托方,消费者,受众等多方参与下的复杂动态之中。因此,单纯地从某个方面加以改善并不能从根本上改变这一现象。乱象背后实际上是市场机制、文化心理和政策本身的运行和博弈。尽管如此,作为新近才广受关注的领域,无论是对咨询机构,还是媒介、受众或委托方,互联网数据咨询本身还有很大的提升空间。

首先是需要提升第三方数据本身的质量,这涉及对更为复杂多样的互联网数据的分析能力,对海量数据的处理能力,指标的设计和质量控制能力等。目前常见的互联网第三方数据的深度还十分有限,大多集中在流量分析或简单的关键词舆情分析等。实际上,这都远不能解释日益复杂的互联网现象――尤其是随着Web2.0以来社会网络、人际传播、在线自组织、在线集体行动的兴起和涌现,互联网不仅作为现实社会的镜像,它更日益成为现实社会自然延伸的不可或缺的一部分。即便是市场调研领域,也日益从单纯分析用户的兴趣,开始转入对线上社会网络、口碑传播等结合多元数据的分析中。无论是对用户的识别、分析用户自创内容还是研究其社会网络、传播网络都亟待新的、更有洞见的分析方法――这些正是目前第三方数据的薄弱之处。与此同时,如何更有效率的处理海量数据,并从看似“有限”的数据中获得更丰富的知识,既需要技术层面的努力,显然也更需要理论提炼能力和社会学的想象力。

其次,对于行业而言,还需要努力建设统一的标准和公开透明的行业机制。数据之争,大多争论于不同指标的混用,不同总体的比较,或对指标的过度解读;这些都可以通过建立统一的行业标准得到一定程度的改善。标准不仅仅是指标的统一,更重要的是建立一套科学严谨的数据收集和阐释机制,最大可能地保持数据所包含的信息和情境,在生产、传播和解读的过程中不被歪曲和省略。例如,针对不同类型的互联网应用采用不同类型的指标,如何设计涵盖最多信息而又不至于产生歧义的指标,以及如何对指标对应的概念进行清晰的界定等。与此同时,严谨的第三方数据报告应当包含更多的方法细节,包括指标的设计细节和抽样过程的交待等。清晰地把数据和方法一并呈现不仅必要,而且需要咨询机构作出特别努力,以便数据和结果更容易为客户和普通读者所理解。

最后,提升媒介从业者和受众的素养也十分必要。素养的提升不是一蹴而就的事情。与咨询机构、委托方的“诚信”一样,数据消费者和提供者的科学素养、信息素养和媒介素养,虽然都是导致数据纷争的原因,却并非是本文能够彻底探讨的问题。但有一点是可以肯定的,即第三方数据行业或者产业的成长,离不开各个利益相关方自身素质的不断提高,离不开行业自律和自组织管理的日益成熟,离不开社会整体发展阶段的积极推进。

上一篇:可可西里志愿者日记(2004) 下一篇:网络运营与管理的法律缺位