我们考虑下显然不遵循严格的数据使用授权的极端交易市场——地下数据黑市。如果关注数据交易与流通发展的话,相信都对目前低下数据黑市交易的猖獗不会陌生,最近南都记者在网上只花费700元就买到了同事包括开房记录、名下资产、乘坐航班,甚至网吧上网记录信息。一本财经的记者甚至顺藤摸瓜勾画出了整个地下数据黑市的概况,作为数据交易从业者不得不承认,当前国内数据交易的交易量都集中在这些见不得阳光的黑市交易之中。

地下数据黑市这个灰色交易生态“实现”了数据的大规模流通量,虽然这些数据大多存在“注水”(比如银行内鬼盗取了1万条高净值客户数据,再混入4万条虚假数据打包出售),但经过某些数据中间人的拼接和清洗,产生了超乎想象的个人洞察价值,甚至可以描述一个人所有隐私信息,包括购买记录,定位信息,开房记录,财产信息,甚至在某某网页上的停留时间,正是这些诱人的使用价值,黑市数据从来不乏买家——从诈骗团伙、追债公司、房产中介,到冠冕堂皇的大数据公司以及征信机构。

可以说,通过放弃严格的数据使用授权,成就了地下黑产数据这个庞大的链条,以及各种令人背脊发凉的数据。
而数据交易界的另外一波主要玩家,是各地具备政府背书的数据交易中心,然而与闷声发大财的地下黑市交易市场相比,可谓冰火两重天。

作为正规的交易机构,严格的数据使用授权是不言而喻的目标,提升数据的使用价值也自然要保障,但这两者的组合在运营过程中意味着大幅推高了交易成本。例如,电信运营商提供的个人征信类查询产品,要求使用方在查询参数中附带一组被查询对象的用户授权号,通过这组授权号可追溯到相应的用户授权书文件,并承诺接受电信运营商不定期的随机抽检,另外从价格上说,相比市面上五花八门通过各类灰色数据封装的廉价征信查询接口而言,此类电信运营商官方接口的价格也难以撬动市场。

正因交易成本的居高不下,目前所有的官方背景数据交易中心都无法推出标准化的数据产品,交易量也清淡如水,部分成功交易的案例也仅限于case by case的定制化数据项目式合作。另外更有部分交易中心索性转型为大数据会务以及政府研究项目的承包商,此等曲线救国确实让人唏嘘。

那么,有没有存在数据可以实现大规模流通且相对严格地保障了数据使用授权的情况?有,典型的例子就是各类提供公共数据查询服务的API接口集市,提供了各类如车辆违章数据查询、气象数据、空气质量数据查询等。目前这些数据调用量巨大,但究其本质还是因为这类数据大多没有明确的权利方(因此也不涉及个人隐私),或带有强烈的公益特性,使得其交易成本能够大幅降低,但也正因如此,这些数据均难以具备较高的附加价值,其售价往往也非常低廉。
另外者政府数据开放平台也具备这样的特征,如上海市政府数据服务网、广州市政府数据统一开放平台等,数据主要由各地政府依法可公开的数据组成,上面部分数据具备一定的科研意义或者社会大众对于政务公开的参考,但基本难以具备广泛的使用价值。
那么,为何会存在数据交易与流通的“不可能三角”?
首先,任何交易的前提都是交易成本能够控制在理想的范围之内,而交易成本的降低,核心在于产权的明晰。新制度经济学中的科斯定理指出,交易成本为正的情况下,所以不同的产权界定会带来不同效率的资源配置,明晰产权之后,让各种制度进行竞争,就可以有效降低交易成本,极大的提升效率。
而在数据交易市场,目前的客观现实是数据的产权难以清晰界定,比如运营商存储的用户数据,究竟其产权属于用户还是属于运营商,或者两者共有?正因为缺乏清晰的产权归属,数据拥有方在数据开放时往往畏手畏脚,从而提升了整体的交易成本。
例如同样在运营商数据开放的案例中,因为产权不明晰,为了避免潜在的用户诉讼,运营商不得不采取严格的数据脱敏及清洗手段,导致了数据开放后的信息大幅失真,甚至失去了数据大部分的应用意义。因此,严格的数据使用授权以及提升数据的使用价值,在数据产品不明晰的情况下,本身就是一堆矛盾体。
正因为如此,失真的数据意味着应用成本的大幅上升(需要更先进的技术/人才重新挖掘数据之中的价值),又进一步增大了交易成本,无疑限制了数据的大规模流通。
最后,由因为数据缺乏大规模流通的大环境,反过来抑制了运营商等数据拥有方的开放意愿,最终形成了一个相互影响的闭环,目前唯一的解决方法,只能是放弃三角中的其中一个环节。
需要指出的是,数据交易的“不可能三角”与经济学中的“蒙代尔不可能三角”不一样,它实质不是一个定理,只是对当前数据交易模式困境的一个模型表述,要破解这个不可能三角,一方面在于通过立法及交易制度顶层设计,明晰数据产权,另外对于不遵守这些立法及交易制度的主体,即黑市数据交易,需要通过国家的严刑峻法打压,从而提升其交易成本到不能承受的地步,最终形成数据交易市场的良性循环。