王天恩 在技术定义上,大数据最主要的一个着眼点是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是会先设定明确甚至单一的目的。这种取样,一方面可以更好地实现采样前预设的目标,另一方面也抹去了其他的可能性。 大数据的另一个重要性质是维度全。通常,我们拍照会选取一个角度。角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。 关于大数据的特征,最早是用3个V来概括的。几年前,人们认为“3V”不足以描述大数据的特征,又提出了“4V”的描述,即volume、variety、velocity和value。 “volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,大数据时代则由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大。事实上,这个特征所表达的是大数据规模的整全性。大数据的“大”不是纯粹量的概念,关键是全,是一个质的概念。 “variety”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。举例来说,大自然可以满足人类的生存需要,但我们面对大自然时的作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,人类可以在这一个无限空间中进行满足自己需要的创构。 “velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的是指实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。 “value”用以描述大数据的价值。大数据价值特征的重要性不言自明,但大数据也十分复杂。据此有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握。 显然,这是一个典型的哲学课题。随着大数据的发展,不仅哲学等各学科会越来越相互融合,而且将迎来哲学与科学、社会和生活一体化发展的时代。 (作者为上海大学社会科学学部教授) 来源:解放日报
|