社科网首页|论坛|人文社区|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
新兴领域

【黄欣荣】大数据的语义、特征与本质

 

随着大数据时代的来临,大数据(Big Data)这个词近年来成了关注度极高和使用极频繁的一个热词。然而,与这种热度不太对称的是,大众只是跟随使用,对大数据究竟是什么并没有真正的了解。学术界对大数据的涵义也莫衷一是,很难有一个规范的定义。虽然说大数据时代刚刚来临,对大数据的涵义有着不同的理解完全是正常的,但对哲学工作者来说,我们还是有必要对其做一个比较系统的比较和梳理,以便大众更好地把握大数据的内涵和本质。

一、大数据的语义分析

早在1980年,著名未来学家阿尔文·托夫勒在其《第三次浪潮》一书中就描绘过未来信息社会的前景并强调了数据在信息社会中的作用。随着信息技术特别是智能信息采集技术、互联网技术的迅速发展,各类数据都呈现出急剧爆发之势,计算机界因此提出了“海量数据”的概念,并突出了数据挖掘的概念和技术,以便从海量的数据中挖掘出需要的数据成了一种专门的技术和学科,为大数据的提出和发展做好了技术的准备。20089月,《自然》杂志推出了“大数据”特刊,并在封面中特别突出了“大数据专题”。2009年开始,在互联网领域,“大数据”一词已经成了一个热门的词汇。不过,这个时候的“大数据”概念与现在的“大数据”概念,虽然名字相同,但内涵和本质有着巨大的差别,而且主要局限于计算机行业。

20116月,美国著名的麦肯锡咨询公司发表了一份《大数据:下一个创新、竞争和生产力的前沿》的研究报告。在这份报告中,麦肯锡公司不但重新提出了大数据的概念,而且全面阐述了大数据在未来经济、社会发展中的重要意义,并宣告大数据时代的来临。由此,大数据一词很快越出学术界而成为社会大众的热门词汇,麦肯锡公司也成为大数据革命的先驱者。2012年的美国大选中,奥巴马团队成功运用大数据技术战胜对手,并且还将发展大数据上升为国家战略,以政府之名发布了《大数据研究与发展计划》,让专业的大数据概念变为家喻户晓的词汇。美国的GoogleFacebookAmazon以及中国的百度、腾讯和阿里巴巴,这些数据时代的造富神话更让大众知晓了大数据所蕴藏的巨大商机和财富,成为世界各国政府和公司追逐的对象。2012211日,《纽约时报》发表了头版文章,宣布大数据时代已经降临[1]20126月,联合国专门发布了大数据发展战略,这是联合国第一次就某一技术问题发布报告。英国学者维克托·舍恩伯格的《大数据时代》一书则对大数据技术及其对工作、生活和思维方式进行了全面的普及,因此大数据及其思维模式在全世界得到了迅速的传播[2]。从国内来说,涂子沛的《大数据:正在到来的数据革命》让国人及时了解到国际兴起的大数据热,让我们与国际同行保持了同步[3]

大数据究竟是什么意思呢?从字面来说,所谓大数据就是指规模特别巨大的数据集合,因此从本质上来说,它仍然是属于数据库或数据集合,不过是规模变得特别巨大而已,因此麦肯锡公司在上述的咨询报告中将大数据定义为:“大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。”[4]

维基百科对大数据这样定义:Big Data is an all-encompassing term for any collection of data sets so large or complex that it becomes difficult to process using traditional data processing applications。中文维基百科则说:“大数据,或称巨量资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理,并整理成为人类所能解读的信息。”

世界著名的美国权威研究机构Gartner对大数据给出了这样的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资源。”[5](P6)百度百科则基本引用Gartner对大数据的定义,认为大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

英国大数据权威维克托则在其《大数据时代》一书中这样定义:“大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在数据处理时所能使用的内存量,因此工程师们必须改进处理数据的工具。”[6](P8)“大数据是人们获得新认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[6](P9)

John Wiley图书公司出版的《大数据傻瓜书》对大数据概念是这样解释的:“大数据并不是一项单独的技术,而是新、旧技术的一种组合,它能够帮助公司获取更可行的洞察力。因此,大数据是管理巨大规模独立数据的能力,以便以合适速度、在合适的时间范围内完成实时分析和响应。”[7]

大数据技术引入国内之后,我国学者对大数据的理解也一样五花八门,不过跟国外学者的理解比较类似。最早介入并对大数据进行了比较深入研究的三位院士的观点应该具有一定的代表性和权威性。

邬贺铨院士认为:“大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。”[8]李德毅院士则说:“大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TBPBEBZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。”[9]而李国杰院士则引用维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”,认为“大数据具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域”[10]

我国最早介入大数据普及的学者涂子沛在其《大数据:正在到来的数据革命》中,将大数据定义为:“大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。”[3](P57)由于涂子沛的著作发行量比较大,因此他对大数据的这个界定也具有一定的影响力。

从国内外学者对大数据的界定来看,虽然目前没有统一的定义,但基本上都从数据规模、处理工具、利用价值三个方面来进行界定:①大数据属于数据的集合,其规模特别巨大;②用一般数据工具难以处理因而必须引入数据挖掘新工具;③大数据具有重大的经济、社会价值。

二、大数据的4V特征

我们从大数据的概念中很难把握大数据的属性和本质,因此国内外学者都在大数据概念的基础上继续深入探讨大数据的基本特征,其中最有代表性的是大数据的3V特征或4V特征。所谓大数据的3V4V特征是指大数据所具有的三个或四个以英文字母V打头的基本特征。所谓的3V是指Volume(体量)Variety(多样)Velocity(速度),这三个V是比较公认的,基本上没有争议[11]。而4V是在3V的基础上再加上一个V,而这个V究竟是什么,目前有比较大的争议。有人将Value(价值)作为第四个V,而有人将Veracity(真实)当作第四个V[5](P16)。笔者曾经将Value当作第四个V[12],但现在则认为Veracity似乎更能代表大数据的第四个基本特征。

()Volume(数据规模巨大)

大数据给人印象最深的是数据规模巨大,以前也被称为海量,因此大数据的所有定义中必然会涉及大数据的数据规模,而且特别指出其数据规模巨大,这就是大数据的第一个基本特征:数据规模巨大。

从古埃及开始,人们就学会了丈量土地、记录财产,数据由此产生。古埃及、巴比伦、古希腊都用纸草、陶片作为数据记录的工具,数据规模极其有限。古代中国也很早就有丈量土地和记录财富的历史,先是用陶片、竹片、绢布等做记录工具,后来有了纸张、印刷术等,各种数据更容易被记录,于是就有了“学富五车”的知识人,以及“汗牛充栋”的图书收藏机构。不过古人引以自豪的事情如今看来只是“小儿科”。如今大数据的规模究竟有多大呢?虽然没有一个确切的统计数字,但我们可以举例描述其规模。现在一天内在Twitter上发表的微博就达到2亿条,7TB的容量,50亿个单词量,相当于《纽约时报》出版60年的单词量。阿里巴巴通过其交易平台积累了巨大的数据,截至20143月,阿里已经处理的数据就达到100PB,等于104 857 600GB的数据量,相当于4万个西雅图中央图书馆,580亿本藏书的数据[8]。腾讯QQ目前拥有8亿用户,4亿移动用户,在数据仓库存储的单机群数量已达到4 400台,总存储数据量经压缩处理以后在100PB左右,并且这一数据还在以日新增200TB300TB,月增加10%的数据量增长,腾讯的数据平台部门正在为1 000PB做准备。

随着大数据时代的来临,各种数据呈爆炸性增长。从人均每月互联网流量的变化就可以窥见一斑。1998年网民人均月流量才1MB,到2000年达到10MB,到2008年平均一个网民是1 000MB,到2014年是10 000MB。在芯片发展方面,有一个著名的摩尔定律,说的是每18个月,芯片体积要减小一半,价格降一半,而其性能却要翻一倍。在数据的增长速度上,有人也引用摩尔定律,认为大概18个月或2年,世界的数据量就要翻一番。2000年,全世界的数据存储总量大约800 000PB,而预计到2020年,世界的数据存储量将达到35 ZB[11](P5)。以前曾有人提出知识爆炸论而备受争议,而如今的数据暴增已是摆在我们面前的现实。

()Variety(数据类型多样)

大数据并不仅仅表现在数据量的暴增及数据总规模的庞大无比,最为关键的是,在大数据时代,数据的性质发生了重大变化。在小数据时代,数据的涵义和范围是狭义的。所谓数据,其原意是指“数+据”,即由表示大小、多少的数字,加上表示事物性质的属性,即所谓的计量单位。狭义的数据指的是用某种测量工具对某事物进行测量的结果,而且一定是以数字和测量单位联合表征。但在大数据时代,数据的涵义和属性发生了重大变化,数据的范围几乎无所不包,除了传统的“数+据”之外,似乎能被01符号表述,能被计算机处理的都被称为数据[13]。也可以说,大数据时代就是信息时代的延续与深入,是信息时代的新阶段。在大数据时代,数据与信息基本上是同义词,任何信息都可以用数据表述,任何数据都是信息。这样数据的范围得到了巨大的扩展,即从狭义的数字扩展到广义的信息。

传统的数据属于具有结构的关系型数据,也就是说数据与数据之间具有某种相关关系,数据之间形成某种结构,因此被称为结构型数据。例如,我们的身份证都是按照19位的结构模式进行采集和填写数据,手机号码都是11位的数据结构,而人口普查、工业普查或社会调查等数据采集都是事先设计好固定项目的调查表格,按照固定结构填写,否则因无法做出数据处理而被归入无效数据。在大数据时代,除了这种具有预定结构的关系数据之外,更多的是属于半结构和无结构数据。所谓半结构就是有些数据有固定结构,有些数据没有固定结构,而无结构数据则没有任何的固定结构。结构数据是有限的,而半结构和无结构数据却几乎是无限的。例如,文档资料、网络日志、音频、视频、图片、地理位置、社交网络数据、网络搜索点击记录、各种购物记录等等,一切信息都被纳入数据的范围而带来了大数据的数据类型多样的特征,也因此带来了所谓的海量数据规模。

()Velocity(数据快捷高效)

大数据的第三个特征是数据的快捷性,指的是数据采集、存储、处理和传输速度快、时效高。小数据时代的数据主要是依靠人工采集而来,例如天文观测数据、科学实验数据、抽样调查数据以及日常测量数据等。这些数据因为依靠人工测量,所以测量速度、频次和数据量都受到一定的限制。此外,这些数据的处理往往也是费钱费力的事情,比如人口普查数据,因为涉及面广,数据量大,每个国家往往只能10年做一次人口普查,而且每次人口普查数据要经过诸多部门和人员多年的统计、处理才能得到所需的数据。人口普查数据公布之时,人口情况早已发生了巨大的变化。

在大数据时代,数据的采集、存储、处理和传输等各个环节都实现了智能化、网络化。由于智能芯片的广泛应用,数据的采集实现了完全智能化和自动化,数据的来源从人工采集走向了自动生成。例如上网自动产生的各种浏览记录,社交软件产生的各种聊天、视频等记录,摄像头自动记录的各种影像,商品交易平台产生的交易记录,天文望远镜的自动观测记录等等。由于数据采集设备的智能化和自动化,自然界和人类社会的各种现象、思想和行为都被全程记录下来,因此形成了所谓的“全数据模式”,这也是大数据形成的重要原因。此外,数据的存储实现了云存储,数据的处理实现了云计算,数据的传输实现了网络化。因此,所有数据都从原来的静态数据变为动态数据,从离线数据变为在线数据,通过快速的数据采集、传输和计算,系统可以做出快速反馈和及时响应,从而达到即时性。

()Veracity(数据客观真实)

大数据的第四个特征是数据的真实性[5](P16)。数据是事物及其状态的记录,但这种记录也因是否真实记录事物及其状态而产生了数据真实性问题。由于小数据时代的数据都是人工观察、实验或调查而来的数据,人的主观性难免被渗透到数据之中,这就是科学哲学中著名的“观察渗透理论”。我们在观察、实验或问卷调查的时候,首先就要设置我们采集数据的目的,然后根据目的设计我们的观察、实验手段,或者设计我们的问卷以及选择调查的对象,这些环节中都强烈渗透着我们的主观意志。也就是说,小数据时代,我们先有目的,后有数据,因此,这些数据难免被数据采集者污染,很难保持其客观真实性。

但在大数据时代,除了人是智能设备的设计和制造者之外,我们人类并没有全程参与到数据的采集过程中,所有的数据都是由智能终端自动采集、记录下来的。这些数据在采集、记录之时,我们并不知道这些数据能用于什么目的。采集、记录数据只是智能终端的一种基本功能,是顺便采集、记录下来的,并没有什么目的。有时候甚至认为这些数据属于数据垃圾或数据尘埃,先记录下来,究竟有什么用,以后再说。也就是说,在大数据时代,我们是先有数据,后有目的。这样,由于数据采集、记录过程中没有了数据采集者的主观意图,这些数据就没有被主体污染,也就是说,大数据中的原始数据并没有渗透理论,因此确保了其客观真实性,真实反映了事物及其状态、行为。

三、大数据的哲学本质

大数据究竟是什么这个问题,仅仅从语义和特征来回答,似乎并没有完全揭示出大数据的本质。大数据时代的来临,最重要的是给我们带来了数据观的变革,只有从哲学世界观的视角分析大数据的世界观或数据观,才能真正回答大数据究竟是什么[14]。简单说来,大数据作为一场数据革命,除了带来海量数据,并且这些数据具有4V特征之外,更重要的是大数据带来的数据世界观。在大数据看来,万物皆数据,万物皆可被数据化,大数据刻画了世界的真实环境,并且带来了信息的完全透明化,我们的世界变成了一个透明的世界。

()在大数据看来,万物皆由数据构成,世界的本质是数据

世界究竟是什么?这是哲学家长期关注的重大问题。从古希腊哲学家泰勒斯开始,哲学家们就开始探索世界的本原,并从beginning(起源)element(要素)两个维度进行了回答[15]。早期自然哲学家曾经把水、火、土、气、原子分别作为本原,而后期的人文哲学家则基本上将人类精神作为本原。马克思主义哲学正是从beginning的维度将历史上的所有哲学分为唯物主义和唯心主义,在这一维度,物质和精神是对立的,只能二者选一。从element的维度看,物质和精神都是构成世界的要素,而且以往的哲学家和科学家基本都认为也只有这两者才是构成世界的终极要素。但刚刚兴起的大数据则认为,除了以往认为的物质和精神之外,数据是构成世界的终极要素之一,即构成世界的三大终极要素是物质、精神和数据。英国大数据权威维克托·舍恩伯格甚至认为,世界万物皆由数据构成,数据是世界的本质[6](P125)

万物皆数据,数据是世界的本质,世界上的一切,无论是物质还是意识,最终都可以表述为数据,这样数据就成了物质、意识的表征,甚至将物质和意识关联统一起来。古希腊哲学家毕达哥拉斯从音乐与数字、几何图形与数字的关系中发现了数据的重要性,提出了“数是万物本原”的思想,强调了数据对世界构成的意义以及对世界认知的影响。无独有偶,老子在数千年前就认识到数据的世界终极本质,在《周易》中就提出了“道生一,一生二,二生三,三生万物”的思想,把世界的生成与数据联系起来。特别是在《易传》中的阴阳八卦图中,从阴阳两极相反相成,从阴阳两仪,到八卦、六十四卦象等,由此不断演化,最后生成整个世界。两千多年以前的毕达哥拉斯和《周易》都不约而同地揭示了数据与万物的关系,以及世界的数据本质,充分强调了数据在世界构成中的重要地位。但是,在随后的两千多年的历史长河中,数据在人类生活和科学认知中虽然越来越重要,而且也有莱布尼兹、康德、马克思等哲学家关注过数据的重要性,不过总体来说,哲学家们对数据基本上是忽视的。随着大数据时代的来临,数据才获得到了应有的地位,哲学家们才又想起毕达哥拉斯和《周易》的数据世界观。可以说,大数据时代的来临是毕达哥拉斯和《周易》所提出的数据世界观的当代回响。

()在大数据看来,世界万物皆可被数据化,大数据可实现量化一切的目标

数据是对世界的精确测度和量化,是认知世界的科学工具。自从发明了数字和测量工具,人类就不断地试图对世界的一切进行数据测量、精确记录。古埃及时期,由于尼罗河泛滥,人们每年需要重新丈量土地,于是发现了数据的秘密,并发明了测量技术。于是,数据成了测量、记录财富的工具,人们日常生活所接触的大量物品、财产都可以用数据来表征,这个时期的数据可被称为“财富数据”。文艺复兴之后,人们逐渐发明了望远镜、显微镜、钟表等科学测量器具。随着测量技术的进步,测量与数据被广泛应用于科学研究之中。例如天文学家第谷对天文现象进行了大量的观察记录,并积累了大量的天文数据。随后,力学、化学、电磁学、光学、地学、生物学等,各门学科都通过测量走上了数据化、精确化的道路。各门科学积累大量的科学数据,并借助于数据,各种自然现象都实现了可测量、可计算的精确化、数据化的目标,自然科学各学科也完成了其科学化的历程。这个时期可被称为“科学数据”时期。

由于人类意识的复杂性,人类及其社会的测量和数据化成为量化一切的拦路虎。社会科学虽然引进自然科学方法,但其数据的客观性往往招致质疑,而人文学科更是停留在思辨的道路上。在传统方法遇到困难的地方,大数据却可以大显身手。大数据用海量数据来测量、描述复杂的人类思想及其行为,让人类及其社会也彻底被数据化,这些数据可被称为“人文数据”。所以,大数据时代将数据化的脚步向前迈进了一大步,在财富数据化、科学数据化的基础上,实现了人文社会行为的数据化。因此,从大数据来看,数据是物质的根本属性,世界万物皆可被数据化,其一切状态和行为都可以用数据来表征,量化一切是大数据的终极目标。

()大数据全面刻画了世界的真实状态,科学研究不必再做理想化处理

真实、全面地认知世界是人类的一种理想,同时也是摆在人类面前的一道难题。真实的世界,无论是自然界还是人类社会,都极为复杂,需要极其繁多的参数才能准确、全面地对其进行描述。但是,由于过去没有先进的数据采集、存储和处理技术,于是不得不对复杂的研究对象进行“孤立、静止、还原”的简单化处理。所谓孤立就是把对象与环境的所有联系都切断,让其成为一个孤立的研究对象,免得受外界的侵扰。所谓静止,就是将本来运动变化的对象做一时间截面,然后就以这一时点的状态代表所有时点的状态。所谓还原是指将复杂的现象逐渐返回到几个简单的要素或原点,然后从要素的性质和状态推演出系统的性质和状态。复杂对象经过简单化处理之后,虽然我们能够认识和把握对象的某些性质和状态,但毕竟经过了简单、粗暴的理想化处理,它已经不能真正反映真实对象和真实世界。

大数据技术使用了无处不在的智能终端来自动采集海量的数据,并用智能系统处理、存储海量数据,不再需要对研究对象做孤立、静止和还原的简单化处理,而是将对象完全置于真实环境之中,有关对象的大数据全面反映了复杂系统各个要素、环节、时态的真实、全面状态。这样,在大数据时代,我们可以在真实、自然的状态下研究复杂的对象。大数据记录了真实环境下研究对象的真实状态,因此我们可以利用大数据去真实、完整、全面地刻画复杂的研究对象。这就是说,大数据是真实世界的全面记录,一切状态尽在数据之中,大数据真正客观地反映了对象的真实状态。

()万物的数据化带来了世界的透明化,未来的世界是一个透明世界

宇宙万物,复杂多变,人们面对复杂多变的世界往往感到漆黑一片,难怪哲学家康德会认为,现象世界背后存在着一个物自体,而这个物自体就像一个黑箱,永远无法被人类认知,那是上帝留下的自留地,科学无法涉足其中。这就是说,真实的世界就像一个大黑箱,我们永远无法打开。我们人类就像那个剥洋葱的小男孩,剥到最后也不知道里边究竟是什么。

但是,大数据技术彻底改变了人类对世界的认知。由于无处不在的智能芯片,整个世界变成了一个智能的世界、数据的世界,或者叫智慧世界。通过赋予世界以智慧,就像一切事物都被安装了充满智慧的大脑。无所不知的智能系统可以感知出世界的一切,而且将一切状态都以数据的形式记录、储存下来。通过数据挖掘,我们人类就可以知道了世界的一切秘密。康德所设置的科学禁区被大数据所打破,透过大数据,世界变成了一个完全透明的世界,一切都可以被人类所感知、把握和预知。大数据让我们的世界从一个附魅的世界变成了祛魅的世界,数据的阳光把原本黑暗、神秘的世界深处照得通彻透亮。在大数据面前,无论是自然物质世界还是人类精神世界,都从黑天鹅变成了白天鹅甚至是透明的天鹅,大数据成了无所不能的上帝。套用赞美牛顿的一首英格兰儿歌来说,宇宙万物及其秘密都隐藏在黑暗之中,上帝说,让大数据去吧,于是一切都变成了光明!

大数据究竟是什么?这个问题虽然难于用一句话回答,但从大数据的语义中我们知道了大数据意味着数据规模特别巨大,以至于传统的技术手段难于处理。从大数据的4V特征中,我们进一步了解到大数据时代的所谓数据已经从狭义的数字符号走向了广义的信息表征,一切信息都是数据。从大数据的哲学本质中,我们更深入地发掘出大数据现象背后所蕴藏的哲学本质:大数据代表着一种新的世界观,万物皆数据,数据是万物的本质属性,而且随着大数据的发展,我们的世界将变成一个完全被数据化的透明世界。

【参考文献】

[1]Steve Lohr.The Age of Big Data[N].The New York Times,2012-02-11.

[2]Viktor M-S,Kenneth C.Big Data[M].London:John Murray,2013.

[3]涂子沛.大数据——正在到来的数据革命[M].桂林:广西师范大学出版社,2013.

[4]赵国栋,易欢欢,糜万军,等.大数据时代的历史机遇——产业变革与数据科学[M].北京:清华大学出版社,201321.

[5]Michael Wessler.Big Data Analytics for Dummies[M].New Jersey:John Wiley & Sons,Inc.2013.

[6][]维克托·舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[7]Judith Hurwitz,Alan Nugent,Fern Halper,et al.Big Data for Dummies[M].New Jersey:John Wiley & Sons,Inc.2013:15-16.

[8]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4)47-49.

[9]李德毅.聚类成大数据认知的突破口[N].中国信息化周报,2015-04-20.

[10]李国杰.大数据成为信息科技新关注点[J].硅谷,2012(13)17.

[11]Paul C Zikopoulos,Chris Eaton,Dirk de Roos,et al.Understanding Big Data[M].New York:McGraw Hill,2012:5.

[12]黄欣荣.从复杂性科学到大数据技术[J].长沙理工大学学报(社会科学版)2014(2)5-9.

[13]黄欣荣.大数据哲学研究的背景、现状与路径[J].哲学动态,2015(7)96-102.

[14]黎德扬.信息时代的大数据现象值得哲学关注[J].长沙理工大学学报(社会科学版)2014(2)10-13.

(原载《长沙理工大学学报》2015年第6期)