【张凯】密集型数据处理流程：一种新的哲学范式-哲学中国网

新兴领域

【张凯】密集型数据处理流程：一种新的哲学范式

大数据是新的技术革命、新的社会现象，也是新的冲击，它使哲学面临前所未有的困境和挑战。如何回答大数据产生的哲学问题，需要哲学家认真思考和对待。

一国内外研究现状

直面大数据“涌现”产生的新问题，一些国外学者已相继提出了第四范式的科学概念和框架性研究策略。计算机图灵奖得主格雷(Jim Grey)提出：“数据密集型科学研究第四范式是以数据为基础，结合实验、理论和计算机模拟为一体的数据密集计算。”①海伊(Tong Hey)在《第四范式：数据密集型科学发现(The Fourth Paradigm：Data-Intensive Scientific Discovery)》②一书中指出，科学研究范式的发展有四个阶段：实验科学、理论科学、计算科学和数据密集型科学。

国内哲学工作者已展开了第一、第二和第三范式方面的研究。比如，有关第一范式的论文《哲学的实验范式与实验方法》③、第二范式的论文《科学模型是虚构的吗?》④和第三范式的论文《科学实验的新形式——计算机实验》⑤。当然，这方面的文献远不止这三篇，在此不再赘述。近年对大数据哲学方面的研究也日渐增多。比如，《大数据对于科学研究影响的哲学分析》⑥、《大数据哲学研究的背景、现状与路径》⑦、《大数据系统的本质特征及其哲学反思》⑧、《大数据方法：科学方法的变革和哲学思考》⑨和《大数据时代思维方式变革的哲学意蕴》⑩。

从科学研究的前三个范式到大数据哲学问题研究，科技哲学的成果表现不俗。纵观其研究现状不难发现，对科学研究第一、第二和第三范式的研究已相对成熟，而科学研究第四范式则提出不久。大数据哲学方面的研究主要针对哲学问题、研究路径、哲学反思、科学方法和思维方法等方面展开。密集型数据处理是大数据处理的学术名称，其研究已有学者涉足。但密集型数据处理流程在一些自然科学领域(比如生物和计算机学科)已得到具体应用，而对这一流程尚缺少相应的哲学概括、意义阐述及逻辑论证，其理论有待提升和完善。本文试图概括现有的密集型数据(大数据)处理流程，并论证它是一种新的不能被代替的科学范式。

二密集型数据处理流程是一种科学范式

范式是学者遵守的模型、模式、规范、假说、理论、准则、方法的总和，其概念和理论由美国哲学家托马斯·库恩在《科学革命的结构》中提出。密集型数据处理流程在变革科学研究中是否具有科学研究范式的作用?它的哲学意义是什么?下面以人类基因组计划和计算机密集型数据处理为例，具体说明其作用和意义，并从逻辑上论证密集型数据处理流程是一种科学范式。

1.人类基因组计划研究流程的哲学特点

生物信息学发展经历了从实验范式、理论范式、计算范式向密集型数据处理流程的转变。

(1)早年生物学研究从实验范式到理论范式的变化。1866年孟德尔根据实验提出假设：遗传因子以生物成分的方式存在。1871年米斯彻(Miescher)分离出脱氧核糖核酸(DNA)。1944年查加夫(Chargaff)发现DNA中鸟嘌呤与胞嘧啶的总量相等，腺嘌呤与胸腺嘧啶的总量相等。与此同时，威金斯(Wilkins)与弗兰克林(Franklin)用X射线衍射技术测定了DNA三维结构。1953年华生(J.Watson)和克立克(F.Crick)在《自然》(Nature)杂志上发表了DNA三维结构双螺旋模型。

(2)生物学研究从理论范式到计算机模拟范式的过渡。20世纪六七十年代，程序模拟分子间的化学反应引起了化学家的兴趣。科恩(Watter Kohn)和波普尔(John A.Pople)提出了一种量子化学密度函数计算方法，并用该方法在计算机中模拟了分子反应过程，1998年他们因此获得诺贝尔化学奖。1997年日本庆应大学托密塔(Masaru Tomita)教授领导的E-细胞(E-cell)小组实现了虚拟原核细胞。1999年美国康涅狄格州立大学的斯查夫(James Schaff)和洛(Leslie Loew)建立了真核细胞钙转运的软件虚拟细胞(Virtual Cell)。这些成果象征着计算机模拟细胞的巨大成功。

(3)人类基因组计划研究开创了海量数据处理(密集型数据处理)科学研究的先河。从1990到2003年，由法国、德国、日本、中国、英国和美国等6个国家20个研究所、两千八百多名科学家参加的人类基因组计划耗资13亿英镑，产生的DNA数据达200TB(B为存储单位字节，2个字节一个汉字，TB=2[40]字节)。DNA自动测序技术的快速发展使核酸序列数据量每天呈现海量增长。生物信息学将其工作重点定位于对生物学数据的采集(收集和筛选)、处理(编辑、整理和存储)、计算(计算、分析)及利用(可视化和解释)，见图1。

图1 生物数据处理流程

人类基因组计划中产生的密集型数据处理流程近年已被科学界逐步接受，具备了在一定范围(生物学)内被公认的特点，可以成为生物学者研究的纲领，是生物学界成功的案例，且可以作为科学研究模仿的样板，这一切使之具备了生物研究范式的特点。

2.计算机密集型数据处理流程的特点

密集型数据处理流程包括4个步骤(见图2)(11)：(1)大数据采集不仅仅是数据获取，还包括数据清洗、数据转换和数据集成，以便为数据存储和使用作准备；(2)数据存储与管理包括分布式数据处理、数据高效索引、数据库服务、数据世系和数据监护。这一步骤主要解决数据存储中的问题，使数据应用更方便和高效，数据存储更完整；(3)数据计算与分析不是具体的数据计算和分析过程，它主要提供数据计算和分析的方法和策略，包括分布式计算、高性能计算、数据挖掘和数据分析。其中，分布式计算和高性能计算为计算机数据处理的策略，数据挖掘和数据分析为数学、统计学等方面具体的方法、模型或算法；(4)计算资源应用是如何应用数据应用平台、云计算平台和数据可视化软件工具等。

图2 计算机密集型数据处理流程

3.密集型数据处理流程是一种科学范式

综观人类基因组计划大数据处理流程和计算机密集型数据处理流程可以发现，两者有许多共通和一致的方面。这些共通和一致值得归纳和抽象，以便概括出更一般的特征。一个科学研究流程，如果停留在某个狭窄的学科领域内，其应用范围和社会作用将会受到限制。如果能站在哲学的高度，从方法论的视角概述其在更大范围内的通用性和作用，则其科学价值和社会价值及意义将会增大。通过比较和分析可以发现，人类基因组计划大数据处理流程和计算机密集型数据处理流程存在某些共性，可进行共性抽取和一般性概括，从而得到通用密集型数据处理流程。

归纳、抽象和概括人类基因组计划大数据处理流程(见图1)和计算机密集型数据处理流程(见图2)可以很容易地得到更一般化的密集型数据处理流程(见图3)：

图3 密集型数据处理流程

作为抽象和通用的框架，密集型数据处理流程已具备了科学研究范式的特点：第一，密集型数据处理流程和步骤，在生物和计算机领域已经被学者们接受，并有可能在更大范围被接受，已具备了在一定范围被“公认”的特性；第二，密集型数据处理流程已经提供了具体应用步骤，涉及多种理论和技术，可以作为学者研究的纲领；第三，无论是在生物领域，还是计算机领域，密集型数据处理流程已经有成功应用的案例，且可以成为科学研究模仿的样板。因此，根据库恩范式(12)的定义，密集型数据处理流程是一种科学范式，可以称其为密集型数据科学范式。

三密集型数据科学范式是一种新的科学范式

密集型数据科学研究范式，即第四范式是不是一种新的范式?对于这个问题的解答，需要我们考察科学的发展历程和范式特征。

(1)第一范式：科学实验。它是观察自然现象和社会现象内在规律的一种方法，是获得和检验科学结论的一种技术手段。自然界中的现象多半瞬间即逝，无法反复观察。而科学实验则可以使其重复出现，这有利于反复观察和比较实验对象，验证结论的正确性。科学实验包括以下步骤：定义问题、提出假设、设计实验、观察对象、检验假设和得出结论。这是一种经验实证方法，伽利略自由落体实验是其典型的例子：1590年伽利略在比萨斜塔上让不同材质(木球或铁球)的物体从塔顶自由落下，测定落地时间，结果发现，物体同时落地。如果不计空气阻力，物体自由下落速度相同，重力加速度相同。

(2)第二范式：理论科学。它偏重归纳与概括，用数学公式、模型、算法等形式表示，强调普遍性规律的形式化，通过演绎法推导科学结论。形式化是利用字母符号进行精确描述和严格逻辑推理的方法。

牛顿第二定律是归纳法典型的例子。18世纪法国哲学家孔多塞、圣西门、孔德建议将自然科学的实证研究引入社会科学，使其更准确和精细。量化研究已经历了数百年的历史，而为了确定数学结论的正确性，必须进行严格的证明。证明指根据某一规则，由公理和定理推导出某一命题的过程。只有经过严格数学证明的结论，才符合形式逻辑的要求，其结论才被认为是正确的。

(3)第三范式：计算科学，计算机的诞生推动了计算科学(也称数值计算)的发展。计算科学指应用计算机技术解决复杂数学计算问题。为此，要建立数学模型，设计求解计算方法，然后通过计算机编程实现。较为经典的是1975年霍兰(J.Holland)提出的遗传算法，通过模拟达尔文生物进化自然选择过程建模搜索最优解。计算机仿真用以模拟复杂自然现象和社会现象，比如预报天气和股市等。由于自然界、人类社会演变过程不易重复实验，如果进行这样的实验，不仅代价昂贵，有时甚至不可能。这时，用计算机仿真进行模拟实验是上佳的选择。计算机仿真过程包括：确定时间系统、建立数学模型、建立仿真模拟、仿真实验和结果分析5个步骤。

(4)第四范式：大数据。大数据是21世纪初出现的社会现象，2007年格雷提出密集型数据科学第四范式，2009年海伊将其完善。第四范式是在第一、第二和第三范式基础上发展起来的，是包括密集型数据处理流程的科学范式。密集型数据处理是第四范式中的关键技术。第四范式研究框架由科学实验、理论模型或算法、计算机模拟和密集型数据处理组成。前三部分分别属于第一、第二和第三范式的范畴，密集型数据处理则是第四范式科学研究必不可少的内容。

从科学研究范式的发展历程看，实验科学第一范式最早，理论科学第二范式其次，计算科学第三范式再次，密集型数据科学第四范式提出的时间最晚、也最新(见表1)：

因此，密集型数据科学范式是一种新的科学范式。

四密集型数据科学范式不能被其他科学范式代替

尽管密集型数据处理流程是一种新的科学研究范式，但从严格意义上讲，这一结论并不能排除它被其他范式代替的可能性。比如，针对某一个问题，学者可能会提出很多解决方法，这些方法被提出的时间可能有先有后，尽管某一方法被提出的时间在其他方法之后，属于一种时间上的“新方法”，但这个“新方法”有可能是某个老方法的特例。如在计算机领域，“下推机”比“图灵机”提出的时间晚，但它只是“图灵机”的特例。基于此，有必要从更严格意义上证明其不可被代替性。

密集型数据科学研究第四范式源于人类基因组计划的启发，其背景是要解决生物信息学中无法解决的大数据处理问题。2008年9月，全球最大的欧洲大型粒子加速器LHC建成运行，每年产生约30PB(1PB=2[50]字节)的数据。随着实验数据量几何级数地增长，每年将可能达到400PB。2014年金融行业的商业银行，每天几亿笔金融交易，有超过2TB数据。除此之外，股市数据、卫星气象数据、航天数据以及互联网数据，各行各业都受到大数据的冲击，如果仅采用计算科学显然不堪重负，或无法完成其计算任务。密集型数据处理流程的提出是为了应对大数据处理的问题，这种问题是前三个范式无法解决的，自然也是前三个范式无法代替第四范式去解决的。与此相反，由于数据密集型科学研究第四范式包含实验、理论和计算机模拟，因此，它可以代替前三个范式展开科学研究。

在方法上，第四范式与前三范式间的关系为包含关系。根据格雷的定义，密集型数据科学研究第四范式是结合实验、理论和计算机模拟为一体的数据密集计算，也就是第四范式包含计算科学第三范式、理论科学第二范式和实验科学第一范式。这也说明第四范式可以代替前三范式，反之不能被前三范式所代替。

密集型数据处理流程是一种新的不能被其他范式代替的科学范式。密集型数据处理流程不仅是大数据处理方法的抽象，也是科学研究方式的发展，并进一步演化出了科学研究第四范式。它在方法论方面丰富了人们对科学研究范式的认识，同时也将引起思维方式的变革。

【注释】

①J.Gray,T.Hey,S.Tansley,et al.,Jim Gray on eScience:A Transformed Scientific Method,Microsoft Press,2007.

②Tony Hey,Stewart Tansley,Kristin Tolle,The Fourth Paradigm:Data-Intensive Scientific Discovery,Microsoft Press,2009.

③何孟杰、周昌乐：《哲学的实验范式与实验方法》，《哲学动态》2014年第11期。

④蔡海锋：《科学模型是虚构的吗?》，《自然辩证法研究》2014年第4期。

⑤林夏水：《科学实验的新形式——计算机实验》，《哲学研究》1998年第8期。

⑥张晓强、蔡端懿：《大数据对于科学研究影响的哲学分析》，《自然辩证法研究》2014年第11期。

⑦黄欣荣：《大数据哲学研究的背景、现状与路径》，《哲学动态》2015年第15期。

⑧潘平、郑辉、兰立山：《大数据系统的本质特征及其哲学反思》，《系统科学学报》2015年第3期。

⑨张晓强、杨君游、曾国屏：《大数据方法：科学方法的变革和哲学思考》，《哲学动态》2014年第8期。

⑩宋海龙：《大数据时代思维方式变革的哲学意蕴》，《理论导刊》2014年第5期。

(11)宫学庆、金澈清等：《数据密集型科学与工程：需求与挑战》，《计算机学报》2012年第8期。

(12)李正风：《中国科学家学术思想的传承与创新：概念、特征与方法》，《南京社会科学》2012年第4期。

（原载《哲学动态》2016年第7期）