档案学通讯

数据科学及其对信息科学的影响

 

1 引 言

从时间维度看,数据科学是继“云计算”和“大数据”之后出现的另一个新概念,主要代表一门以大数据时代的新挑战、新机会、新思维和新方法为研究对象,以实现数据、材料和能量之间的深层转换为研究目的,包括新的理论、方法、模型、技术、平台、工具、应用和最佳实践在内的一整套知识体系。从空间维度看,数据科学是统计学、机器学习、数据可视化以及(某一)领域知识相互融合后形成的一门新兴学科,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。

数据科学的兴起是云计算与大数据应用的必然结果。一方面,随着云计算与大数据产业的发展,涌现出了大量的“突破性实践”,需要从理论上进行解释、提炼和归纳。例如,谷歌禽流感趋势(Google Flu Trends,GWT)分析、亚马逊产品推荐系统、2012年美国总统大选中首次成功应用大数据理念、白宫聘请D. J. Patil担任其首席数据科学家、曾有人提议在联合国给Facebook设立席位以及量化自我(Quantified Self)的兴起等新兴事物均难以用传统信息科学(包括计算机学科学与技术、信息学、情报学、图书馆学和档案学等)来解释或指导,反而亟待进行理论创新;另一方面,在大数据时代出现了一些新的理念(如数据化、数据柔术、数据驱动性应用、数据洪流、数据洞见、数据密集型应用以及数据加工等)、理论(如CAP理论、BASE理论、数据空间和敏捷数据分析等)、方法[如第四范式和隐私增强算法(Privacy-enhancing 算法)等]和工具(如Google的MapReduce、Danga Interactive的Memcached、10gen 的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon 的Dynamo、Apache 的Tokyo Cabinet、CouchDB和Redis等),已经走在了传统信息科学的前面,实践倒逼理论研究,需要我们进一步梳理成系统的科学理论。

作为信息科学领域的专家学者,我们应深入研究大数据现象的本质及数据科学与信息科学之间的深层联系。目前,“大数据热”对信息科学带来的一个重要挑战是“大数据浮夸”现象的普遍存在。所谓的大数据浮夸(Big Data Hubris)是指人们在没有拥有真正的“大数据”或没有掌握“管理与分析大数据的能力”的情况下,对“大数据”给予盲目期望[1]。近年来,大数据与云计算已成为包括计算机科学与技术、信息学、情报学、图书馆学和档案学领域在内的信息科学领域研究的热门研究话题,但是很多讨论仍停留在逻辑推理层次,并没有抓住问题的本质。因此,本文主要研究目的在于梳理数据科学及其发展现状(第2节)、与信息科学领域知识之间的内在联系(第3节)、数据科学对信息科学的主要影响(第4节)以及大数据与数据科学视角下的信息科学领域的新研究课题。

2 数据科学

在深入讨论数据科学对信息科学的影响之前,我们有必要简要分析数据科学的内涵、理论体系、研究现状与发展趋势等基本问题。

2.1 内涵

术语数据科学(Data Science)的最早正式提出者为著名计算机科学家、图灵奖的获得者Peter Naur。他于1974年在其著作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中明确提出了数据科学(Data Science)的含义,“数据科学是一门基于数据处理的科学”,并给出了数据科学与数据学(Datalogy)的区别——前者侧重基于数据的管理(the science of dealing with data),而后者侧重于数据本身的管理及在教育领域中的应用(the science of data and of data processes and its place in education)[2]。之后的30余年没有再出现突破性认识。直至2001年,当时在贝尔实验室工作的William S. Cleveland在国际期刊International Statistical Review上发表题为“数据科学——拓展统计学技术领域的行动计划(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics”的论文,认为数据科学是统计学的一个重要研究方向[3],数据科学再度受到学界的关注。2010年,Drew Conway 提出了第一个揭示数据科学的学科定位的维恩图——the Data Science Venn Diagram,认为数据科学是统计学、机器学习和领域知识相互交叉的新学科,人们开始讨论数据科学的内涵和外延。与William形成明显对比的是,Mattmann[4]和Dhar[5]于2013年分别在《自然(Nature)》和《美国计算机学会通讯(Communications of the ACM)》上发表论文,从计算机科学与技术视角讨论数据科学的内涵,将数据科学作为计算机科学与技术专业的新研究方向。至此,数据科学的统计学和机器学习两大学派及其主要关注点基本形成。