数据科学:以信息为载体的精确体系
数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。数据科学作为科学,首先应该满足科学的基本定义。在此基础上,数据科学兼具数据本身的一些特性。
本文选自《数据科学家养成手册》
数据科学是一个巨大而抽象的概念,要想清晰地认识这样一个概念,就需要对其进行拆解。
什么是科学
科学是一种泛指的领域,包括数据科学、计算机科学、社会科学、经济科学、语言科学、生物科学等都是小、窄而深的认知领域,这些领域的科学有各自的体系、规范及认知特性。科学,不管是某个领域的科学,还是泛指的科学认知体系,都有最基本的要求——精确性和体系性。
精确性
太阳东升西落,四季夏热冬冷,这种事情不足为奇。通过观察星辰运动,得出这些天体都在围绕地球转动(至少看上去是这样)的结论,也不值得称道。而能够把这一切通过量化的(尤其是精确量化的)描述进行阐释和计算的人,确实比常人的观察层面更广、更深。这种精确描述的过程与状态的现实指导意义远比从大方向上指出一个性质要大。
体系性
体系性就是指“自圆其说”的框架。所谓“自圆其说”的概念是指一种科学理论要有完整的对象定义,以及对象之间的换算与转化的条件和量化值的确切关系,通常表现为各种各样的计算公式或者统计概率的确切描述。而且,这一切有一个前提——需要“可应验”,严格地说是“高度应验”才行。体系框架的成立会形成一个封闭的讨论边界。在讨论边界内部的所有观察对象都会以各种量化结果呈现在换算公式的因子里,它的完整性会直接支持体系本身,并支持所有在该体系下进行的性状判断与预测。
从信息到数据
数据无处不在。在网络上、报纸上、书籍上,在家用电脑的磁盘上,在我们的脑海里,数据大量且广泛地存在。围绕数据,人类已经做了很多数据科学的研究和应用工作,其中最为基础的就是数据的存储和传输。数据的价值在于数据上所承载的信息,信息的价值在于其消除不确定性时的成本及其直接和间接的作用,而这一系列的价值使得我们对数据的价值予以空前的重视,这就是我们热衷于研究数据科学的原因所在。
数据作为信息的载体,通过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不确定性,降低试错成本”的巨大利益。
著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)曾经在1948年于《贝尔系统技术期刊》上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有一段描述大意是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一 —— 信息熵公式。
其中,P(xi ) 代表消息 xi 产生的概率。
数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。
(1)作用:承载信息,消除不确定性。
(2)形式:抽象过的符号记录。
(3)定义:符号的含义经过约定,不会或至少不易产生二义性。
信息的流传需要通过存储介质实现持久化。现在我们一提到存储,通常都会想到计算机硬盘,包括传统的机械硬盘及技术越来越成熟的固态硬盘(SSD硬盘)等。
众所周知,目前的电子计算机使用的计算与存储介质都是二进制的。这不是偶然的结果,而是由电子计算机的实现原理造成的。在ENIAC的设计过程中,冯·诺依曼(John von Neumann)根据半导体电子元件的二稳态特性,将计算机的计算逻辑设计为二进制方式(即只有“0”和“1”两种状态),在电子管上体现出来的特性就是“截止”和“导通”。而人类喜欢使用十进制也主要是因为人有10根手指,在日常生活中用十进制进行计算最为便利。
在计算过程中,计算机将“与门”、“或门”、“与非门”、“或非门”等逻辑元件组合在一起,模拟计算进位的过程,进而形成完整的计算实现单元。用电子计算机实现的任何一种运算都是由这些逻辑门组合而成的,而这之后在电子计算机领域不断进行的技术改进都是基于同样的原理。尽管元件的体积越来越小,集成的程度越来越高,计算的速度越来越快,但从计算逻辑和实现的数学层面来说,其原理没有本质的变化。
在硬盘技术方面也同样不断进行着量变的积累。无论盘片容量是500GB还是1TB甚至更高,都是通过磁头机械臂在盘片上滑动的同时高速转动盘片来实现磁性材料持久化和材料状态感应。计算中使用的“0”和“1”,就可以通过这种持久化以磁介质疏密(磁通量的高低)写入磁性材料层。
展望未来,量子计算机和光子计算机的研发已经展开。这些新型计算机尽管实现原理不同,但只要成本足够低,而且与目前的电子计算机采用相同的工业标准,使双方在存储介质、信息传输等多个方面能够毫无障碍地互联互通,其未来就非常值得期待。
信息经过抽象、建模,落实到介质上成为数据。数据与不同特性的介质结合,在各种介质上落地的形式也不完全一样,而这种结合通常是数据去迎合介质的特性。有意义的数据落在介质上,才能形成可以传递的信息,这就是信息产业赖以生存的基础。
数据科学的本质
在了解科学和数据的定义后,我们基本可以给数据科学下一个完整的定义了——数据科学是一种研究信息感知、抽象、保存、建模、传输,以及数据之间的逻辑、数量统计、计算和转化关系的综合应用科学。数据科学的本质就是表述和指导对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的、精确的、拥有完整体系的学科。这就是数据科学要解决的本质问题。
如果尝试对数据科学这个庞大的体系进行细分,可以分成很多专注于数据某一方面处理的专项学科。例如,数据贮存学研究数据存储中的数据体积、存取效率、可靠性问题等,数据传输学研究传输速度、传输质量问题等。在这两个大的领域中,所有可能影响数据存储和传输的因素都会被讨论和研究,计算机硬件制造、光电信号传输、数据有损/无损压缩、数据冗余与高可用、数据校验等都是研究的对象。
此外,还有研究如何在数据中进行信息抽象、计算、查找、分析等诸多度量与换算问题的数据算法学,以及其他一切能够对数据的感知、抽象、保存、建模、传输,甚至是数据的可视化、数据之间的辩证逻辑提供支持的学科等。其他分类同样会由于产业分化的需要而随时产生。这种平衡中的变化不断发生,一些小的分支和分类也会由于科研工作者潜移默化的努力而逐渐融合为一个大的分支。这些方式同样是仁者见仁,智者见智,不一而足。
《数据科学家养成手册》
用科学的眼光看待数据、收集数据、分析数据,用科学的眼光审视数据、解读数据、运用数据。
作 者:高 扬
图书链接:https://item.jd.com/12168370.html