科学数据和开放源码

数据科学应用在哪些地方

像云计算一样,数据科学正快速地获得关注、得到采用。根据谷歌搜索透视(以前的谷歌趋势)的统计结果,与这篇文章发表的前一年相比,数据科学方面的关注大 约已经翻倍。谷歌搜索透视本身就是数据科学实践的一个例子。图2展示了在2011年夏季到2012年春季期间互联网搜索方面的数据科学的使用频率得到迅猛 的增长:

图2.谷歌搜索透视上数据科学关注度方面的数据

科学数据和开放源码

数据科学快速地成为各种组织获取在线数据的主要技术手段(不管是爬取方式采集的还是根据像点击这样的用户行为网站内部采集)。像谷歌、亚马逊、脸谱和LinkedIn这些主要的互联网站点都有自己的数据科学团队处理他们自身的数据。

数据科学在互联网应用方面的一个令人眼睛一亮的例子是公司bitly。表面上看,bitly是一个让用户缩短任何URL为不超过19个字符的URL(这个 URL将永久存储在bitly的数据中心)的服务。对缩短后的URL的引用都会从bitly重新定向到原来的URL。然后bitly可以看到人们缩短了哪 个URL和其他用户点击的哪个URL。这种方法提供了大量的数据,这样bitly(和它的首席科学家希拉里.梅森)可以使用这些数据生成大量有关浏览习惯 方面的统计结果。注册到bitly的用户可以看到什么时候点击了他缩短的URL,是通过哪种推荐方式(电子邮件客户端、推特或者其他URL)进入的,以及 来自哪个国家的点击。商业公司还可以使用bitly追踪对某些网页内容访问的用户行为。

R项目

经常能在数据挖掘人员的工具箱里发现这样的工具:一种称作R的编程语言和开发环境。R关注的是统计计算和图形化。R的学习相对简单,而且在数据分析领域得到了广泛的应用。由于R是开发源代码的,而且是免费的,因此它是一种具有广泛用户基础的流行的语言。

R是一个多模式的语言,即它支持面向对象的编程、函数式编程,过程型编程以及命令行式编程风格。R语言是通过命令行接口来解释执行的,而且它还包括丰富的 生产级别的图形化功能。统计图形化是其首先创造的。 另外,通过使用其他软件包可实现动态的和交互式图形。图3展示了使用R语言生成的曲线图的例子:

图3.使用R语言实现的三维sinc曲线。

R编程语言是用C和Fortran语言开发的。R中的许多标准的内部函数都是用R语言自身编写的。R支持多种语言混合式编程,这样就能够让你从如C和Java TM语言来访问R对象。利用package功能,你就可以很容易地扩展R的功能。package可以使用R、C、Java和C编程语言编写。

Axiis 交互式数据可视化

许多开源解决方案仅仅关注于可视化。一个非常有趣的例子是Axiis框架,它提供了一种简洁的标记语言来实现丰富多彩的可视化效果。图4是一个示例:

图4. 使用Axiis框架实现的栈图可视化

相关推荐