微软发布.NET版本的Spark，高效而强大

zhangxiaocc

2020-02-18

昨天看个帖子微软市值超过1万亿美刀，凭什么？我们可以找出很多理由，但是我认为和阿三CEO的开源战略关系很大。从开源.net到WSL到微软云微软从昔日的开源死敌，到今天的怀抱开源。日前在Spark + AI峰会上，微软发布了开源的.NET for Apache Spark，从而在大数据领域又添加了一枝华章。本文虫虫就给大家介绍一下个项目。

概述

我们以前也介绍过，Apache Spark是Apache基金会旗下的时下最流行的开源分布式内存式大数据处理引擎。 Spark可用于处理批量数据，实时数据流，支持机器学习和即时数据查询。

.NET for Apache Spark项目主要用于创建跨Spark API的Spark原生操作库，为.net开发人员进行大数据分析提供方便。此前Spark官方支持Scala，Java，R和Python，至此又增加了.net。

.NET for Apache Spark将做为.NET Foundation开源自项目发布，项目已经通过Github发布，可以通过Github获取所有的源码（仓库为github：/dotnet/spark）。

介绍

.NET for Apache Spark为.net应用提供了原生的高性能API，他打包了Spark操作操作层上，可以为多种语言提供高性能访问类库，可以支持C#和F#等.net语言。

通过.NET API，我们可以高效访问Apache Spark的所有组件，包括Spark SQL，DataFrames，Streaming，MLLib等。

.NET for Apache Spark符合.NET标准，遵循.NET API的正式规范，我们在.NET代码中随时引入，插拔式的插入，非常容易扩展。现有.net项目和代码，编码习惯等都可以无缝引入到.NET for Apache Spark的项目开。基于.NET Standard 2.0，可以括平台在Linux，macOS和Windows上使用，还支持云架构，微软云Azure HDInsight中已经默认启用，也可以安装在Azure Databricks等中。

实例入门

.NET for Apache Spark的使用需要预装.net core和Spark包括：

.NET Core 2.1 SDK

Java 1.8

Apache Spark 2.4.1

Microsoft.Spark.Worker

安装设置好以上软件后，就可以开始Spark应用的开发了，本我们提供两个简单实例分别说明在C#和F#的应用。

C# 实例：

//创建一个Spark session

var spark = SparkSession

.Builder()

.AppName("word_count_sample")

.GetOrCreate();

//创建一个数据框

DataFrame dataFrame = spark.Read().Text("input.txt");

//操纵和查看数据

var words = dataFrame.Select(Split(dataFrame["value"], " ").Alias("words"));

words.Select(Explode(words["words"])

.Alias("word"))

.GroupBy("word")

.Count()

.Show();

F#：实例

//创建一个Spark session

let spark =

SparkSesstion.Builder()

.AppName("word_count_sample")

.GetOrCreate()

//创建一个数据框

let df = spark.Read().Text("input.txt")

let words = df.Select(Split(df.["value"], " ").Alias("words")

words.Select(Explode(words["words"]).Alias("word"))

.GroupBy("word")

.Count()

性能分析

数据分析很重要的一个方面就能高性能性操作和分析。.NET for Apache Spark在发布之前就做了很多的系能测试，官方对其预览版本进行了TPC-H基准测试，结果显示.NET for Apache Spark系能表象良好。官方进行的TPC-H基准包含一套面向业务的查询。下面的图例说明了在TPC-H查询集上.NET Core与Python和Scala的性能对比。

上图显示了.NET for Apache Spark，Python及Scala在Apache Spark上每个查询性能。 .NET for Apache Spark性能表现良好。此外，在UDF性能至关重要的情况下，例如查询1，其中在JVM和CLR .NET之间传递3B行非字符串数据，Apache Spark比Python快2倍。

TPC-H基准测试中所有22个查询的总执行时间（秒）（越低越好）结果如下图所示。

数据源自TPC-H基准测试的内部运行，在Ubuntu 16.04上使用热执行。

当然由于基准测试使用的是.NET for Apache Spark预览，没有很多的优化，正式版本的性能会有更进一步的优化和提高。

发展展望

正式发布后Visual Studio Code才算是踏上万里长征的第一步，官方也提供了以后发展路线图，提供值得期望的有：

简化入门体验，文档和示例

与Visual Studio，Visual Studio Code，JupyterNote等开发人员工具进行有机集成

.NET支持用户定义的聚合函数

提供C#和F#的常用的API和实例用于（例如，使用LINQ进行查询）

提供Azure Databricks，Kubernetes等开箱即用的支持。

为Spark Spark构建.NET for Spark Spark。

来源：SEO公司

spark 大数据 apache 数据处理

安科网

微软发布.NET版本的Spark，高效而强大

zhangxiaocc

概述

介绍

实例入门

性能分析

发展展望

zhangxiaocc

相关推荐

Apache Spark有哪些局限性

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

spark系列之基本概念

Spark RDD

Spark Streaming读取Kafka数据两种方式

Mr与spark的shuffle过程详解及对比

Spark分区

Spark Streaming企业运用

spark 任务提交参数

Spark 数据分析调优（一）

【译】Using .NET for Apache Spark to Analyze Log Data

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

spark streaming 读取kafka两种方式的区别

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Notebook Docker 安装spark环境

入门大数据---Spark开发环境搭建

zhangxiaocc