Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

bigfoolee

2019-06-16

关注关注

Scala 是一门现代多范式编程语言，以一种简洁，优雅，类型安全的方式表达通用编程模式。它将面向对象和函数式语言十分自然地结合到了一起。

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

下面结合一个综合应用的例子，对某个目录下所有文件中的单词进行词频统计，以Scala 语言实现。

完整代码如下：

// 导入需要的类

import java.io.File

import collection.mutable.Map // 需要使用可变映射，因此明确调入mutable Map

import scala.io.Source

// 创建单例对象Singleton Object

object WordCount1 {

// main方法是程序执行入口

def main(args: Array[String]): Unit = {

// 读取当前文件下testfiles 目录中的文本文件

val dirfile = new File("testfiles")

// 获取所有文件对象构成的数组

val files = dirfile.listFiles

// 建立可变的空的Map对象results，用来保存统计结果

val results = Map.empty[String, Int]

// 对文件对象进行循环

for(file <- files) {

// 从File 对象建立Source对象，方便文件的读取

val data = Source.fromFile(file)

// getLines方法返回文件各行构成的迭代器对象，类型为 Iterator[String]

// flatMap 进一步将每一行字符串拆分成单词，再返回所有这些单词构成的新字符串迭代器

val strs = data.getLines().flatMap(s=>s.split(" "))

// 进行遍历，在匿名函数中，对应当前遍历的某个单词，如果之前统计过，就+1,；如果没有统计过，则创建一个新的Map条目，并赋值为1。

strs foreach {

word => if(results.contains(word)) {

results(word) += 1

} else {

results(word) = 1

}

// 输出统计结果

results foreach{case (k, v)=>println(s"$k:$v")}

}

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

在IDEA中运行，输出结果：

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

发现结果中：（1）没有处理大小写；（2）标点符号没有处理；（3）空白字符串也没有处理。

针对上述问题，可以进行优化一下代码。

在单例对象中，添加如下函数的定义。

// 移除标点符号，转换为小写字符

val removePunctuation: String => String = (text: String) => {

val punctPattern = "[^a-zA-Z0-9\s]".r

punctPattern.replaceAllIn(text, "").toLowerCase

}

同时，还需要调整如下代码行。

val strs = data.getLines().flatMap(s=>s.split(" ")).map(removePunctuation).filter(_!="")

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

从输出结果中发现，上述三个问题已经结果。

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

如果想进一步对输出结果，按照词频数据从大到小排序呢？可以进一步改进代码。

// 输出统计结果

results foreach{case (k, v)=>println(s"$k:$v")}

针对输出统计结果代码，进行改进，增加排序功能：

// 输出统计结果，按照词频倒序输出

results.toList.sortBy(_._2).reverse foreach{case (k, v)=>println(s"$k:$v")}

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

再次运行改进后的代码，验证输出结果：

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

现在输出结果达到了预期。

scala

bigfoolee

0 关注 0 粉丝 0 动态

关注关注

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Before we start to research tail recursion, let’s first have a look at the normal recursion.Let N = 5, see how new stack frame i

匆匆那些年 2020-10-15

Scala(八)【面向对象总结】

第二种方法，包名只能在target目录才能看到。val/var 变量:变量类型 = 值。//var定义的变量可以通过_赋予初始值：null、0、false、0.0. 在主构造器中可以定义成员属性。不带val、var: 只能在类中使用。class称之为伴生类

TheBigBlue 2020-07-28

scala 数据结构（四）：列表 List

Scala中的List 和Java List 不一样，在Java中List是一个接口，真正存放数据是ArrayList，而Scala的List可以直接存放数据，就是一个object，默认情况下Scala的List是不可变的，List属于序列Seq。5)如果

shenwenjie 2020-07-07

scala 数据结构（五）：队列 Queue

1）队列是一个有序列表，在底层可以用数组或是链表来实现。2）其输入和输出要遵循先入先出的原则。后存入的要后取出。3）在Scala中，由设计者直接给我们提供队列类型使用。//补充操作符重载...按照队列的算法，会将数据添加到队列的最后。

muhongdi 2020-07-07

scala 数据结构（八）：-map映射操作

在Scala中可以通过map映射操作来解决：。将集合中的每一个元素通过指定功能（函数）映射（转换）成新的结果集合这里其实就是所谓的将函数作为参数传递给另外一个函数,这是函数式编程的特点。def map[B]: HashSet[B] //map函数的签名。1

waitwolf 2020-07-08

scala 数据结构（九）：-filter、化简

上面的问题当然可以使用遍历list方法来解决，这里我们使用scala的化简方式来完成。4) 然后继续和下一个元素运行，将得到的结果继续返回给第一个参数，继续..

yunfenglee 2020-07-08

scala 数据结构（七）：集 Set

集是不重复元素的结合。集不保留顺序，默认是以哈希集实现。Set不可变集合的创建。val set = Set //不可变。2 集 Set-可变集合的元素添加和删除。set02 -= 2 // 操作符形式。set02.remove // 方法的形式，scala

yunfenglee 2020-07-08

scala 数据结构（六）：映射 Map

1) Scala中的Map 和Java类似，也是一个散列表，它存储的内容也是键值对映射，Scala中不可变的Map是有序的，可变的Map是无序的。即创建包含键值对的二元组，和第一种方式等价，只是形式上不同而已。对偶元组就是只含有两个数据的元组。2) 如

kekeromer 2020-07-08

scala 数据结构（一）：数据结构简介

3）Scala默认采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变和不可变的版本。4）Scala的集合有三大类：序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质，在Scala中集合有可变和不可变两种类型。1）不可变集

匆匆那些年 2020-07-07

8-哈希表-Scala实现

哈希表又叫散列表，这里用数组和链表实现。//编写一个hash方法。//先计算该no对应的链表。//编写Emplinkedlist，存放的是雇员信息。//将curEmp定位到链表的最后。//使用辅助指针遍历

liqinglin0 2020-07-05

IDEA安装scala搭建项目环境

查看IDEA2019.2对应的Scala插件的版本。加载刚刚放入C:\Program Files\JetBrains\IntelliJ IDEA 2019.2.4\plugins里面的scala-intellij-bin-2019.2.40.jar插件。在

TheBigBlue 2020-07-05

类、对象、基础类型、操作(Scala)

在类定义中，有字段filed和方法method，统称为成员member，通过val和var定义字段指定对象的变量。实例一个类后，会指派一些内存来保存对象的状态图。个人理解对通过地址间映射，有一块内存保存值。对字段声明私有。不加，就是共有public。Sca

kekeromer 2020-06-13

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 2020-06-08

[bug] Scala eclipse：找不到或无法加载主类

解决右键项目 > properties > scala Compiler >勾选Use Project Setting

TheBigBlue 2020-06-06

Scala核心编程_第09章面向对象编程(高级特性)

Scala语言是完全面向对象的语言，所以并没有静态的操作。Scala中伴生对象采用object关键字声明，伴生对象中声明的全是 "静态"内容，可以通过伴生对象名称直接调用。伴生对象对应的类称之为伴生类，伴生对象的名称应该和伴生类名一致。

liqinglin0 2020-06-01

Scala核心编程_第08章面向对象编程(中级补充)--java动态绑定与静态绑定

Java方法调用过程中，Jvm是如何知道调用的是哪个类的方法？Jvm又是如何处理？当子类和父类存在同一个方法时，子类重写父类（接口）方法时，程序在运行时调用的方法时，是调用父类（接口）的方法呢？绑定又分为静态绑定和动态绑定。在Java中，final、pri

liqinglin0 2020-06-01

scala Object

在scala中被object关键字修饰的类有如下特征：。//创建了一个ObjectDemo_02对象。伴生类与伴生对象。* 伴生类和伴生对象一定要在同一个类文件中，并且类名相同。* 伴生类和伴生对象的特点是可以相互访问被private修饰的字段

yunfenglee 2020-05-30

2020 开发者调查：TypeScript 击败 Python，Scala 最赚钱

Stack Overflow 2020开发者调查报告现已出炉。Stack Overflow 年度开发者调查是面向全球开发者进行的规模最大、最全面的调查。调查涵盖了从开发者喜爱的技术到工作偏好等内容。2020 年是 Stack Overflow 发布年度开发

MICKEYSTUDY 2020-05-28

3-单向链表-Scala实现

今天学习了单向链表的实现，记录一下，方便以后查看~//创建头节点，指向该链表的头部。//添加英雄到链表。//1.先找到链表的最后节点。//因为head不能动，我们一个辅助指针来定位。var flag = false //标识是否已经存在编号的节点。//将t

muhongdi 2020-05-19

IntelliJ IDEA scala的源码设置

3.解压压缩包scala-source-xx.xx.x.tar.gz目录文件的doc目录下。一直点OK就可以了

yunfenglee 2020-05-19

安科网

Scala 函数式编程实例-文本文件中单词视频统计（WordCount）

bigfoolee

bigfoolee

相关推荐

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Scala(八)【面向对象总结】

scala 数据结构（四）：列表 List

scala 数据结构（五）：队列 Queue

scala 数据结构（八）：-map映射操作

scala 数据结构（九）：-filter、化简

scala 数据结构（七）：集 Set

scala 数据结构（六）：映射 Map

scala 数据结构（一）：数据结构简介

8-哈希表-Scala实现

IDEA安装scala搭建项目环境

类、对象、基础类型、操作(Scala)

今天的收获

[bug] Scala eclipse：找不到或无法加载主类

Scala核心编程_第09章面向对象编程(高级特性)

Scala核心编程_第08章面向对象编程(中级补充)--java动态绑定与静态绑定

scala Object

2020 开发者调查：TypeScript 击败 Python，Scala 最赚钱

3-单向链表-Scala实现

IntelliJ IDEA scala的源码设置

bigfoolee