Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

HIHeASy

2017-05-16

关注关注

《Linux探索之旅》全系列

内容简介

第三部分第一课：数据处理，慢条斯理
第三部分第二课预告：流、管道、重定向，三管齐下

数据处理，慢条斯理

哈哈，终于到了第三部分了。不知不觉两个部分已经学完了，上一课是 Linux探索之旅 | 第二部分测试题。

小编：可喜可贺，掌声给自己！

此时读者内心独白：我想静静，也不要问我小编是谁。

好了好了，小编重回淡定。咳咳，看到今天的标题应该会对这一课的内容很有兴趣吧，毕竟我们每天都在跟各种数据打交道。

Linux中的文件里也是各种数据，所以数据处理就显得尤为重要。

之前的课中已经介绍过：大部分Linux的命令是基于Unix操作系统的模式，当然源码是重写的。

因此，虽然Linux是1991年问世的，但是其很多设计理念和命令却沿用了20世纪60年代的模式。

这样的事实对我们学习Linux的人有个好处：不必每隔一段时间就学新东西，很多知识点可以沿用很久。例如现在近60岁的一个Unix的老工程师，操作Ubuntu等新近Linux发行版基本没有什么问题。

但也许你还是会问这个问题：为什么过了这么多年，好多Linux命令都没变呢？

那是因为没有必要变。因为大多数Linux命令都具有很基本的功能，而且它们在自己的岗位上敬忠职守，工作做得很棒。这些都是Linux系统的“基石”。

这一课我们将学习好多个基本的命令，这些命令用于提取、排序、筛选文件中的各种数据。这一课也是很轻松的。

这些命令中，有些你以后几乎每天都会用到，例如grep命令。

好了，闲话说完，该动手实践了。

grep命令：筛选数据

grep是Globally search a Regular Expression and Print的缩写，意思是《全局搜索一个正则表达式，并且打印》。

意思不太好理解吧？没关系，也不需要太理解原意。

grep命令的功能简单说来是在文件中查找关键字，并且显示关键字所在的行。

至于什么是正则表达式，大家有兴趣可以去百度或Google，学习一下。这是程序员需要掌握的知识点之一。

正则表达式提供了搜索文本的一种高级方式。我们不仅在Linux的命令行中用到正则表达式，而且在很多的文本编辑器里也用到，在许多编程语言例如C++，Java，PHP等等也会用到。

首先，我们学习grep的简单用法。之后我们再学习如何配合正则表达式来实现复杂的查找。

grep的简单用法

grep的使用方法有很多种。但我们一开始先学习最基本的用法：

grep text file

可以看到，上面就是grep命令的最基本用法。

text代表要搜索的文本，file代表供搜索的文件。

我们用实际的例子来学习。比如我要在用户的家目录的 .bashrc 文件中搜索alias这个文本，而且显示所有包含alias的行。

grep alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

怎么样，grep命令很强大吧。如上图所见，grep命令列出了.bashrc文件中所有包含alias的行，并且在小编的终端中，以红色标出了每一个alias。其实grep更像是一个过滤器，它可以筛选出我们要找的对象。

少年，不要激动，此对象非彼对象~

如果我们要用grep命令在一个文件中查找用空格隔开的文本，那么就要加上双引号，例如：

grep "Hello World" file2

-i参数：忽略大小写

默认的情况下，grep命令是区分大小写的，也就是说搜索的文本将严格按照大小写来搜索。比如我搜索的文本是text，那么就不会搜出例如Text，tExt，TEXT等等文本。

但是我们可以给grep加上-i参数，使得grep可以忽略大小写。i是英语ignore的缩写，表示“忽略”。

例如：

grep -i alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，加了-i参数后，grep的搜索结果就多了 #Alias definitions. 那一行，因为-i参数使得grep搜索不区分大小写。

-n参数：显示行号

-n参数的作用很简单，就是显示搜索到的文本所在的行号。n是英语number的缩写，表示“数字，编号”。

grep -n alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-v参数：只显示文本不在的行

-v参数很有意思，v是invert的缩写，表示“颠倒，倒置”。-v参数的作用与正常grep的作用正好颠倒，就是只显示搜索的文本不在的那些行。

grep -v alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，这次grep过滤出了.bashrc中所有不包含alias的行。

-r参数：在所有子目录和子文件中查找

如果你不知道你要找的文本在哪个文件里，你可以用强大的-r参数。

r是英语recursive的缩写，表示“递归”。

如果用了-r参数，那么grep命令使用时的最后一个参数（grep text file这个模式中的file）需要换成directory，也就是必须是一个目录。因为-r参数是让grep命令能够在指定目录的所有子目录和子文件中查找文本。

例如：

grep -r "Hello World" folder/

表示在folder这个目录的所有子目录和子文件中查找Hello World这个文本。当然了，以上例子中，folder后面的斜杠（/）不是必须的，这里只是为了清楚表明folder是一个目录。只要folder是一个目录，Linux系统是不会搞错的。

Linux中还有一个rgrep的命令，它的作用相当于grep -r

grep的高级用法：配合正则表达式

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

grep配合正则表达式就可以实现比较高级的搜索了。

我们首先来看一眼以下的这个表格，表格中列出了最常用的一些正则表达式的字符以及其含义：

特殊字符	含义
.	匹配除 "\n" 之外的任何单个字符
^	行首（匹配输入字符串的开始位置）
$	行尾（匹配输入字符串的结束位置）
[]	在中括号中的任意一个字符
?	问号前面的元素出现零次或一次
*	星号前面的元素可能出现零次，一次或多次
+	加号前面的元素必须出现一次以上（包含一次）
一根竖线	逻辑或
()	表达式的分组（表示范围和优先度）

当然了，上表没有列出所有的正则表达式的字符。大家可以上网搜索，查找完整的表格。

看了上表你可能会说：“我啥也看不懂啊...”。

这是正常的，正则表达式不是那么容易入门的，但也不是太难。要把正则表达式讲清楚，大概需要两课的篇幅，我们这里就不多做介绍了。

首先，为了让grep命令知道我们要使用正则表达式，须要加上-E参数。例如：

grep -E Alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

当然了，Linux也有一个命令egrep，其效果等同grep -E

不要怀疑，Alias也算是一个正则表达式，只不过没有用到上面表格中的特殊符号而已。

到此为止，没什么新鲜的。我们用正则表达式只不过和之前的搜索类似。接下来，我们才真的要用到正则表达式的特殊字符了。

首先来看这个例子：

grep -E ^alias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

这个例子中，我们用到了^这个特殊符号，上面的表格里对于^已经做了说明：行首（匹配输入字符串的开始位置）。也就是说，^后面的字符须要出现在一行的开始。

因此，就搜出了如上图中的三行，这三行都是包含alias，并且以alias开头的。

再来举几个例子：

grep -E [Aa]lias .bashrc

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

上面的表格里解释了[]的作用，是将[]中的字符任取其一，因此[Aa]lias的意思就是既可以是Alias，又可以是alias。因此grep的搜索结果把包含Alias和alias的行都列出来了。

再比如：

grep -E [0-4] .bashrc

用于搜索包含0至4的任一数字的行。

grep -E [a-zA-Z] .bashrc

用于搜索包含在a至z之间的任意字母或者A至Z之间的任意字母的行。

其他正则表达式还有很多例子。就不一一列举了。

注意：
其实在Ubuntu这样的Linux发行版中，grep如果要和正则表达式配合，不加-E参数也是可以的，正则表达式始终是激活的。不过有的Unix发行版的系统可能不加-E参数就不能搜索正则表达式，因此为了兼容，我们一般教学的时候会说加上-E参数比较好。

sort命令：为文件排序

sort是英语“排序”的意思。

sort命令用于对文件的行进行排序。

为了演示，我们首先用文本编辑器（可以用nano）来创建一个文件，名叫name.txt比如，然后在里面写入以下的行：

John
Paul
Luc
Matthew
Mark
jude
Daniel
Samuel
Job

随便写几个英语常用名字就可以了。name是英语“名字”的意思。

然后，我们用sort命令来举个例子：

sort name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，sort命令将name.txt文件中的行按照首字母的英文字典顺序进行了排列。

可以看到，sort命令并不区分大小写。

-o参数：将排序后的内容写入新文件

如果你打开name.txt文件，你会发现，经过了sort命令的“洗礼”，name.txt中的内容还是维持原来的顺序。

单独使用sort命令是不会真正改变文件内容的，只是把排序结果显示在终端上。

那我们要存储排序结果到新的文件怎么办呢？可以用-o参数。

sort -o name_sorted.txt name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，name.txt经过sort命令排序之后的内容被储存在了新的文件name_sorted.txt中，而name.txt的内容是不变的。

-r参数：倒序排列

-r参数中的r是reverse的缩写，是“相反，反面”的意思，与普通的仅用sort命令正好相反。

sort -r name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-R参数：随机排序

-R参数比较“无厘头”，因为它会让sort命令的排序变为随机，就是任意排序，也许每次都不一样。但在有些时候，还是很有用的。

sort -r name.txt

为了显示每次排序都是随机的，我们运行了两次以上命令：

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-n参数：对数字排序

对数字的排序有点特殊。默认地，仅用sort命令的时候，是不区分首字符是否是数字的，因此还是按照1-9的顺序来排序。例如138会排在25前面，因为1排在2的前面。

那如果我们要sort命令识别整个数字，比如按照大小顺序来说，25应该排在138前面，那该怎么办呢？

就可以请出我们的-n参数了。n是number的缩写。是英语“数字”的意思。-n参数用于对数字进行排序，按从小到大排序。

为了演示，我们再用文本编辑器来创建一个文件，就叫number.txt好了。

里面随便填一些数字，每行一个：

然后用sort不加-n参数和加上-n参数分别测试：

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，不加-n参数时，sort就会把这些数字按首字符来排序，按照1-9的顺序。

加上-n参数，就会把各行的数字看成一个整体，按照大小从小到大来排序了。

wc命令：文件的统计

wc是word count的缩写（不是“厕所”的意思，OK？），word是英语“单词”的意思，count是英语“计算，统计，数数”的意思。

因此，wc命令貌似是用来统计单词数目的，但其实wc的功能不仅止于此。wc命令还可以用来统计行数，字符数，字节数等。

跟前面的命令一样，wc命令的用法也是后接文件名。wc命令很有用，应该会成为你经常用到的命令之一。

如果不加选项参数，那么wc命令的返回值有些特殊，有点晦涩难懂。

例如：

wc name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到返回值是

9 9 50 name.txt

最后的name.txt只是表明文件名，不需考虑。

那么这三个数字：9，9，和50分别表示什么呢？

这三个数字，按顺序，分别表示：

行数
单词数
字节数

因为我们之前创建name.txt时，每一行只有一个单词（英语名字），所以这里统计的行数和单词数都是9。

-l参数：统计行数

为了只统计行数，我们可以加上-l参数。l是英语line的缩写，表示“行”。

wc -l name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-w参数：统计单词数

w是英语word的缩写，word是英语“单词”的意思。因此-w参数用于统计单词。

wc -w name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-c参数：统计字节数

不知道为什么是c，因为byte或者octet（都可以表示《字节》）的首字母都不是c啊。不管了。也许c是character（英语“字符”的意思）的缩写吧。

wc -c name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-m参数：统计字符数

不知道为什么是m，因为character（英语“字符”）的首字母不是m啊。不管了。

wc -m name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

uniq命令：删除文件中的重复内容

有时候，文件中包含重复的行。我们也许想要将重复的内容删除。

这时，uniq命令就显得很有用了。

uniq是英语unique的缩写，表示“独一无二的”。

为了演示，我们创建一个文件repeat.txt（repeat是英语“重复”的意思），里面写入如下排序好的内容（因为uniq命令还是有点“呆”，因为它只能将连续的重复行变为一行）：

Albert
China
France
France
France
John
Matthew
Matthew
patrick
Steve
Vincent

可以看到，有三个France连在一起，两个Matthew连在一起。

我们用uniq命令来处理看看：

uniq repeat.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

可以看到，三个连续的France只剩下一个了，两个连续的Matthew也只剩一个了。

但是uniq命令并不会改变原文件的内容，只会把处理后的内容显示出来。如果想将处理后的内容储存到一个新文件中，可以使用如下的方法：

uniq repeat.txt unique.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-c参数：统计重复的行数

-c参数用于显示重复的行数，如果是独一无二的行，那么数目就是1。

uniq -c repeat.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

-d参数：只显示重复行的值

-d参数只显示重复的行的值。

uniq -d repeat.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

cut命令：剪切文件的一部分内容

cut是英语“剪切”的意思。大家平时肯定有剪切文本内容的经历吧，一般剪切之后还要把剪切的内容粘贴到某处。

cut命令用于对文件的每一行进行剪切处理。

-c参数：根据字符数来剪切

比如，我们要name.txt的每一行只保留第2至第4个字符。可以这样做：

cut -c 2-4 name.txt

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

总结

grep命令应该算是最常用的在文件中查找关键字的工具了。
grep命令可以通过正则表达式来查找。一开始正则表达式会比较难记，但是很强大。我们可以调用egrep命令，其等价于grep -E。
sort命令用于为文件中的行按字母顺序排序。使用-n参数可以按照数字顺序排序。
wc命令可以统计文件中行数，单词数或者字节数。
uniq命令可以用于删除文件中重复的内容。
cut命令用于剪切文件的一部分内容。

当然了，篇幅有限，我们不可能对每个命令的每个参数和每种用法都做详细介绍，大家可以用man命令来查询各个命令的手册，自己学习。

第三部分第二课预告

今天的课就到这里，一起加油吧！

下一课我们来学习：Linux探索之旅 | 第三部分第二课：流、管道、重定向，三管齐下，会比较难。

数据处理 linux系统正则表达式

Linux探索之旅 | 第三部分第一课：数据处理，慢条斯理

内容简介

数据处理，慢条斯理

grep命令：筛选数据

grep的简单用法

-i参数：忽略大小写

-n参数：显示行号

-v参数：只显示文本不在的行

-r参数：在所有子目录和子文件中查找

grep的高级用法：配合正则表达式

sort命令：为文件排序

-o参数：将排序后的内容写入新文件

-r参数：倒序排列

-R参数：随机排序

-n参数：对数字排序

wc命令：文件的统计

-l参数：统计行数

-w参数：统计单词数

-c参数：统计字节数

-m参数：统计字符数

uniq命令：删除文件中的重复内容

-c参数：统计重复的行数

-d参数：只显示重复行的值

cut命令：剪切文件的一部分内容

-c参数：根据字符数来剪切

总结

第三部分第二课预告

相关推荐