利用Linux命令行进行文本按行去重并按重复次数排序

89291642

2014-12-23

引用

利用Linux命令行进行文本按行去重并按重复次数排序

linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用Linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列操作文本行)。

用于演示的测试文件内容如下：

[plain]

HelloWorld.

AppleandNokia.

HelloWorld.

IwannabuyanAppledevice.

TheIphoneofApplecompany.

HelloWorld.

TheIphoneofApplecompany.

MynameisFriendfish.

HelloWorld.

AppleandNokia.

实现命令及过程如下：

[plain]

1、文本行去重

(1)排序

由于uniq命令只能对相邻行进行去重复操作，所以在进行去重前，先要对文本行进行排序，使重复行集中到一起。

$sorttest.txt

AppleandNokia.

AppleandNokia.

HelloWorld.

HelloWorld.

HelloWorld.

HelloWorld.

IwannabuyanAppledevice.

MynameisFriendfish.

TheIphoneofApplecompany.

TheIphoneofApplecompany.

(2)去掉相邻的重复行

$sorttest.txt|uniq

AppleandNokia.

HelloWorld.

IwannabuyanAppledevice.

MynameisFriendfish.

TheIphoneofApplecompany.

2、文本行去重并按重复次数排序

(1)首先，对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。

$sorttest.txt|uniq-c

2AppleandNokia.

4HelloWorld.

1IwannabuyanAppledevice.

1MynameisFriendfish.

2TheIphoneofApplecompany.

(2)对文本行按重复次数进行排序。

sort-n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort-rn)。

$sorttest.txt|uniq-c|sort-rn

4HelloWorld.

2TheIphoneofApplecompany.

2AppleandNokia.

1MynameisFriendfish.

1IwannabuyanAppledevice.

(3)每行前面的删除重复次数。

cut命令可以按列操作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut-c9-取出每行第9个及其以后的字符。

$sorttest.txt|uniq-c|sort-rn|cut-c9-

HelloWorld.

TheIphoneofApplecompany.

AppleandNokia.

MynameisFriendfish.

IwannabuyanAppledevice.

下面附带说一下cut命令的使用，用法如下：

[plain]

cut-blist[-n][file...]

cut-clist[file...]

cut-flist[-ddelim][-s][file...]

上面的-b、-c、-f分别表示字节、字符、字段（即byte、character、field）；

list表示-b、-c、-f操作范围，-n常常表示具体数字；

file表示的自然是要操作的文本文件的名称；

delim（英文全写：delimiter）表示分隔符，默认情况下为TAB；

-s表示不包括那些不含分隔符的行（这样有利于去掉注释和标题）

三种方式中，表示从指定的范围中提取字节（-b）、或字符（-c）、或字段（-f）。

范围的表示方法：

n只有第n项

n-从第n项一直到行尾

n-m从第n项到第m项(包括m)

-m从一行的开始到第m项(包括m)

-从一行的开始到结束的所有项

在写这篇文章的时候，用到了vim的大小写转化的快捷键：gu变小写，gU变大写。结合ctrl+v能够将一片文字中的字符进行大小写转换，非常好用。

命令行 list排序 uniq

89291642

0 关注 0 粉丝 0 动态

相关推荐

命令行生存指南：强制早睡

你会不会经常陷入这么一个情景：计划晚上早点睡叫，然而无奈总是一不小心玩过头了。你需要一种方法强制让你到时间了就要关机去睡觉了，这该怎么做呢？Kgotobed 是一个很变态的内核模块。它会强制 Linux 在特定时间关闭，而你却毫无办法。内核模块允许 Lin

吹云 2020-11-05

命令行生存指南：监视命令输出

有时候需要不断的执行某个命令并追踪其输出产生的变化情况。一种常见的方法是通过写一段死循环的 shell 脚本来实现，不过 Linux 本身已经提供了一个工具来帮你定期执行指定的程序并将结果全屏输出，本节将会介绍该工具。进程将从标准输入文件中得到输入数据，将

84407805 2020-11-01

使用curl从命令行访问互联网

下载我们整理的 curl 备忘录。要在不使用图形界面的情况下从互联网上获取所需的信息，curl 是一种快速有效的方法。curl通常被视作一款非交互式 Web 浏览器，这意味着它能够从互联网上获取信息，并在你的终端中显示，或将其保存到文件中。从表面看，这是

曾是土木人 2020-10-31

在Linux命令行内的大小写转换

在编辑文本时大小写常常是需要注意的地方，大小写的转换是很枯燥而繁琐的工作，所幸，Linux 提供了很多能让这份工作变得容易的命令。接下来让我们看看都有哪些完成大小写转换的命令。tr 是能运用在命令行或者脚本上的最简单的大小写转换命令之一。例如如果你想

87201442 10评论 2020-10-15

程序员直呼瑞思拜！这7个命令行工具你还没尝试过吗？

本文转载自公众号“读芯术”。终端/命令行是可能是程序员最常用的工具。这或许是因为它是轻量型的，可以用来做很多事，一些开发人员甚至不遗余力地在终端内部进行操作。本文将分享一些我每天都会大量使用的CLI工具。有哪种终端机列表不包含vim?对于那些不熟悉vim的

java0 2020-09-29

GitHub命令行工具1.0版正式上线，从此告别网页管理

经过大半年的迭代与完善，今天GitHub CLI已经成功从beta版升级为1.0正式版，可供所有用户使用。GitHub CLI让开发者在终端里使用命令行管理代码项目，不必打开网页，工作效率更高。GitHub在官方博客中表示，自年初发布测试版以来，用户使用G

81437716 2020-09-18

提升开发效率N倍的20+命令行神器，赶紧收藏了

è¨°é¨°poé “Shell ”éè“¤è”èéè° Shell ¨èè Linux è Mac ¨··¤¤。éèè¤è§é¨¤· è·°éè°èè°éè¨° cmd --help è man cmd¨¤¨¤°±èè°。nginx è¤ HTTP

81437716 2020-09-13

在命令行中使用nmcli来管理网络连接

nmcli 命令赋予你直接在 Linux 命令行操作 NetworkManager 工具的能力。它是 NetworkManager 软件包集成的一部分，通过使用一些应用程序接口来获取 NetworkManager 的功能。nmcli发布于 2010 年，用

bluecarrot 2020-09-11

在 Linux 命令行里与其他用户通信

在 Linux 命令行里向其他用户发送信息很简单，很多命令都可以做到这点，麻烦的是你需要从众多命令中挑选一个合适的命令来使用。因此，我挑选了四种常用的 Linux 用户通信命令分享给大家并为你们讲解这四种命令是如何工作的。wall 命令允许你向所有在系统

myCat 2020-09-09

命令行版的斗地主你玩过没？

相信大家都玩过斗地主游戏，或在现实中斗地主或在电脑和手机上斗地主，但你想过用命令行界面进行斗地主吗?是不是觉得挺有意思，下面就带大家一起玩一下吧~该项目是基于java开发的，因此需要部署java运行环境及 maven。你可以创建私人服务器与好友一起斗地主，

83427718 2020-09-07

使用命令行工具 Graudit 来查找你代码中的安全漏洞

测试是软件开发生命周期的重要组成部分，它有几个阶段。今天，我想谈谈如何在代码中发现安全问题。这就是为什么有一个术语叫 DevSecOps，它的基本职责是识别和解决应用中的安全漏洞。有一些用于检查 OWASP 漏洞的开源解决方案，它将通过创建源代码的威胁模

85560694 2020-09-03

在Linux命令行中使用计算器的5个命令

大家好，我是良许。在使用 Linux 时，我们有时会需要做一些计算，那么我们就可能需要用到计算器。在 Linux 命令行里，有许多计算器工具，这些命令行计算器可以让我们执行科学计算、财务计算或者一些简单的计算。当然，我们也可以在 Shell 脚本中使用

89520991 2020-08-21

5款超级好用的命令行工具，提升你的开发效率！

如果你是一个喜欢使用Linux系统，或者经常和Linux打交道的开发人员。那么，终端和命令行一定是接触很频繁的工具之一。Linux不像Windows那样，有丰富的桌面应用，但是，却有很多开源、免费的命令行工具，这也恰好符合Linux的应用场景。找到一款优秀

89550191 2020-08-09

Linux系统中玩到让你停不下来的命令行游戏！

在使用 Linux 系统时，命令行不仅可以让我们在工作中提高效率，它还可以在生活上给我们提供各种娱乐活动，因为你可以使用它玩许多非常有意思的游戏，这些游戏可都不需要使用专用显卡。命令行游戏尽管比较简单，看上去只是一行行枯燥的代码，但有，还是有不少的 Lin

katie000 2020-08-04

终端命令行生存之——网络冲浪篇

Linux命令行是强大的工具，命令行是我们的日常工作，命令行更是我们日常生活。之前虫虫给大家写过一些命令的的介绍，命令行的工具，命令行下的开发。实际上命令行也是我们不可或缺的生活。本文我们来介绍一下命令行下的网络冲浪工具命令行浏览器。lynx一个历史悠久纯

hunningtu 2020-07-30

Github标星24.1K！一个命令行就可以把网站变成电脑App

现如今，我们大多数人都拥有多台设备，至少用两个系统，除非你对苹果生态系统十分着迷，否则这些设备没有办法达到你想象中的那样无缝协作，尽管人们一直致力于不同设备之间的沟通差距。例如许多应用程序是为计算机准备的，即便你离开手机也可以使用。有时候开发人员只是发布一

89961330 2020-07-28

Unix命令行中的Ctrl + Z和Ctrl + C的区别

Control+ Z用于通过向其发送信号来暂停进程，该信号SIGSTOP不能被程序拦截。而Control+ C用来杀死带有信号的进程SIGINT，并且可以被程序截获，因此它可以在退出之前清理自身，或者根本不退出。但是，如果您杀死了一个，则除了被退回到She

yuzhongdelei0 2020-07-28

使用git命令行撤销之前的代码更新提交

哈哈哈这样就大功告成了，也不是很麻烦哦！

ameng 2020-07-27

Windows下使用命令行编译Qt项目（解决DLL丢失问题）

我之前用Qt做了个hello world，结果各种报错，一大堆DLL找不到，今天用命令行编译就通过了

yuzhongdelei0 2020-07-27

Centos命令行报bash:.....:command not found的解决办法

命令行输入命令执行后报“bash:....:command not found”这是由于系统PATH设置问题，PATH没有设置对，系统就无法找到精确命令了。命令执行完之后先不要关闭终端。我的Linux系统是由于设置JAVA环境变量时设置PATH属性导致co

haitianisgood 2020-07-21

89291642

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号