Linux 文件比较(grep/comm/awk)

gongxucheng

2011-05-18

方法二：实用comm
comm -3 file1 file2
这个方法看起来最简单。命令comm的功能就是，逐行比较两个排好序的文件，默认输出有三列：只在file1中有的行、只在file2中有的行、在file1和file2中共有的行。有参数-1 -2 -3，分别来抑制输出对应的列。例如在我们的方法二中，实用-3参数，不输出file1和file2中共有的部分。即能达到我们本文的目的。
但是注意到，comm比较排好序的两个文件，comm在处理文件的时候，首先要查看文件是否有序，例如file1和file2的内容如下：

$cat file1
line1
line2
line3

$cat file2
line0
line1
line3
line2
调用前面方法二的命令的时候，就会提示file2文件时无序的，输出的结果如下：

$ comm -3 file1 file2
line0
line2
comm: file 2 is not in sorted order
line2
如果使用--nocheck-order参数，不进行有序性检测，结果如下：

$ comm -3 --nocheck-order file1 file2
line0
line2

line2

从这个结果中我们可以看到，这还是不是我们真正想要的结果。这里可体现comm的另一个特征，就是逐行比较。它是对file1和file2进行逐行往下的比较，检测是否相同。所以，在用comm的时候，要根据具体的情况进行分析了。

方法三：使用awk
awk '{print NR, $0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'
或者：
awk '{print $0}' file1 file2 |sort|uniq -u
awk命令的使用，听牛人说可谓博大精深，我也没有太搞清楚。这里只是使用了一些简单的功能。下面以我自己的理解来解释一下上面的shell代码。awk就是文本的解释器和过滤器。awk把每一行看成是一个记录(record)，每个记录使用分隔符(默认是空格)把每条记录分成若干域。awk内置参数$0表示整行，$1、$2...分别表示各域，内置参数NR，表示记录的计数，awk '{print NR, $0}' file1 file2表示依次读取file1 file2，打印出每行，并且在前面添加行号。

命令sort，就是对行进行排序，参数-k表示根据各行的第几个参数关键字开进行排序，这里的-k2表示根据第二个关键字开始进行排序。

命令uniq，进行报告或者忽略重复的行，参数-u，表示只是打印出唯一的行(unique lines)，-f表示忽略的每行的前n个域的比较。

comm awk linux系统 grep uniq

gongxucheng

0 关注 0 粉丝 0 动态

相关推荐

python简单的分析文本

#正则去除非中英文字符，

zluxingzhe 2019-06-26

javascript 操作MSCOMM32串口通信

javascript直接操作MSCOMM32发数据只能发0到127，128到255不能发。所以要自己写一个activeX控件来进行数据转换。window.alert("成功发出命令！

vincent 2011-02-13

Oracle decode函数

decode函数在Oracle SQL查询语句中的使用非常广泛，也经常应用到PL/SQL语句块中。这个表达式个人理解，可以称之为decode的比较运算，可以对比 nvl()函数和 coalesce()函数。1，如果expr1 = expr2,decode函

lester 2018-08-31

Oracle COALESCE函数

Oracle COALESCE函数语法为COALESCE，n>=2,此表达式的功能为返回第一个不为空的表达式，如果都为空则返回空值。EMPNO ENAME COMM NEW_COMM---------- ------------

PoPoCandy 2013-03-09

Oracle 11g Release 1 (11.1) 函数为表的某个字段进行字母数字组

比如，若编码规则有前缀，则建立视图后，根据编码，可以知道该条记录来自于“哪里”。你也许会想，用编程语言一样能实现该功能，而且写起来还容易，那为什么还要用 Oracle 来写？把功能性的东西，用 Oracle 写好，函数也好，存储过程也好，再在应用程序创建

oracleerp 2012-06-24

Linux下comm命令行工具使用

第2列显示只包含在第二个文件b.txt中的。可以通过参数指定要显示的列如：。-12 表示不显示第1列和第2列，只显示第3列。-1 不显示第1列，显示第2，3 列。-13 不显示第1，3列，显示第2列

88520297 2008-02-02

ASP代码实现自动清除替换ACCESS(MDB)数据库的日文字符的

此时我们通常能想到的想法是找一个exe程序，把这个问题解决掉。我原来用C#写过这样一个类似的程序。后来某一天，我发现ASP就能实现。我当时真的觉得自己太屎了。不过ASP的这种方法很不好。容易造成系统崩溃。因为是遍历ACCESS只要指针移动到日文就溢出。ob

wangyihero 2008-06-12

在Linux下用Comm等系统命令来比较两个文件

　　这组命令可以用来比较两个文件内容的差别。　　语法：comm [- 123 ] file1 file2　　说明：该命令是对两个已经排好序的文件进行比较。如果文件名用“- ”，则表示从标准输入读取。　　选项1、2或3抑制相应的列显示。例如comm - 12

nklinux 2006-12-27

SQL中的SELECT 简单查询语句总结

--scott用户不能使用，使用system登录--修改用户scott账户解锁ALTER USER SCOTT ACCOUNT UNLOCK;--重新设置密码identified被识别的alter user scott identified by tige

BitTigerio 2018-01-11

gongxucheng

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号