Linux实现文件内容去重及求交并差集

eastnow

2020-08-15

关注关注

一、数据去重

日常工作中，使用Hive或者Impala查询导出来可能会存在数据重复的现象，但又不想重新执行一遍查询（查询时间稍长，导出文件内容多），因此想到了使用Linux命令将文件的内容重复数据进行去除。

案例如下：

可以看到aaa.txx有3条重复数据

Linux实现文件内容去重及求交并差集

想去掉多余的数据，只保留一条

sort aaa.txt | uniq > bbb.txt

将aaa.txt文件中重复数据去掉，输出到bbb.txt

Linux实现文件内容去重及求交并差集

可以看到bbb.txt文件中只保留了一条数据

二、数据交、并、差

1)、交集(相当于user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2)、并集(相当于 user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3)、差集

user_2019.txt-user_2020.txt
sort user_2019.txt user_2020.txt user_2020.txt | uniq -u
user_2020.txt - user_2019.txt:
sort user_2020.txt user_2019.txt user_2019.txt | uniq -u

linux系统 uniq

eastnow

0 关注 0 粉丝 0 动态

关注关注

如何对Linux ps命令输出进行排序

ps命令是理解Linux系统上运行的内容和每个进程使用的资源的关键。了解如何显示ps以任何方式提供的信息都是非常有用的，这些信息可以帮助您集中精力解决您要解决的问题。这样做的一个方面是能够按任何列对ps aux命令的输出进行排序，以突出显示特定的信息，例如

farwang 2020-11-25

如何在Fedora中安装VirtualBox

如果你对 Fedora Linux 感兴趣，这有几种方式可以尝试它。最简单还不影响你操作系统的方式是制作 Fedora 的 USB 临场启动盘。在 Linux 发行版的使用方式上，有一种可以无需安装而通过光盘或 USB 存储棒直接在计算机上启动完整的 Li

星愿心愿 2020-11-24

一篇带给你Linux磁盘管理和Shell编程

Linux磁盘管理常用三个命令为df、du和fdisk。列出文件系统的磁盘使用状况 - 「df」。磁盘分区表操作 - 「fdisk」。磁盘分区工具 - 「parted」。-c - 创建文件系统时检查磁盘损坏情况。-v - 显示详细信息。Shell脚本是一种

tianhuak 2020-11-24

Linux日志文件系统原来是这样工作的

文件系统要解决的一个关键问题是怎样防止掉电或系统崩溃造成数据损坏，在此类意外事件中，导致文件系统损坏的根本原因在于写文件不是原子操作，因为写文件涉及的不仅仅是用户数据，还涉及元数据包括 Superblock、inode bitmap、inode、data

zhjn0 2020-11-24

Linux环境变量配置全攻略

在自定义安装软件的时候，经常需要配置环境变量，下面列举出各种对环境变量的配置方法。export命令显示当前系统定义的所有环境变量。这两个命令执行的效果如下。使用export命令直接修改PATH的值，配置MySQL进入环境变量的方法:. 配置的环境变量中不要

昭君出塞 2020-11-23

自动解锁Linux上的加密磁盘

通过使用网络绑定磁盘加密，无需手动输入密码即可打开加密磁盘。从安全的角度来看，对敏感数据进行加密以保护其免受窥探和黑客的攻击是很重要的。要使用 LUKS 配置加密磁盘或分区，你需要使用cryptsetup工具。然而，网络绑定磁盘加密Network-Boun

bluecarrot 2020-11-23

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

liuchen0 2020-11-13

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

LUOPING0 2020-11-11

linux自动化交互脚本expect详解

expect脚本是Tcl脚本语言的拓展。用来实现自动的交互式任务，无需人为干预。在实际开发中，运行shell脚本有时候会输入linux密码或者是mysql密码等，而expect可以帮我们输入。timeout：timeout是expect脚本的内部变量，我们

linuxwcj 2020-10-21

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

Linux Shell脚本中获取本机ip地址方法

ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v inet6|awk '{print $2}'|tr -d "addr:". 假设某个机器有192.*.*.8和10.*.*.*网段的IP，现

彼岸随笔 2020-10-20

Linux 中shell脚本设置开头固定格式的实现方法

每次进入shell都要设置开头，很麻烦，现修改vim配置文件即可。之后新建一个shell ，开头就会有固定的格式。这是在root用户下的配置，切换到用户使用shell 可能还是什么都没有，不过一般都是用root用户进行机器的管理。不加sudo 没有权限进入

yutou0 2020-10-17

浅析Linux之bash反弹shell原理

反弹shell往往是在攻击者无法直接连接受害者的情况下进行的操作，原因有很多，例如目标是局域网，或者开启防火墙的某些策略等情况，而这时，我们就可以让受害者主动向攻击者发起连接，被控端发起请求到控制端某端口，并将其命令行的输入输出转到控制端，从而实现交互。L

applecarelte 2020-10-16

linux反弹shell的原理详解

0代表输入，0>&1 意思是，将输出的窗口上所输入的值当作当前窗口的输入。反弹shell后会有两个窗口，即靶机的shell窗口跟攻击机的shell口。2代表标准错误输出。这是因为我们已经将所有的输出都重定向到了外部主机上，但问题是现在我们的

ourtimes 2020-10-16

Linux 通过 autojump 命令减少 cd 命令的使用的实现方法

Linux - 通过 autojump 命令减少 cd 命令的使用。在文件的最后追加一行。这行代码在你安装的时候，软件会提示你的，你复制上去就行。路径前面的数字，就是这个路径的权重值，权重值高的，如果找到多个时，优先进去。通过 j s 简写就可以快速进

waterhorse 2020-09-19

Linux下redis5.0.5的安装过程与配置方法

先将 redis-5.0.5 里的配置文件 redis.conf 移动到刚创建的 config 文件夹。注释掉 bind 127.0.0.1 这一行。将 protected-mode 属性改为 no

MRFENGG 2020-11-11

Redis概述及linux安装redis的详细教程

性能极高，Redis能读的速度是110000次/s,写的速度是81000次/s 。Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set

rainandtear 2020-10-30

linux 常见的标识与Redis数据库详解

第一个 xxx 只的是用户名。第二个 xxx 代表的是 HOST主机。查看当前命令所在的位置。drwxr-xr-x 2 xxx xxx 4096 9月 1 18:37 公共的。第一列由10个字符组成，由 0-9 标识每一个字符。7-9: 其他用户所对应的

kyssfanhui 2020-10-20

Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解

之前写过 CentOS 安装 PHP，MySQL，Nginx 的相关文章，具体介绍这里就不写了，直接上操作步骤.nginx rewrite依赖于PCRE库，所以在安装Tengine前一定要先安装PCRE，最新版本的PCRE可在官网获取。安装OpenSSL

liuhangtiant 2020-10-20

linux mint下安装phpstorm2020包括JDK部分的教程详解

环境：linux mint 20,一切都是最新的版本。都知道，PHPSTORM破解和运行都是离不开JDK/JRE的。接下来，放心大胆的去官网下载phpstorm。解压到你想要的地方。现在可以愉快的使用ps了。

lonesomer 2020-09-17

安科网

Linux实现文件内容去重及求交并差集

eastnow

eastnow

相关推荐

如何对Linux ps命令输出进行排序

如何在Fedora中安装VirtualBox

一篇带给你Linux磁盘管理和Shell编程

Linux日志文件系统原来是这样工作的

Linux环境变量配置全攻略

自动解锁Linux上的加密磁盘

Linux安装Nginx步骤详解

Linux安装Nginx步骤详解

linux自动化交互脚本expect详解

Linux Shell 如何获取参数的方法

Linux Shell脚本中获取本机ip地址方法

Linux 中shell脚本设置开头固定格式的实现方法

浅析Linux之bash反弹shell原理

linux反弹shell的原理详解

Linux 通过 autojump 命令减少 cd 命令的使用的实现方法

Linux下redis5.0.5的安装过程与配置方法

Redis概述及linux安装redis的详细教程

linux 常见的标识与Redis数据库详解

Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解

linux mint下安装phpstorm2020包括JDK部分的教程详解

eastnow