hive数据库如何去重,去除相同的一模一样的数据

问题:发现存在一张表中存在相同的两行数据

得到:仅仅保留一行数据

方法:

原理-我们通过

select count (字段1,字段2) from 表1;

结果 200条数据

select count (distinct 字段1,字段2) from 表1;

结果 100条数据

相当于后者可以实现查出来去重后的数据

create table 表1_bak as select distinct 字段1,字段2 from 表1;   --备份表数据

delete from 表1;

insert into 表1 select * from 表1_bak;

相关推荐