Linux下删除大数据文件中部分字段重复的行

紫烟的嵌入式

2011-12-06

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield）

use dbname;

alter table tablename add rowid int auto_increment not null;

create table t select min(rowid) as rowid from tablename group by uniqfield;

create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;

drop table tablename;

rename table t2 to tablename;

table linux系统

紫烟的嵌入式

0 关注 0 粉丝 0 动态

相关推荐

MySQL用truncate命令快速清空一个数据库中的所有表

用文本编辑器把每条truncate语句前后的“|”替换为空字符，方便后面一次复制多条执行。truncate与drop是DDL语句，执行后无法回滚；delete是DML语句，可回滚。truncate会清空表中的所有行，但表结构及其约束、索引等保持不变；dro

世樹 4评论 2020-11-11

详解MySQL alter ignore 语法

今天上班的时候，业务方问了我这样一个问题：我有一个表，需要添加一个唯一的字段，但是目前这个字段存在一些重复值，有没有好的解决办法。于是我详细询问了一下他的需求，最终得知，这个过程中重复的数据只需要保存一条就可以了，可以容忍一部分数据丢失，而重复的字段恰好是

SCNUHB 2020-11-10

mysql实现从导出数据的sql文件中只导入指定的一个表

昨天系统自动备份了某一个数据库的全部表数据，名dbAll.sql.gz。今天因发现某一个表tableA的一条数据存在问题，需核对两条记录的变化。需从dbAll中找回tableA的数据，以便比较该记录。法3说明：将src_bake_db.sql.gz压缩文件

bleach00 11评论 2020-11-10

ThinkPHP5 链式操作table用法

table方法主要用于指定操作的数据表。用法一般情况下，操作模型的时候系统能够自动识别当前对应的数据表，所以，使用table方法的情况通常是为了：。需要注意的是table方法不会改变数据库的连接，所以你要确保当前连接的用户有权限操作相应的数据库和数据表。切

FellowYourHeart 2020-10-05

sql注入 --显错注入

jiong 2020-09-17

jQuery实现日历效果

jquery是用的是2.0版本。--基于W3C标准不用做任何修改-->. --设置初始化文档信息和文档管理标注-->. --整个页面编码 utf-8 国际编码通用性最强，GBK/gb2312 中文-->. .signincalenda

momode 5评论 2020-09-11

程序员你是怎么绘制架构图？

作为一个程序员，假如让你绘制当前正在开发的项目的架构图，你会怎么绘制？先来同步一个理念。一种架构设计的方法论，忽略不在同一个抽象成绩的细节，从而可以更好的表达和可视化。可以类比地图，地图分4个级别，国家，省，市，街道；而C4模型也分4个层级，Context

思君夜未眠 2020-09-04

python 生成并下载文件-后端

rv.headers[‘Content-Disposition‘] += "; filename*=utf-8‘‘{}".format

jessieHJ 2020-08-19

表格标签的使用

在HTML网页中，要想创建表格，就需要使用表格相关的标签。表格包含三对HTML标签，分别为<table></table>、<tr></tr>、<td></td>，他们是创建表格的基本标

行吟阁 2020-08-09

HTML5标签2

表格的现在还是较为常用的一种标签，但不是用来布局，常见处理、显示表格式数据。在HTML网页中，要想创建表格，就需要使用表格相关的标签。<table> <tr> <td>单元格内的文字</td> ...

gufudhn 2020-08-09

mysql数据库基础

mysql数据库基础问题1：有没有一个表存的是所有数据库的库名？库名 schema_name；库名 table_schema；表名table_name字段名column_name；columns表里面啥都有。

末点 2020-08-03

padans 关于数据处理的杂谈 -- 时序数

那么实现2.1、2.2，不过这样的瓶颈就是，如果有很多个字段，则会组合成很多张表。cp = df[‘产品‘].to_frame().drop_duplicates. 输出一张工作表即可。有时还需要处理成，具有环比、比年初、同比等值。则采取给源数据增加字段。

nimeijian 2020-07-30

Mysql入门 DML语句大全DML、DDL、DCL

Mysql 数据库语句 1、说明：创建数据库CREATE DATABASE database-name2、说明：删除数据库drop database dbname3、说明：备份sql server--- 创建备份数据的 deviceUSE masterE

好记忆也需烂 2020-07-28

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 2020-07-05

如何理解HTML语义化的？

通常由PHP后端来写HTML，但是他们并不会CSS，于是就用table来进行布局。但我们都知道，table其实是用来展示表格的，这一条就与语义化严重相悖。后来前端慢慢分离成一个单独的岗位，他们会使用DIV+CSS布局，并且主要利用float和绝对定位进行布

tianqi 2020-07-05

手把手教你怎么将linux的一个函数性能搞奔溃

static struct fib_table *fib_empty_table{ u32 id; for if return fib_new_table; return NULL;最近查一个问题，发现只要调用这个函数的时候，cp

onlykg 2020-07-04

vue iview table表格根据后端数据动态设置已选

先上需求，如图：主页是个子表，抽屉页是个父表，

cococai的 2020-07-04

hbase 建表数据类型

下面几个shell 命令在后续的hbase 操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列族单独启用。对ROW，行键的哈希在每次插入行

大而话之BigData 2020-06-16

紫烟的嵌入式

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号