MongoDB Oplog深入理解
Oplog 概念
Oplog 是用于存储 MongoDB 数据库所有数据的操作记录的(实际只记录增删改和一些系统命令操作,查是不会记录的),有点类似于 mysql 的 binlog 日志。
Oplog 的存在极大地方便了 MongoDB 副本集的各节点的数据同步,MongoDB 的主节点接收请求操作,然后在 Oplog 中记录操作,次节点异步地复制并应用这些操作。
Oplog 的默认储存大小
对于 unix 系统和 windows 系统
Storage Engine | Default Oplog Size | Lower Bound | Upper Bound |
---|---|---|---|
In-Memory Storage Engine | 5% of physical memory | 50 MB | 50 GB |
WiredTiger Storage Engine | 5% of free disk space | 990 MB | 50 GB |
MMAPv1 Storage Engine | 5% of free disk space | 990 MB | 50 GB |
Oplog 存储在 local 库的 oplog.rs 集合里面。对于一般的线上环境来说,默认的 Oplog 值就已经足够了。当达到储存大小的日志时,新的记录会将老的记录覆盖。
但是我们系统中如果存在以下操作的话,那么我们就可能需要设置更大的 Oplog 值来避免数据的丢失(在副本集中数据同步过程):
- 一次更新多个文件
- 删除与插入同样数量的数据
- 大量地更新现有的数据
从MongoDB 4.0开始, Oplog 可以超过其配置的大小限制,以避免删除
一旦mongod第一次创建了 Oplog ,更改
--oplogSize
选项将不会影响 Oplog 的大小。replSetResizeOplog使您可以动态调整 Oplog 的大小,而无需重新启动该mongod
过程。
oplog 中每个操作都是 幂等性 的,也就是说,无论是对目标数据库应用一次还是多次,oplog操作都会产生相同的结果。这样就保证了数据的一致性。
Oplog 常用命令
查看 Oplog 的状态:rs.printReplicationInfo()
fymongodb:PRIMARY> rs.printReplicationInfo() configured oplog size: 15000MB log length start to end: 7437secs (2.07hrs) oplog first event time: Thu Apr 11 2019 09:40:31 GMT+0800 (CST) oplog last event time: Thu Apr 11 2019 11:44:28 GMT+0800 (CST) now: Thu Apr 11 2019 11:44:35 GMT+0800 (CST)
如何查看当前的 Oplog 存储设置的大小:db.oplog.rs.stats().maxSize
fymongodb:PRIMARY> use local fymongodb:PRIMARY> db.oplog.rs.stats().maxSize NumberLong("15728640000")
查看 Oplog 最大大小和现在占用的大小,以及记录时长和时间 :db.getReplicationInfo()
fymongodb:PRIMARY> db.getReplicationInfo() { "logSizeMB" : 15000, "usedMB" : 0.09, "timeDiff" : 7797, "timeDiffHours" : 2.17, "tFirst" : "Thu Apr 11 2019 09:40:31 GMT+0800 (CST)", "tLast" : "Thu Apr 11 2019 11:50:28 GMT+0800 (CST)", "now" : "Thu Apr 11 2019 11:50:29 GMT+0800 (CST)" }
更改副本集成员的 Oplog 大小,更改的值要大于等于990MB,这里设置为1500MB : db.adminCommand({replSetResizeOplog: 1, size: 15000})
fymongodb:PRIMARY> db.adminCommand({replSetResizeOplog: 1, size: 15000}) { "ok" : 1, "operationTime" : Timestamp(1554953918, 1), "$clusterTime" : { "clusterTime" : Timestamp(1554953918, 1), "signature" : { "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="), "keyId" : NumberLong(0) } } }
# 如果我们通过上面命令更改了 Oplog 的大小,系统是不会自动回收原始分配给 Oplog 的磁盘空间,我们需要使用 compact 来回收,在操作 compact 命令时,副本集成员是无法进行同步数据的。建议在进行回收的时候,不要对数据库进行写入,我们可以通过 rs.stepDown() 来关闭所有打开的连接。 use local db.runCommand({ "compact" : "oplog.rs" }) # 执行报错的话 :"will not run compact on an active replica set primary as this is a slow blocking operation. use force:true to force" db.runCommand({ "compact" : "oplog.rs" ,"force":true})
Oplog 日志 解析
Oplog 的值是储存在 local 库下的 集合 oplog.rs 里的。我们可以分析其中的一条日志,看到到底记录了写什么。