MongoDB的mapreduce

lukcat

2013-02-06

转自：http://www.cnblogs.com/loogn/archive/2012/02/09/2344054.html

MapReduce应该算是MongoDB操作中比较复杂的了，自己开始理解的时候还是动了动脑子的，所以记录在此！

命令语法：详细看

db.runCommand(
 { mapreduce : 字符串，集合名,
   map : 函数,见下文
   reduce : 函数，见下文
   [, query : 文档，发往map函数前先给过渡文档]
   [, sort : 文档，发往map函数前先给文档排序]
   [, limit : 整数，发往map函数的文档数量上限]
   [, out : 字符串，统计结果保存的集合]
   [, keeptemp: 布尔值，链接关闭时临时结果集合是否保存]
   [, finalize : 函数，将reduce的结果送给这个函数，做最后的处理]
   [, scope : 文档,js代码中要用到的变量]
   [, jsMode : 布尔值，是否减少执行过程中BSON和JS的转换，默认true] //注：false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,<br>　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　//true时BSON-->js-->map-->reduce-->BSON
   [, verbose : 布尔值，是否产生更加详细的服务器日志，默认true]
 }
);

测试数据：

MongoDB的mapreduce

现在我要统计同一age的name,也就是像如下的结果：

{age:0,names:["name_6","name_12","name_18"]}
{age:1,names:["name_1","name_7","name_13","name_19"]}
......

第一步是写映射（Map）函数,可以简单的理解成分组吧~

var m=function(){
    emit(this.age,this.name);
}

emit的第一个参数是key，就是分组的依据，这是自然是age了，后一个是value，可以是要统计的数据，下面会说明，value可以是JSON对象。
这样m就会把送过来的数据根据key分组了，可以想象成如下结构：

第一组
{key:0,values: ["name_6","name_12","name_18"]

第二组
{key:1,values: ["name_1","name_7","name_13","name_19"]
......

组中的key其实就是age的值了，values是个数组，数组内的成员都有相同的age!!。

第二步就是简化了，编写reduce函数：

var r=function(key,values){
    var ret={age:key,names:values};
    return ret;
}

reduce函数会处理每一个分组，参数也正好是我们想像分组里的key和values。

这里reduce函数只是简单的把key和values包装了一下，因为不用怎么处理就是我们想要的结果了，然后返回一个对象。对象结构正好和我们想象的相符！：

{age:对应的age，names:[名字1，名字2..]}

最后，还可以编写finalize函数对reduce的返回值做最后处理：

var f=function(key,rval){
    if(key==0){
        rval.msg="a new life,baby!";
    }
    return rval
}

这里的key还是上面的key，也就是还是age,rval是reduce的返回值，所以rval的一个实例如：{age:0,names:["name_6","name_12","name_18"]},

这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性，显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛！！

这里其他的选项就不说了，一看就知道。

运行：

db.runCommand({
    mapreduce:"t",
    map:m,
    reduce:r,
    finalize:f,
    out:"t_age_names"
    }
)

MongoDB的mapreduce

结果导入到 t_age_names 集合中，查询出来正是我想要的结果，看一下文档的结构，不难发现，_id 就是 key，value 就是处理后的返回值。

mongodb

lukcat

0 关注 0 粉丝 0 动态

关注关注

分布式文档存储数据库之MongoDB访问控制的操作方法

　　什么是访问控制？

fengzhongdengdai 13评论 2020-11-17

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

Pycharm连接MongoDB数据库安装教程详解

BigYellow 5评论 2020-11-16

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

MongoDB数据库用户角色和权限管理详解

使用终端命令行输入 mongo 登陆 mongodb 之后切换到 admin 库，并认证后可查看所有数据库，操作如下所示：。Implicit session: session { "id" : UUID }. 说明：1 表示认证成功，0

我心似明月 5评论 2020-11-09

利用golang驱动操作MongoDB数据库的步骤

MongoDB中的JSON文档以称为BSON的二进制表示形式存储。与其他将JSON数据存储为简单字符串和数字的数据库不同，BSON编码扩展了JSON表示形式，例如int，long，date，float point和decimal128。这使应用程序更容易可

zhushenghan 5评论 2020-11-09

ubuntu安装mongodb创建账号和库及添加坐标索引的流程分析

... roles: [ { role: "readWrite", db: "lbs" },　　4.3移除数据库和日志文件

sunnnyduan 5评论 2020-10-16

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 5评论 2020-10-14

SpringBoot+MongoDB实现物流订单系统的代码

我们都知道MongoDB是一款非常出色的非关系型文档数据库，你肯定会想问MongoDB这么强，我们该怎么用或者有啥运用场景呢？MongoDB的应用场景非常多，无论是数据存储还是日志存储越来越多的公司在使用MongoDB，而我们今天也在SpringBoot基

xiaohai 5评论 2020-09-29

MongoDb CPU利用率过高问题如何解决

在公司的项目中，突然出现过一个情况，mongodb 的CPU利用率到达100%,导致服务器这边卡死了，请求了半天无响应，提示请求超时。因为，当时APP用户可能会在某一个时间段集中的使用，所以，请求量一下子就飙上去了，刚好APP打开请求的时候，有一个mong

songxiugongwang 5评论 2020-09-22

flask_16：通过 MongoEngine 使用 MongoDB

使用一个 MongoDB 之类的文档型数据库来代替关系 SQL 数据是很常见的。本方案演示如何使用文档映射库MongoEngine来集成 MongoDB 。基本的配置是在app.config中定义MONGODB_SETTINGS并创建一个MongoEng

萌亖 5评论 2020-09-17

MongoDB通配符索引的用法实例

MongoDB在4.2 版本推出了Wildcard Indexes，究竟什么是Wildcard Indexes以及Wildcard Indexes适合哪些场景本文结合官方文档以及实际测试进行简单概述。因为MongoDB是dynamic schemas，所以

LuckyLXG 5评论 2020-09-08

MongoDB 用户管理

小小最近接触了MongoDB，所以这里开始学习MongoDB，之用户管理模块的相关内容。使用如上的命令，切换数据库到admin数据库。cusomData 字段，任意内容，可以是用户名的全民介绍。roles 字段指定用户的角色，用于给一个空数组，给新用户设

sdmzhu 5评论 2020-09-01

MongoDB如何查看版本信息详解

它处理数据请求，管理数据存储，和执行后台管理操作。当我们运行mongod命令意味着正在启动MongoDB进程,并且在后台运行。mongo是一个命令行工具用于连接一个特定的mongod实例。当我们没有带参数运行mongo命令它将使用默认的端口号和localh

mkhhxxttxs 5评论 2020-09-16

Centos7 yum安装mongodb实现步骤详解

复制和高可用性：支持服务器之间的数据复制，支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移。#这里可以修改 gpgcheck=0, 省去gpg验证[root@localhost ~]# yum makecache. system

xiaohai 5评论 2020-09-16

Docker 搭建集群MongoDB的实现步骤

由于公司业务需要，我们打算自己搭建 MongoDB 的服务，因为 MongoDB 的云数据库好贵，我们这次采用副本集的方式来搭建集群，三台服务器，一主、一副、一仲裁。Replica Set 副本集：一个副本集就是一组 MongoDB 实例组成的集群，由一个

newcome 5评论 2020-09-09

mongodb的聚合操作

聚合是MongoDB的高级查询语言，它允许我们通过转化合并由多个文档的数据来生成新的在单个文档里不存在的文档信息。MongoDB中聚合主要用于处理数据，并返回计算后的数据结果，有点类似sql语句中的 count(*)。Pipeline查询速度快于MapRe

jaylong 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

大秦铁骑 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

thatway 5评论 2020-08-19

mongodb的java客户端

<artifactId>spring-boot-starter-data-mongodb</artifactId>. private Long id;private String userName;private String pa

lovecodeblog 2评论 2020-08-19

安科网

MongoDB的mapreduce

lukcat

lukcat

相关推荐

分布式文档存储数据库之MongoDB访问控制的操作方法

分布式文档存储数据库之MongoDB备份与恢复的实践详解

Pycharm连接MongoDB数据库安装教程详解

分布式文档存储数据库之MongoDB分片集群的问题

MongoDB数据库用户角色和权限管理详解

利用golang驱动操作MongoDB数据库的步骤

ubuntu安装mongodb创建账号和库及添加坐标索引的流程分析

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

SpringBoot+MongoDB实现物流订单系统的代码

MongoDb CPU利用率过高问题如何解决

flask_16：通过 MongoEngine 使用 MongoDB

MongoDB通配符索引的用法实例

MongoDB 用户管理

MongoDB如何查看版本信息详解

Centos7 yum安装mongodb实现步骤详解

Docker 搭建集群MongoDB的实现步骤

mongodb的聚合操作

mongodb的java客户端

mongodb的java客户端

mongodb的java客户端

lukcat