MapReduce初探之一~~基于Mongodb实现标签统计

文刀乱谈

2013-03-06

MapReduce 是一种编程模型，是 Google 提出的一种软件架构，主要应用于分布式系统上。Google对其原始的定义是“ MapReduce is a framework for computing certain kinds of distributable problems using a large number of computers (nodes), collectively referred to as a cluster.”

可见MapReduce主要为集群分布式计算而诞生的，顶顶大名的分布式框架Hadoop就是MapReduce的一种实现。其中心思想是Map（映射）函数和Reduce（化简）函数，我的简单理解就是先将问题按照一定的规律，一一细分并映射到列表中，然后对那些列表进行适当的合并，从而得出想要的结果，大致的工作流见于下图：

MapReduce初探之一~~基于Mongodb实现标签统计

咋一看，怎么就是分布式计算的原理图解了？论道分布式计算，就扯远了，回到主题上，这次是讨论如何利用MapReduce的思想，实现Blog文章标签的统计！

按照传统的关系数据库设计，统计标签，无非就是建一张标签表，我们姑且叫左Tb_tags，大致的结构就是id和value，然后关联id到Blog表的外键上。恩，不差错。可是这次，NodeBlog的数据库用的可是Mongodb哦，难道照搬即可？

我们先看看在mongodb下，Blog表是如何描述的：

var BlogScheme = new db.Schema({
    title : String,
    desc : String,
    author : String,
    body : String,
    tags : [String],
    count: { type:Number, default:0 },
    hidden : { type: Boolean, default: false },
    date : { type: Date, default: Date.now },
    comments : [{ img: String, name: String, body: String, date: Date }],
    meta : {
        votes: Number,
        favs:  Number
    }
});

按照mongodb的设计，每篇Blog都是整篇存储的，与其它表基本没有关联，这也是NoSQL的精髓啊！但是这样子，我们该如何去统计Blog的标签tag呢？

办法有几个：1、遍历查询全部的Blog，取出Blog的实体，然后对其中的tags字段进行统计；（这个简单，绝对可行，只是效率就...）

2、对1中的方法采用多线程进行查询，然后同步共享的数据；（这个在实现与现今的硬件上，理论绝对比方法1高效，但是实现的难度，特别是数据的同步那块就...）

3、让MapReduce来帮帮忙吧！

MapReduce中，Map函数和Reduce函数是交给用户实现的，这两个函数定义了任务本身。

Map函数：接受一个键值对（key-value pair），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

对照我们的需求，统计Blog中的tags，那么Map函数应该处理的是：记录tag出现的次数，这个越小越好；然后Reduce函数对Map函数产生的数据进行合并，并返回单一的结果，即是某个tag出现的总次数！下面来一个实例说明：

/**
 * 统计Blog中标签出现的次数，采用MapReduce进行实时计算
 * @param callback --> result: _id(tag name), value(occupied count)
 */
exports.tagStatistical = function(callback){
    var o = {};
    o.map = function () {
        this.tags.forEach(function(z){  //z即是具体的某个tag了
            emit(z,1);                    //对某个tag出现一次就计数一次
        });
    }
    o.reduce = function (k, values) {
        var total=0;
        for(var i=0;i<values.length;i++){
            total += values[i];
        }
        return total;
    }
    Blog.mapReduce(o, function (err, results) {
        if(err) {
            console.log("mapReduce err:"+err);
        }
        console.log(results);
        callback(results);
    })
}

最后我们通过callback函数获得的result事实上就是（tag，count）的Map了，这是如何实现的？这点，就有赖于Mongodb的高级特性了，Mongodb对于 MapReduce 是骨子里支持的，因而这种运算的效率是有保障的！难怪Mongodb的掌门人叫嚣：不是Mongodb不行，是你们不懂Mongodb！

总结一下，尽管这篇Blog讲得有点乱，但是主要还是想讲清楚MapReduce的思想！ MapReduce的实现五花八门，但是其中心思想~map和reduce才是我们必须理解和掌握的！

本文由zhiweiofli编辑发布，转载请注明出处，点击，谢谢。

mongodb mapreduce string 分布式计算

安科网

MapReduce初探之一~~基于Mongodb实现标签统计

文刀乱谈

文刀乱谈

相关推荐

mongodb的java客户端

mongodb的java客户端

mongodb的java客户端

分布式文档存储数据库之MongoDB访问控制的操作方法

分布式文档存储数据库之MongoDB备份与恢复的实践详解

Pycharm连接MongoDB数据库安装教程详解

分布式文档存储数据库之MongoDB分片集群的问题

MongoDB数据库用户角色和权限管理详解

利用golang驱动操作MongoDB数据库的步骤

ubuntu安装mongodb创建账号和库及添加坐标索引的流程分析

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

SpringBoot+MongoDB实现物流订单系统的代码

MongoDb CPU利用率过高问题如何解决

flask_16：通过 MongoEngine 使用 MongoDB

MongoDB通配符索引的用法实例

MongoDB 用户管理

MongoDB如何查看版本信息详解

Centos7 yum安装mongodb实现步骤详解

Docker 搭建集群MongoDB的实现步骤

mongodb的聚合操作

文刀乱谈