用大白话告诉你：什么是分布式计算系统？（附有全套教程分享哦）

middleware0

2019-04-23

关注关注

（1）从一个新闻门户网站案例引入

现在很多同学经常会看到一些名词，比如分布式服务框架，分布式系统，分布式存储系统，分布式消息系统。

但是有些经验尚浅的同学，可能都很容易被这些名词给搞晕。所以这篇文章就对“分布式计算系统”这个概念做一个科普类的分析。

如果你要理解啥是分布式计算，就必须先得理解啥是分布式存储，现在我们从一个小例子来引入。

比如说现在你有一个网站，咱们假设是一个新闻门户网站好了。每天是不是会有可能上千万用户会涌入进来看你的新闻？

好的，那么他们会怎么看新闻呢？

其实很简单，首先他们会点击一些板块，比如“体育板块”，“娱乐板块”。

然后，点击一些新闻标题，比如“20年来最刺激的一场比赛即将拉开帷幕”，接着还可能会发表一些评论，或者点击对某个好的新闻进行收藏。

那么你的这些用户干的这些事儿有一个专业的名词，叫做“用户行为”。

因为在你的网站或者APP上，用户一定会进行各种操作，点击各种按钮，发表一些信息，这些都是各种行为，统称为“用户行为”。

好了，现在假如说新闻门户网站的boss说想要做一个功能，在网站里每天做一个排行榜，统计出来每天每个版块被点击的次数，包括最热门的一些新闻。

然后呢，在网站后台系统里需要有一些报表，要让他看到不同的编辑产出的文章的点击量汇总，做一个编辑的绩效排名，还有很多类似的事情。

这些事情叫什么呢？你可以认为是基于用户行为数据进行分析和统计，产出各种各样的数据统计分析报表和结果，供网站的用户、管理人员来查看。

这也有一个专业的名词，叫做“用户行为分析”。

（2）推算一下你需要分析多少条数据？

好，咱么继续。如果你要对用户行为进行分析，那你是不是首先需要收集这些用户行为的数据？

比如说有个哥儿们现在点了一下“体育”板块，你需要在网页前端或者是APP上立马发送一条日志到后台，记录清楚“id为117的用户点击了一下id为003的板块”。

同样，这个东西也有一个专业的名词，叫做“用户行为日志”。

那你可以来计算一下，这些用户行为如果采用日志的方式收集，每天大概会产生多少条数据？

假设每天1000万人访问你的新闻网站，平均每个人做出30个点击、评论以及收藏等行为，那么就是3亿条用户行为日志。

假设每条用户行为日志的大小是100个字节，因为可能包含了很多很多的字段，比如他是在网页点击的，还是在手机APP上点击的，手机APP是用的什么操作系统，android还是IOS，类似这样的字段是很多的。

那么你就有每天大概28GB左右的数据，这里一共包含3亿条。

假如对这3亿条数据，你就自己写个Java程序，从一个超大的28GB的大日志文件里，一条一条读取日志来统计分析和计算，一直到把3亿条数据都计算完毕，你觉得会花费多少时间？

不可想象，根据你的计算逻辑复杂度来说，搞不好要花费几十个小时的时间。

所以你觉得这种大数据场景下的分析，这么玩儿靠谱么？不靠谱。

（3）黄金搭档：分布式存储+分布式计算

所以这个时候，你就可以首先采用分布式存储的方式，把那3亿条数据分散存放在比如30台机器上，每台机器大概就放1000万条数据，大概就1GB的数据量。

大家看看下面的图：

用大白话告诉你：什么是分布式计算系统？（附有全套教程分享哦）

接着你就可以上分布式计算了，你可以把统计分析数据的计算任务，拆分成30个计算任务，每个计算任务都分发到一台机器上去运行。

也就是说，就专门针对机器本地的1GB数据，那1000万条数据进行分析和计算。

这样的好处就是可以依托30台机器的资源并行的进行数据的统计和分析，这也就是所谓的分布式计算了。

每台机器的计算结果出来之后，就可以进行综合性的汇总，然后就可以拿到最终的一个分析结果，大家看下图。

用大白话告诉你：什么是分布式计算系统？（附有全套教程分享哦）

假设之前你的3亿条数据都在一个30GB的大文件里，然后你一个Java程序一条一条慢慢读慢慢计算，需要耗费30小时。

那么现在把计算任务并行到了30台机器上去，就可以提升30倍的计算速度，是不是就只需要1小时就可以完成计算了？

所以这个就是所谓的分布式计算，他一般是针对超大数据集，也就是现在很流行的大数据进行计算的。

首先需要将超大数据集拆分成很多数据块分散在多台机器上，然后把计算任务分发到各个机器上去，利用多台机器的CPU、内存等计算资源来进行计算。

这种分布式计算的方式，对于超大数据集的计算可以提升几十倍甚至几百倍的效率，其实这个理论和概念，也是大数据技术的基础。

比如现在最流行的大数据技术栈里，Hadoop HDFS就是用做分布式存储的，他可以把一个超大文件拆分为很多小的数据块放在很多机器上。

而像Spark就是分布式计算系统，他可以把计算任务分发到各个机器上，对各个数据块进行并行计算。

以上就是用大白话+画图，给小白同学们科普了一下分布式计算系统的相关知识，相信大家看了之后，对分布式计算系统，应该有一个初步的认识了。

写在最后：柠檬为大家准备了一些适合于1－5年以上开发经验的java程序员面试涉及到的绝大部分面试题及答案做成了文档和学习笔记文件以及架构视频资料免费分享给大家（包括Dubbo、Redis、Netty、zookeeper、Spring cloud、分布式、高并发等架构技术资料），希望可以帮助到大家。

用大白话告诉你：什么是分布式计算系统？（附有全套教程分享哦）

获取方式：请大家关注并私信小编关键词：“资料”即可获取你需要的各类资料。

分布式计算用户行为

middleware0

0 关注 0 粉丝 0 动态

关注关注

云计算

Saas：软件即服务：通过互联网提供按需软件付费应用程序，云计算提供商托管和管理软件应用程序，并允许其用户连接到应用程序并通过全球互联网访问应用程序 ?

Zjzk 2020-08-02

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

redis分布式和mysql分布式/集群

目前的项目很少会采用单机架构了，一是因为单机性能有限，二是因为单机服务一旦故障整个系统就无法继续提供服务了。分布式数据库是在集中式数据库的基础上发展起来的，是计算机技术和网络技术结合的产物。分布式数据库是指数据在物理上分布而逻辑上集中管理的数据库系统。

枫叶上的雨露 2020-04-18

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

Hive Hbase区别转载整理

Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapRe

QAnyang 2014-06-17

初识Hadoop

Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务，如搜索引擎、日志分析、商业智能、数据挖掘

strongyoung 2019-12-16

计算机中间件市场前瞻分析

2018 年全球中间件市场规模可达 320 亿美元，并将持续增长。国产中间件厂商在金融、电信和政府的替代空间高达 57.4 亿元。我们假设中国中间件市场行业结构短期内不发生改变，则 2023 年中国中间件市场中，政府行业为 25 亿元，金融行业为22亿

千寻之寻 2019-11-27

云计算发展的隐藏着哪些问题

云计算是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。现阶段的云计算通过不断进步，已经不单单是一种分布式计算，而是分布式计算、效用计算、负载均衡、

loviezhang 2019-11-12

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

本文介绍 SequoiaDB和 Spark两款产品的对接使用，以及在海量数据场景下如何提高统计分析性能。01 SequoiaDB 与 SparkSQL 介绍SequoiaDB 是一款开源的金融级分布式关系型数据库，支持标准 SQL 和事务功能，支持复杂索引

憧憬 2019-10-31

【计算机】【新兴技术】【区块链技术】区块链技术简介

　　　　P2P 下载： +CDN ： +分布式计算：。　　　　1999年，Shawn Fanning创立了一个叫Napster的mp3音乐分享网站，他也是Facebook最早的顾问、投资人和股东之一。　　　　　　Napster本身并不拥有MP3，它可以找到

开发之路 2019-10-29

[转]20分钟看懂大数据分布式计算

大数据技术虽然包含存储、计算和分析等一系列庞杂的技术，但分布式计算一直是其核心，想要了解大数据技术，不妨从MapReduce分布式计算模型开始。该理论模型并不是什么新理念，早在2004年就被Google发布，经过十多年的发展，俨然已经成为了当前大数据生态的

zhangll00 2019-10-24

Hadoop ，storm，spark 的特点

大数据中的数据量非常巨大，达到了PB级别。这使得大数据的存储，管理和处理很难利用传统的关系型数据库去完成。在大数据之中，有价值的信息往往深藏其中。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。语义引擎是机器学习的成果之一。数据

luokingfly 2017-02-13

分布式计算鼻祖BOINC：你的电脑也能和外星文明接触

可曾想象，有一天，在你屋脚处沉默的那台个人电脑，或许可以找到地外文明存在的证据？这样地外讯息跨时空的“第五类接触”不是科幻，来源于可操作的现实。时间回拨1995年，时任美国UC伯克利大学助理教授David Anderson未曾想，他发起的SETI@home

xayddxjsjxywuhui 2019-09-19

高可用高并发的 9 种技术架构

在网站的分层架构中，常见的为3层，即应用层、服务层、数据层。应用层具体负责业务和视图的展示；服务层为应用层提供服务支持；数据库提供数据存储访问服务，如数据库、缓存、文件、搜索引擎等。所以虽然分层架构模式最初的目的是规划软件清晰的逻辑结构以便于开发维护，但在

xinxuan 2018-10-25

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

为了解决分布式数据库下，复杂的sql难以实现的问题；在有了一些分布式数据库和hadoop实际应用经验的基础上,对比两者的优点和不足,加上自己的一些提炼和思考,设计了一套综合两者的系统,利用两者的优点,补充两者的不足,具体的说,使用数据库水平分割的思想实现数

MrIronHand 2017-06-13

Hadoop理解

作为分布式系统而言，有两个重要内容：分布式存储和分布式计算。分布式存储的原理：将一个大文件划分成若干部分，存储到不同的节点上。好处：1）由于有副本存储，某个节点的down机不会影响到整个集群的使用，数据还是可以保证完整性的；2）大文件划分小文件存储，这样便

MichaelHsu 2015-12-25

专访QQ大数据团队，谈分布式计算系统开发

DataCastle 2014-07-14

hadoop的含义以及常用的一些项目以及核心

分布式计算的目的：节省计算时间，提高计算效率。利用延伸框架进行操作，避免大量的底层代码。namenode负责：接收用户的请求，维护文件系统的目录结构，称为命名空间。TskTracker负责：执行JobTracker分配的任务

hweiyi 2017-08-03

Hadoop ，storm，spark 的特点

xiyf0 2017-02-13

云计算，分布式计算，网格计算，并行计算

现在把早上看到的云计算和分布式计算，网格计算，并行计算的概念对比分析一下。其实是要了解云计算，但是这几个名字叫得容易把问题搞混。并行计算或称平行计算是相对于串行计算来说的；所谓并行计算可分为时间上的并行和空间上的并行。从程序和算法设计人员的角度来看，并行

fuel 2013-03-19

安科网

用大白话告诉你：什么是分布式计算系统？（附有全套教程分享哦）

middleware0

获取方式：请大家关注并私信小编关键词：“资料”即可获取你需要的各类资料。

middleware0

相关推荐

云计算

分布式计算框架——MapReduce

redis分布式和mysql分布式/集群

MapReduce(分布式计算)_01

Hive Hbase区别转载整理

初识Hadoop

计算机中间件市场前瞻分析

云计算发展的隐藏着哪些问题

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

【计算机】【新兴技术】【区块链技术】区块链技术简介

[转]20分钟看懂大数据分布式计算

Hadoop ，storm，spark 的特点

分布式计算鼻祖BOINC：你的电脑也能和外星文明接触

高可用高并发的 9 种技术架构

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

Hadoop理解

专访QQ大数据团队，谈分布式计算系统开发

hadoop的含义以及常用的一些项目以及核心

Hadoop ，storm，spark 的特点

云计算，分布式计算，网格计算，并行计算

middleware0