详聊Google云计算的基础架构

爱尔兰咖啡

2010-03-22

GFS是 google自己设计的分布式文件系统，是大量安装有Linux操作系统的普通PC构成的集群系统。整个集群系统由一台Master(通常有几台备份)和若干台TrunkServer构成。GFS中文件备份成固定大小的Trunk分别存储在不同的TrunkServer上，每个Trunk有多份拷贝，也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata，即文件名及其Trunk信息。客户端先从Master上得到文件的Metadata，根据要读取的数据在文件中的位置与相应的 TrunkServer通信。本文介绍Google云计算的基础架构。

据介绍，google的每一份数据至少放在三个不同位置的机器上，所以可靠性是可以高度保证的；而且操作GFS和操作本地磁盘一样简单易行。

目前Google拥有超过200个的GFS集群，其中有些集群的计算机数量超过5000台。Google现在拥有数以万计的连接池从GFS集群中获取数据，集群的数据存储规模可以达到5个PB，并且集群中的数据读写吞吐量可达到每秒40G。

MapReduce是一个编程模式，它是与处理/产生海量数据集的实现相关。用户指定一个map函数，通过这个map函数处理key/value（键/值）对，并且产生一系列的中间key/value对，并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。MapReduce的主要贡献在于提供了一个简单强大的接口，通过这个接口，可以把大尺度的计算自动的并发和分布执行。

常见的应用例子：在很大的文档集合中通机每一个单词出现的次数.map函数检查每一个单词，并且对每一个单词增加1到其对应的计数器;reduce函数把特定单词的所有出现的次数进行合并。其他例子：

URL访问频率统计：map函数处理webpag请求和应答（URL，1）的log。Reduce函数把所有相同的URL的值合并，并且输出一个成对的（URL，总个数）。

逆向Web-Link，map函数输出所有包含指向target URL的source网页，用（target,source）这样的结构对输出。Reduce函数局和所有关联相同target URL的source列表，并且输出一个(target,list(source))这样的结构。

分布式排序：map函数从每条记录中抽取关键字，并且产生(key,record)对。reduce函数原样输出所有的关键字对。

BigTable：一种用于管理超大规模结构化数据的分布式存储系统，可以管理分布在数以千计服务器上的以PB计的数据。Bigtable API将包括用于创建、编辑表和列，改变群集、表、列元数据的函数。ＢＴ不支持完全的关系数据模型，而是为客户提供了简单的数据模型，让客户来动态控制数据的分布和格式。BT只能支持大部分SQL。

Google App Engine

Google App Engine是一个开发、托管网络应用程序的平台，使用Google管理的数据中心。它在2008年4月发布了第一个beta版本。Google App Engine使用了云计算技术,它跨越多个服务器和数据中心来虚拟化应用程序。当前，Google App Engine支持的编程语言是Python和Java. http://appengine.google.com

云计算架构 url

安科网

详聊Google云计算的基础架构

爱尔兰咖啡

爱尔兰咖啡

相关推荐

云计算之OpenStack入门专业术语解释

云计算视频教程：Linux大型网站高并发架构及自动化运维

云计算:自动化 Linux 云安装

云计算笔记和微服务

云计算怎么分布核算机群

剖析云计算技术及架构（2 云存储）

java工具箱

别样解释云计算，太TM天才跨界了

java发展方向和Google架构分析

Hadoop架构——云计算的具体实现

分析豌豆荚从自建机房迁移至AWS云计算的发展案例

为什么选择OpenStack？OpenStack云计算搭建方案解析

扣丁学堂盘点大数据云计算架构Hadoop、Spark和Storm三者技术趋势

程序员要不要为云计算后端安全漏洞“背锅”

做一个月薪3万的Linux云计算工程师的纠结与迷茫

无服务器：云计算下一步的演变

开源云计算OpenStack的2016年思考

云计算架构探索：分布式系统设计三忌

2013 年企业技术市场的预测:云计算还有哪些趋势?

PaaS仅是云计算的又一组四字经吗？

爱尔兰咖啡