分布式key-value存储方案介绍:Cassandra,LightCloud,TokyoCabinet
Cassandra是一个非常可靠的大规模分布式存储系统。高度可伸缩的、一致的、分布式的结构化key-value存储方案,Facebook目前在使用此系统。
开发语言:Java
授权协议:ApacheLicense2.0
项目主页:http://incubator.apache.org/cassandra/
文档地址:http://wiki.apache.org/cassandra/GettingStarted
下载地址:http://hudson.zones.apache.org/hudson/job/Cassandra/lastSuccessfulBuild/artifact/cassandra/build/
Cassandra项目是Facebook在2008年开源出来的,随后Facebook自己使用Cassandra的另外一个不开源的分支,而开源出来的Cassandra主要被Amazon的Dynamite团队来维护,并且Cassandra被认为是Dynamite2.0版本。目前除了Facebook之外,twitter和digg.com都在使用Cassandra。Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra群集来说,扩展性能是比较简单的事情,只管在群集里面添加节点就可以了。我看到有文章说Facebook的Cassandra群集有超过100台服务器构成的数据库群集。Cassandra也支持比较丰富的数据结构和功能强大的查询语言,和MongoDB比较类似,查询功能比MongoDB稍弱一些,twitter的平台架构部门领导EvanWeaver写了一篇文章介绍Cassandra:http://blog.evanweaver.com/articles/2009/07/06/up-and-running-with-cassandra/,有非常详细的介绍。Cassandra以单个节点来衡量,其节点的并发读写性能不是特别好,有文章说评测下来Cassandra每秒大约不到1万次读写请求,我也看到一些对这个问题进行质疑的评论,但是评价Cassandra单个节点的性能是没有意义的,真实的分布式数据库访问系统必然是n多个节点构成的系统,其并发性能取决于整个系统的节点数量,路由效率,而不仅仅是单节点的并发负载能力。
http://www.oschina.net/p/lightcloudPlurk前陣子放出LightCloud,試著解決Amazon所提出的Dynamo用某些複雜方法解決問題。比起Dynamo的優點是:
•使用TokyoCabinet當底層,這是目前最快的key-valuedatabase之一,而且檔案也小。
•因為使用TokyoCabinet,所以可以用他的master-masterreplication取代Dynamo內的replication,也就是固定以n=2解決問題,以node本身的HA架構解決Dynamo裡面的consistent問題。(在Dynamo裡透過很多方法解決,變成eventallyconsistent)
•增加機器造成資料需要移動的問題是把hashring拆成兩個,一個lookupring,另外一個storagering,用兩次query解決。這個部份我看不懂他的解法,還要再找資料看他怎麼解的。
這個架構如果可行(要看他解決routingproblem的解法是否可以達到scalability特性),那麼就有很多有趣的應用可以在這個架構上跑。(直接當filesystem來放資料)
开发语言:C/C++PythonLua
操作系统:Linux
项目主页:http://opensource.plurk.com/LightCloud/
http://www.162cm.com/archives/681.htmlTokyoCabinet的作者叫MikioHirabayashi.用师兄覃健祥的话说,作者很猛很持久.这不,作者出了一个QDBM(类似gdbm,ndbm,sdbm,mdbm的一个dbm),estraier,Hyperestraier(前面介绍过,是一个支持中文等东亚文字,可以p2p架构的搜索引擎实现)等一系列c软件,现在又出了一个:TokyoCabinet.
TokyoCabinet项目主页:http://tokyocabinet.sourceforge.net/
简介(翻译成中文了)
TokyoCabinet是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。当做为Hash表数据库使用时,每个key必须是不同的,因此无法存储两个key相同的值。提供了以下访问方法:提供key,value参数来存储,按key删除记录,按key来读取记录,另外,遍历key也被支持,虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM等等是相同的,但是比它们的性能要好得多(因此可以替代它们)。当按B+树来存储时,拥用相同key的记录也能被存储。像hash表一样的读取,存储,删除函数也都有提供。记录按照用户提供的比较函数来存储。可以采用顺序或倒序的游标来读取每一条记录。依照这个原理,向前的字符串匹配搜索和整数区间搜索也实现了。另外,B+树的事务也是可用的。
Asfordatabaseoffixed-lengtharray,recordsarestoredwithuniquenaturalnumbers.Itisimpossibletostoretwoormorerecordswithakeyoverlaps.Moreover,thelengthofeachrecordislimitedbythespecifiedlength.Providedoperationsarethesameasonesofhashdatabase.
对于定长的数组,记录按自然数来标记存储。不能存储key相同的两条或更多记录。另外,每条记录的长度受到限制。读取方法和hash表的一样。TokyoCabinet是用C写的,同时提供c,perl,ruby,java的API。TokyoCabinet在提供了POSIX和C99的平台上都可用,它以GNULesserPublicLicense协议发布。
[...]前面一篇介绍了TokyoCabinet,一个DBM.作者在写完TokyoCabinet之后,立马又写了一个应用:TokyoTyrant.这个东东被定义为:一个网络存储,读取接口。网络时代,加上这么一个功能,马上就可以冠上分布式的标签了。TokyoTyrant基于TokyoCabinet实现,提供了HTTP协议和memcache协议的读取/写入等接口。这不仅仅是贴上了分布式的标签而已:有了http协议,在大公司复杂网络中部署时很多事情简单多了,因为http端口一般不需要专门申请路由了,而其他端口上部署应用时,要走一堆流程。而memcache协议则解决了很多人尝试用memcache来存储东西时无法持久存储的问题。有了这两个接口,应用TokyoTyrant时,你都不需要调API,php中用来连Memcached的代码直接使用就行。张宴同学写得比较详细,更实用.请移步研究。
http://hi.baidu.com/ah__fu/blog/item/0f53ff4cfa493af0d72afc99.htmlTokyoCabinet:资料管理系统分支中的恐龙之翼
这个奇怪的标题加无聊的比喻来自与对“TheDinosaurWingoftheDBMForks”的直译,这是TokyoCabinet的作者MikioHirabayashi对自己的作品的宣传语。
DBM这个缩写对于非*NIX血统出生的程序员来说的确有些陌生,DBM是databasemanager的简写,部分网站翻译为资料管理系统。在*NIX系统中,似乎已是古老经典的一种key-value存储系统了。
这里有一些经典的DBM系统的介绍:《GDBM/NDBM使用介紹》http://blog.chinaunix.net/u/9861/showart_637998.html
此外,开源数据库界出名的BerkeleyDB其实也是DBM系统的一种:http://baike.baidu.com/view/1281930.htm
与TokyoCabinet的功能一模一样的MemcachedDb的持久化存储引擎就是用的BerkeleyDB。
下面是“恐龙之翼”这段话的原文:(from:http://tokyocabinet.sourceforge.net/spex-en.html)
TokyoCabinetisdevelopedasthesuccessorofGDBMandQDBMonthefollowingpurposes.TheyareachievedandTokyoCabinetreplacesconventionalDBMproducts.
•improvesspaceefficiency:smallersizeofdatabasefile.
•improvestimeefficiency:fasterprocessingspeed.
•improvesparallelism:higherperformanceinmulti-threadenvironment.
•improvesusability:simplifiedAPI.
•improvesrobustness:databasefileisnotcorruptedevenundercatastrophicsituation.
•supports64-bitarchitecture:enormousmemoryspaceanddatabasefileareavailable.
AswithQDBM,thefollowingthreerestrictionsoftraditionalDBM:aprocesscanhandleonlyonedatabase,thesizeofakeyandavalueisbounded,adatabasefileissparse,arecleared.Moreover,thefollowingthreerestrictionsofQDBM:thesizeofadatabasefileislimitedto2GB,environmentswithdifferentbyteorderscannotshareadatabasefile,onlyonethreadcansearchadatabaseatthesametime,arecleared.
TokyoCabinetrunsveryfast.Forexample,elapsedtimetostore1millionrecordsis0.7secondsforhashdatabase,and1.6secondsforB+treedatabase.Moreover,thesizeofdatabaseofTokyoCabinetisverysmall.Forexample,overheadforarecordis16bytesforhashdatabase,and5bytesforB+treedatabase.Furthermore,scalabilityofTokyoCabinetisgreat.Thedatabasesizecanbeupto8EB(9.22e18bytes).
TokyoCabinet仅仅只是一个DBM系统吗?不尽然,从TokyoCabinet支持的数据引擎来看,功能还更加丰富。TokyoCabinet的数据引擎提供的API有:
·theon-memoryhashdatabaseAPI
·theon-memorytreedatabaseAPI
·thehashAPI
·theB+treedatabaseAPI
·thefixed-lengthdatabaseAPI
·thetabledatabaseAPI
假如去掉持久化存储,只使用on-memoryhash和on-memorytree两种引擎,则TokyoCabinet的功能与Memcached一致。希望能有高手做一个对比测试,看看不要持久化的TokyoCabinet与Memcached在set/get性能,内存占用,并发处理三个方面的性能有何差别。当然,TokyoCabinet与Memcached的有些功能是有差别的:
·Memcached里,每个key都有过期时间,而TokyoCabinet没有这个功能;
·Memcached里,内存空间满后,插入会失败,而TokyoCabinet在内存满后会丢弃旧的记录;(这个需验证,根据文档得出这个结论,还没实验)
·Memcached里,PHP的Memcached客户端实现了对value的gzip压缩,Memcached服务器端是不支持GZIP压缩的;而TokyoCabinet中,支持多种压缩方式,但是究竟是服务器端实现了压缩,还是客户端实现了压缩,还不得而知;(如果服务端实现了压缩解压缩,则对带宽无法降低)
再看tabledatabase这种方式的存储引擎,这不就是内存表嘛,还支持多个索引,更爽了。这个功能是MemcachedDb无法实现的。
其实,在WEB2.0的应用中,对于数据不敏感的场合,都可以用TokyoCabinet+TokyoTyrant代替Memcached+MySQL,TokyoCabinet的很多功能都将数据持久化做得相当可靠:
1、在一个进程内同时实现cache和持久化,比起Memcached+MySQL来说,更加方便;(一个例外的问题是,通常请求在Memcached和MySQL中都无法命中的话,也会cache无法命中的信息,而TokyoCabinet对无法命中的请求也会cache吗?)
2、双机冗余,两台服务器之间自动复制数据,且访问任意一台都可以;(在ttserver的参数中配置即可,相当方便。对于TokyoCabinet的同步能力,网上暂无生动的案例,特别是灾难发生时的恢复能力。如何像一个数据库一样更可靠?TokyoCabinet还需要给使用者更多的案例还增强信心)
3、热备功能:在ttserver上实现了,可以端发起一个命令即实现了热备。
4、冷备:还没发现有这样的功能。
5、数据导入:可以将TSV格式的文本导入到TokyoCabinet中。
6、数据导出:已有的API文档中还未发现这样的功能,不过可以自己写一个基于客户端API的低性能实现。
7、updatelog日志的导入导出:有这样的功能。
有了以上功能,对于数据的可靠性也有了一定保证,又安全又快速,很值得使用!!!
http://hi.baidu.com/llaa27/blog/item/df7e3e8f710a7ee9f11f3663.htmlTokyoCabinet是日本人MikioHirabayashi开发的一款DBM数据库,该数据库读写非常快,哈希模式写入100万条数据只需0.643秒,读取100万条数据只需0.773秒,是BerkeleyDB等DBM的几倍。TokyoCabinet是一个DBM的实现【虎.无名:是Mikio另一个产品QDBM的继承者】。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。当做为Hash表数据库使用时,每个key必须是不同的,因此无法存储两个key相同的值。提供了以下访问方法:提供key,value参数来存储,按key删除记录,按key来读取记录,另外,遍历key也被支持,虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM等等是相同的,但是比它们的性能要好得多(因此可以替代它们)。当按B+树来存储时,拥用相同key的记录也能被存储。像hash表一样的读取,存储,删除函数也都有提供。记录按照用户提供的比较函数来存储。可以采用顺序或倒序的游标来读取每一条记录。依照这个原理,向前的字符串匹配搜索和整数区间搜索也实现了。另外,B+树的事务也是可用的。
Asfordatabaseoffixed-lengtharray,recordsarestoredwithuniquenaturalnumbers.Itisimpossibletostoretwoormorerecordswithakeyoverlaps.Moreover,thelengthofeachrecordislimitedbythespecifiedlength.Providedoperationsarethesameasonesofhashdatabase.
对于定长的数组,记录按自然数来标记存储。不能存储key相同的两条或更多记录。另外,每条记录的长度受到限制。读取方法和hash表的一样。TokyoCabinet是用C写的,同时提供c,perl,ruby,java的API。TokyoCabinet在提供了POSIX和C99的平台上都可用,它以GNULesserPublicLicense协议发布。
TokyoTyrant是由同一作者开发的TokyoCabinet数据库网络接口。它拥有Memcached兼容协议,也可以通过HTTP协议进行数据交换。TokyoTyrant加上TokyoCabinet,构成了一款支持高并发的分布式持久存储系统,对任何原有Memcached客户端来讲,可以将TokyoTyrant看成是一个Memcached,但是,它的数据是可以持久存储的。
上面是我从网上摘录的部分介绍~~
用TokyoTyrant加上TokyoCabinet,他们支持双向的M/M同步,也支持单向的M/S同步,可以为网站提供非常可靠的持久化的分布式数据高速Cache,没有了Memcached对内存大小的依赖,而且速度还是飞快.计算一下,按100w每秒的速度,那么每天可以支持最高100w*1440*60=8640000w的查询总量.这样的速度对于任何一个网站都是足够用的了