开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

那年夏天0

2019-12-06

然而它们并不是适合各种使用场合的正确选择。

开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

不妨更深入地研究这每一项技术以及适合和不适合这些开源解决方案的一些使用场合。

1.Apache Cassandra

开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

Cassandra最初由Facebook于2007年创建，利用Dynamo架构和Bigtable样式的数据模型来提供NoSQL数据存储，从而提供高可用性和高扩展性。

•何时应该使用Apache Cassandra？

对于需要最高级的始终在线可用性的使用场合而言，Cassandra是理想的选择。该数据库还特别适合服务于这类企业：预计会有大量工作负载，或希望确保其服务可以随工作负载加大而灵活增加，Cassandra提供了易于扩展的优点。Cassandra在多个数据中心之间提供可靠的数据冗余和双活操作。

•何时不应该使用？

面对数据仓库或纯粹的分析存储（甚至考虑使用可用的Spark连接件以及Tableau和Hadoop插件）时，Cassandra消耗的资源比替代技术更多。Cassandra还不适合实时分析，尤其是最终用户临时查询或自定义查询这种形式的分析，因为应用程序端实现代码的需要可能变得很复杂。此外，Cassandra无法满足大多数ACID要求。

2.Apache Kafka

开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

Apache Kafka最开始由LinkedIn的技术团队创建，它提供了一种高可扩展性高可用性的流平台和消息总线。Kafka充当分布式日志，新到达的消息被添加到队列的头部，读取者（使用者）将根据偏移量来使用它们。

•何时应该使用Apache Kafka？

对于涉及微服务和面向服务架构的使用场合而言，Apache Kafka通常是明智的选择。 Kafka还可以充当高效的工作队列，能够协调不同的工作路径，通过监听和等待、直到工作到达来保留计算能力。该平台的流处理功能适用于异常检测、向上钻取和聚合，还适用于传递度量指标。Kafka还是一种功能强大的技术，可用于事件源、跨各种微服务的数据协调以及为分布式系统提供外部提交日志。其他合适的使用场合包括日志聚合、数据屏蔽及过滤、数据丰富和欺诈检测。

•何时不应该使用？

虽然在一些情况下可能很诱人，但切勿将Kafka用作数据库或记录源，至少在没有充分了解Kafka在这种使用场合下的局限性和属性的情况下切勿这么做。真正的数据库几乎总是更易于操作且更灵活。对于涉及整个主题的顺序处理，Kafka是同样不适合的选择。在目标是将数据包快速推送到终端源的任何使用场合下，比如实时音频和视频或其他有损数据流，企业应使用定制的解决方案而不是Kafka。

3.Apache Spark

开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

Apache Spark是一种通用集群计算框架，适用于涉及大量数据的使用场合，它对数据进行划分，并针对划分的数据执行计算，以便worker执行所有可能的工作，直至它们需要来自其他worker的数据。这种设计为Spark提供了巨大的可扩展性和可用性，同时让它极具弹性，可应对数据丢失。

•何时应该使用Apache Spark？

Spark适用于涉及大规模分析的使用场合，尤其是数据通过多个来源到达的情况。Spark是一种强大的解决方案，适用于ETL或任何这种使用场合：需要在系统之间移动数据，无论用于从事务型数据存储持续填充数据仓库或数据湖，还是诸如数据库或系统迁移之类的一次性场景。如果企业在现有数据上构建机器学习管道、处理高延迟数据流，或执行交互式分析、临时性分析或探索性分析，会发现Spark非常适合。Spark还从合规角度提供数据屏蔽、数据过滤和大型数据集审核等功能，适合帮助企业满足合规要求。

•何时不应该使用？

对于涉及实时或低延迟处理的使用场合，Spark通常不是最佳选择。（Apache Kafka或其他技术提供出色的端到端延迟以满足这些要求，包括实时流处理）。处理小型数据集或单个数据集时，Spark通常是一种大材小用的选择。另外说到数据仓库和数据湖，最好使用高级技术代替Apache Spark，不过确实存在面向Spark的此类产品。

4.Elasticsearch

开源Apache Cassandra、Kafka、Spark和ES何时该用，何时不该用？

Elasticsearch提供了一种全文搜索引擎，它有广泛的功能来搜索和分析非结构化数据。该技术提供接近实时的可扩展线性搜索、强大的搜索临时替代和强大的分析功能。

•何时应该使用Elasticsearch？

Elasticsearch非常适合需要全文搜索、地理搜索、抓取和汇总公共数据、日志记录及日志分析、可视化以及少量事件数据和度量指标的使用场合。

•何时不应该使用？

Elasticsearch不应该用作拥有关系数据的数据库或记录源，也不应该用来满足ACID要求。

选择互补技术

cassandra kafka spark apache 开放源代码数据处理

那年夏天0

0 关注 0 粉丝 0 动态

相关推荐

cassandra安装

CREATE USER automng WITH PASSWORD ‘Automng_123‘ SUPERUSER ;这里使用的是公有云，首先要开放其9042端口，然后修改几个IP地址，修改为内网IP即可，不需要填写公网IP. This option is

zhangxiaocc 2020-07-18

云原生应用程序和数据需要确保安全

将数据作为云原生应用程序的一部分进行管理非常困难。对于许多企业而言，当前冠状病毒疫情带来的压力加剧了他们在软件开发方面所面临的挑战。数字化转型已从一种增长战略变成了一种生存之道。在线商务几乎在一夜之间得到爆炸式增长，达到了只有在假日期间才会出现的水平。Ku

SUNDRAGON 2020-07-23

Cassandra 如何读取数据/写模式如果影响读取

为了满足读取要求，Apache Cassandra数据库的DataStax分布必须组合来自活动内存表和可能多个SSTable的结果。如果内存表具有所需的分区数据，则将读取该数据并将其与SSTables中的数据合并。数据库在读取路径上的多个阶段处理数据，以发

韩学敏 2020-01-07

Cassandra 什么是墓碑

在Apache Cassandra的DataStax分发中，删除数据时会创建一个逻辑删除。以下示例列表并不详尽，但说明了一些生成逻辑删除的操作：。根据标记的位置，墓碑可以分为以下组之一。在其有效期结束时，该墓碑将作为常规压实过程的一部分被删除。在以下示例中

累积技术沉淀经验 2020-01-07

Cassandra 组件

它是基本的数据库基础结构组件。一组用于存储数据的分布式节点。使用单独的数据中心可防止事务受到其他工作负载的影响并降低延迟。数据中心绝不能跨越物理位置。将所有数据刷新到SSTables之后，可以将其存档，删除或回收。排序的字符串表是一个不变的数据文件，数据库

CassandraTorres 2020-01-03

Nutanix集群的Cassandra服务

Cassandra是Nutanix分布式元数据存储数据库，以环状的方式存放和管理所有的集群元数据。一份数据的元数据，需要3个或者5个节点分布式存放。如下命令可查看集群所有节点是否都加入Cassandra环如果节点已经加入到Cassandra ring，St

累积技术沉淀经验 2019-12-12

通用电气GE微服务实践：在容器中部署有状态应用

通用电气GE，创立于1892年，是世界上最大的技术和服务跨国公司。自托马斯·爱迪生创建通用电气公司以来，业务遍及世界上100多个国家，拥有员工315,000人。GE在航空，电力，运输，能源等行业具备丰富的产品线和运营经验。同时GE也通过数字化的方式帮助客户

akcsdno 2019-12-06

AWS首席执行官眼中最满意的云服务是什么？

对于CIO、开发者和运维管理者可能很容易对不同的云产品和服务能力给出最佳的评判。但是由云提供商对自己的云服务水平给出评价，并不容易。而在2019 AWS re:Invent的合作伙伴生态大会上，AWS首席执行官Andy Jassy在对话环节，却对他最满意的

数据库起来 2019-12-06

Spotify如何使用Cassandra实现个性化推荐

在Spotify我们有超过6000万的活跃用户，他们可以访问超过3000万首歌曲的庞大曲库。用户可以关注成千上万的艺术家和上百个好友，并创建自己的音乐图表。在我们的广告平台上，用户还可以通过体验各种音乐宣传活动发现新的和现有的内容。这些选项增加了用户的自主

dqk 2019-11-12

Cassandra原理 | Apache Cassandra简介

Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库，它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型，由 Facebook 创建，在一些最流行的

zffj 2019-10-20

cassandra数据库

#下载相应的jdk软件包，然后解压安装，我这里包名称为：jdk-8u91-linux-x64.tar.gz. tar -xzf jdk-8u91-linux-x64.tar.gz ; mkdir -p /usr/java/ ; mv jdk1.8.0_25

风一样的小宝 2019-11-01

大数据介绍

大数据全套视频，需要的话联系我。ElasticSearch在底层利用Lucene完成其索引功能，因此其许多基本概念源于Lucene。主要面向通用缓存、JavaEE和轻量级容器。充分利用集群进行高速运算和存储。hadoop实现了一个分布式文件系统，简称HDF

sunfragrence 2017-08-11

Spring Boot与Spark、Cassandra集成开发

本文演示以Spark作为分析引擎,Cassandra作为数据存储,而使用Spring Boot来开发驱动程序的示例。CREATE KEYSPACE hfcb WITH REPLICATION = { 'class' : 'SimpleStrategy',

wangtua 2018-02-01

为什么选择Cassandra

cassandra到底有那些令人印象深刻的特点呢？不防我们先来看下cassandra目前的大体概况。cassandra不仅吸收了dynamo论文中的如何做分布式，如何做副本复制，故障容错等方面成功的经验，又吸取了google bigtable中的LSM单机

gyunling 2019-09-08

sql与各个nosql数据库使用场景的讲解

对事务，审计，闪存等等对数据的重视所以如何一些特别主要的数据，一定要放到sql里面。一个系统里面至少有用户信息是重要的数据。先看看sql - > sql + nosql的过程。Neo4j - .java的的比较像SQL但查询更快，可惜高级功能收费…C

newzhhsh 2019-03-27

cassandra

Cassandra 是个高级话题, 就算她变得越来越好使，用户还是可能会对初体验感到畏惧。这篇文档目的是提供一些简单的指引，教会新用户如何安装 Canssandra，最终架设起一个可用的集群。获取项目、发布、稳定性、臭虫和特性的最佳方式，是订阅用户邮件列表

dqk 2012-07-18

Cassandra CQL语法介绍

cqlsh> USE twissandra; cqlsh> CREATE COLUMNFAMILY users (. 3．插入和检索Columns cqlsh> INSERT INTO users (KEY,password) VALUE

maggie 2016-06-06

浅谈大数据平台演变（转）

虽然在此之前有很多类似的分布式存储和计算平台，但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性，以及同时包含存储系统和计算系统，使得Hadoop成为大数据处理平台的基石之一。此外，为了

李春春 2015-09-21

[线上问题] \"Redis客户端连接数一直降不下来\"的问题分析解决

前段时间，上线了新的Redis缓存服务，准备替换掉 Memcached。原因是业务数据是压缩后的列表型数据，缓存中保存最新的3000条数据。若列表长度在O级别的，其耗时至少在50ms+。而在并发环境下，这样会存在“数据更新覆盖问题”，因为追加操作不是原子

累积技术沉淀经验 2015-02-07

Cassandra HBase和MongoDb性能比较（转）

9.WorkloadF 50%的read-modify-write 和50%的read，读取性能：10.WorkloadF 50%的read-modify-write 和50%的read，修改性能，MongoDB表现最差11.WorkloadF 50%的r

文刀乱谈 2014-09-15

那年夏天0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号