大公司如何使用Apache Spark
Spark的普通用户案例
公司严重依赖各种数据源。这用于他们的分析产品。这些数据处理工作流程都包含像使用内部数据源清理,转换和融合非结构化外部数据一样的处理。特别是当谈到成功的Startups时,Spark被证明是非常有用的。对于非程序员来说,某些公司还创建了简单的用户界面,这些界面打开了批量数据处理任务。
流处理
对于BDAS,最着名的组件是Spark和Shark。但Spark Streaming实时处理和PySpark Python API也在竞争中!Spark Streaming的主要特点是用于批处理的代码也可以用于实时计算(只需稍作调整)。这是指程序员的生产力。由于这个惊人的功能,许多公司已经开始使用Spark Streaming。诸如流挖掘,分析模型的实时评分2,网络优化等应用程序相当多。此外,CloudPhysics正在使用Spark Streaming来检测模式和异常情况。值得注意的是,52%的公司更喜欢Apache Spark实时流媒体。
先进的分析
Spark有其独特的优势,总能帮助吸引用户。与Hadoop相比,处理迭代计算的速度和适用性要好得多。迭代计算特别适用于高级分析。使用Spark适合公司,并且从早期开始,公司就开始编写自己的Spark库以进行回归,分类和聚类。使用Spark工具和库解决现代世界问题,如在线广告和市场营销,欺诈检测以及与科学研究有关的问题。好处是,为图和机器学习分析开发这样的库变得更加容易。大约有64%的公司使用Apache Spark来利用高级分析。
商业智能和可视化分析
现在,这是任何公司最重要的方面之一。MPP数据库,开源SQL-on-Hadoop解决方案Shark和Impala正在获得牵引力3,现在公司已经开始使用Shark和BlinkDB进行交互式SQL分析了!尽管许多公司都在遵循一般方法,但其中一些公司已经开发了定制的交互式仪表盘。这些由Spark和Shark提供支持。公司现在使用Tableau等可视化分析工具与Shark协调一致,与静态报告和查询分析相比听起来更好。由于性能提升,超过91%的公司使用Apache Spark。
为什么大公司切换到Apache Spark?
YAHOO:使用APACHE SPARK提前分析
雅虎已经在使用Apache Spark,并且正在使用Spark成功运行项目。雅虎本身就是一个网络搜索引擎,它有一个这样的项目,为完美的访问者提供完美的内容,这就是所谓的个性化。这个项目最重要的部分是机器学习算法,可以识别个人访问者和他们的兴趣。这进一步有助于迎合他们喜欢阅读/观看的新闻。所以当用户访问雅虎时,搜索引擎可以确保他/她得到他/她喜欢的东西。要达到如此精确的个性化水平,需要实时处理能力和高速度。这当然是在Apache Spark的帮助下实现的!
CLEARSTORY:多个数据源
一家名为ClearStory的创业公司最近建立了一个平台,使用户能够立即将多个数据源融合在一起!它也产生交互式可视化。下面给出的图像进一步解释了它:
在金融行业,银行正在使用Spark作为Hadoop的替代方案。Spark特别用于访问和分析社交媒体档案,电话录音,电子邮件等,这有助于他们为目标广告,客户细分和信用风险评估做出正确的业务决策。
金融机构1:零售银行和经纪业务
一家从事零售银行和经纪业务的金融机构一直在使用Apache Spark,并导致其客户流失率降低了25%。该平台分为零售,银行,交易和投资。对于客户详细信息的360度视图,银行使用Apache Spark作为统一层。该银行现在通过机器学习实现分析自动化。可以访问每个客户存储库的数据,然后将其关联到单个客户文件。这个文件然后被转发到市场部门。
金融机构2:分析
一家金融机构使用Apache Spark来分析监管文件中的文本。它还分析了其竞争对手的报告。也有助于发现有关正在发生的事情和市场竞争的模式。
金融机构3:实时监测
另一家跨国金融机构已经实施了一个运行在Apache Spark和MongoDB NoSQL上的实时监控应用程序。这些应用程序实际上有助于银行监控客户的活动并识别问题。通过基于风险的评估,Apache Spark适用于金融机构。
众所周知,电子商务行业发展迅速,实时信息的重要性对他们来说非常重要。这些信息可以进一步传递给流式聚类算法,例如K均值聚类算法。然后将获得的结果与社交媒体资料,评论,产品评论,最近的搜索等资源结合起来。
ALIBABA:APACHE SPARK
正如我们大多数人所知道的,阿里巴巴是全球最大的电子商务平台。令人惊讶的是,它还运行着世界上最大的Apache Spark作业!尽管其中一些作业分析了数千PB数据,但其他作业却忙于对图像数据进行提取。阿里巴巴的每个用户交互都显示在一个大图上,Apache Spark用于获得精确的结果并获得快速处理。
EBAY:APACHE SPARK
另一家知名的电子商务巨头eBay使用Spark。它帮助eBay进行市场营销,针对特定优惠和增强客户体验。Hadoop YARN利用eBay上的Apache Spark。YARN管理有助于运行一般任务的所有群集资源。eBay Spark用户利用Hadoop集群,从2000个节点到20,000个核心,以及通过YARN的100TB RAM。