Amazon EMR简介
Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务 (例如 Amazon S3 和 Amazon DynamoDB) 中的数据进行交互。
Amazon EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
借助 Amazon EMR 上受版本控制的发布策略,您可以在 EMR 集群中轻松选择和使用最新的开源项目,包括 Apache Hadoop 和 Spark 生态系统中的应用程序。软件由 Amazon EMR 进行安装和配置,使您能够投入更多时间来提高数据价值,而不用操心基础设施和管理任务。
优点
1、易于使用
只需几分钟即可启动 Amazon EMR 集群。您不必担心节点预置、集群设置、Hadoop 配置或集群优化。Amazon EMR 自会处理这些任务,因此您只需集中精力进行分析即可。
2、成本低廉
Amazon EMR 定价原理简单且可预测:您按使用的每秒支付每秒费率,以一分钟起算。您可以按低至每小时 0.15 USD 的价格启动 10 节点 Hadoop 集群。因为 Amazon EMR 在设计理念上支持 Amazon EC2 竞价和预留实例,您还可以将基础实例成本节省 50-80%。
3、灵活
使用 Amazon EMR,您可以预置一个、数百个或者甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量,并且按实际用量付费。
4、运行可靠
您用于调试和监控集群的时间将更少。Amazon EMR 已经针对云优化了 Hadoop,它还会监控您的集群,重新尝试失败的任务,并自动替换性能不佳的实例。
5、安全
Amazon EMR 会自动配置 Amazon EC2 防火墙设置以控制对实例的网络访问,并且您可以在 Amazon Virtual Private Cloud (VPC) (由您定义的逻辑隔离的网络) 中启动集群。对于 Amazon S3 中储存的对象,您可以通过 AWS Key Management Service 或客户管理的密钥来使用 Amazon S3 服务器端加密或采用 EMRFS 的 Amazon S3 客户端加密。您还可以轻松启用其他加密选项和 Kerberos 身份验证。
6、灵活
您可以完全掌控您的集群。您拥有每个实例的根访问权限,因此,您可以轻松安装额外的应用程序,并使用引导操作自定义每个集群。此外,您还可以使用自定义 Amazon Linux AMI 启动 Amazon EMR 集群。
您可以使用Amazon EMR构建什么内容?
1、点击流分析
Amazon EMR 可用于分析点击流数据,以便细分用户、了解各种用户偏好,并投放更有效的广告。
2、实时分析
借助 Amazon EMR 上的 Spark Streaming,使用和处理来自 Amazon Kinesis、Apache Kafka 或其他数据流的实时数据。采用容错方式执行流分析,并将相应结果写入 Amazon S3 或 HDFS 中。
3、日志分析
Amazon EMR 可用于处理 Web 和移动应用程序生成的各种日志。Amazon EMR 可帮助客户将数 PB 的非结构化或者半结构化数据转变为有用的应用程序或者用户洞察数据。
4、提取、转换、加载 (ETL)
Amazon EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL),例如分类、聚合和合并。
5、预测分析
Amazon EMR 上的 Apache Spark 包括适用于各种可扩展的机器学习算法的 MLlib,您也可以使用自己的库。通过将数据集存储在内存中,Spark 可以为常见的机器学习工作负载提供出色的性能。