弹性 MapReduce(Elastic MapReduce)
Amazon Elastic MapReduce (EMR)是一种Web服务,它提供了一个托管框架,以简单,经济高效且安全的方式运行Apache Hadoop,Apache Spark和Presto等数据处理框架。
它用于数据分析,Web索引,数据仓库,财务分析,科学模拟等。
如何设置Amazon EMR?
请按照以下步骤设置Amazon EMR -
Step 1 - 登录AWS账户并在管理控制台上选择Amazon EMR。
Step 2 - 为群集日志和输出数据创建Amazon S3存储桶。 (程序在Amazon S3部分详细说明)
Step 3 - 启动Amazon EMR集群。
以下是创建集群并将其启动到EMR的步骤。
使用此链接打开Amazon EMR控制台 - https://console.aws.amazon.com/elasticmapreduce/home
选择create cluster并在Cluster Configuration页面上提供所需的详细信息。
将“标记”部分选项保留为默认值并继续。
在“软件配置”部分,将选项调整为默认值。
在“文件系统配置”部分,保留默认设置的EMRFS选项。 EMRFS是HDFS的一种实现,它允许Amazon EMR集群在Amazon S3上存储数据。
在“硬件配置”部分,在EC2实例类型字段中选择m3.xlarge,并将其他设置保留为默认值。 单击“下一步”按钮。
在“安全和访问”部分,对于EC2密钥对,从EC2密钥对字段的列表中选择该对,并将其他设置保留为默认值。
在“引导操作”部分,将字段保留为默认设置,然后单击“添加”按钮。 引导操作是在Hadoop在每个群集节点上启动之前在设置期间执行的脚本。
在“步骤”部分,将设置保留为默认值并继续。
单击“创建群集”按钮,将打开“群集详细信息”页 这是我们应该将Hive脚本作为集群步骤运行并使用Hue Web界面查询数据的地方。
Step 4 - 使用以下步骤运行Hive脚本。
打开Amazon EMR控制台并选择所需的群集。
移至“步骤”部分并展开它。 然后单击“添加步骤”按钮。
将打开“添加步骤”对话框。 填写必填字段,然后单击“添加”按钮。
要查看Hive脚本的输出,请使用以下步骤 -
打开Amazon S3控制台并选择用于输出数据的S3存储桶。
选择输出文件夹。
查询将结果写入单独的文件夹。 选择os_requests 。
输出存储在文本文件中。 该文件可以下载。
亚马逊EMR的好处
以下是亚马逊EMR的好处 -
Easy to use - Amazon EMR易于使用,即易于设置群集,Hadoop配置,节点配置等。
Reliable - 从重试失败的任务并自动替换性能不佳的实例的意义上讲它是可靠的。
Elastic - Amazon EMR允许计算大量实例以处理任何规模的数据。 它可以轻松增加或减少实例数量。
Secure - 它自动配置Amazon EC2防火墙设置,控制对实例的网络访问,在Amazon VPC中启动集群等。
Flexible - 它允许完全控制集群和对每个实例的root访问权限。 它还允许安装其他应用程序并根据要求自定义群集。
Cost-efficient - 其定价易于估算。 它每小时收取一次使用的实例。