emrs

hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

我正在尝试使用AWSEMR上的pig脚本批处理运动流中的一些数据。我只需要对流数据进行分组并将其移动到s3。我试图每隔几个小时运行一次。起初它似乎非常适合AWSDataPipeline，但我不知道如何传递迭代号以用于运动检查点。看起来没有任何方法可以增加数字以传递给pig脚本。我看过这个例子here，它涉及一个始终在线的集群和一个crontab脚本，它们会增加迭代次数。有没有一种方法可以使用我缺少的AWSDataPipeline来实现这一点？最佳答案我们确实有一个使用DataPipeline来完成您想要的示例，但它使用Hive而

流上 hadoop section samples noreferrer amazon-web-services amazon-emr amazon-kinesis amazon-data-pipeline

hadoop - Amazon ElasticMapReduce(EMR) 控制拆分大小/映射器数量

如何更改此配置？对于我的应用程序，64/128的拆分大小对我来说太多了，例如，我希望拆分大小为16mb。我该怎么做？最佳答案您可以通过设置fs.s3n.block.size来更改默认block大小。请在您的代码中尝试如下所示-jobConf.set("fs.s3n.block.size",value);请引用以下链接-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.htmlhttp://s3.amazonaw

射器 ElasticMapReduce section latest hadoop amazon-web-services elastic-map-reduce

hadoop - 在 Amazon EMR 上制定执行时间表

我有兴趣使用job_history_summary.py用于创建我的EMR集群的任务时间线的脚本，类似于此(picturefromSmithCollegeHadoopTutorial1.1，但显然来自Yahoo关于TeraSort实验的报告。)。Hadoop日志似乎是存储在每个节点上，而不是在中央服务器上。我需要手动合并日志吗？似乎脚本实际上并没有生成图形。最佳答案您可以启用日志记录并提供s3存储桶。日志将被压缩并存储在提供的s3存储桶中。关于hadoop-在AmazonEMR上制

时间表 hadoop section noreferrer noopener emr

Hadoop/EMR 任务输出数据并保持总计数

使用AmazonElasticMapReduce完成一项任务后，所有关键结果是否通常会写入不同的文件？假设我有20k行的数据记录，但只有3个键。我最终得到6个文件，其中3个为空，3个包含key及其相应数据。如果有区别的话，我正在运行1Master和2Core。我还有第二个问题，我还没有研究过，但也许可以很快得到答案。什么是最好的方法或什么方法可以在所有键之间保持总计数变量？我想使用MR作业的总数对数据执行操作。现在我的代码跟踪每个键的计数添加:当我只使用1个master时，我得到一个_SUCCESS文件和3个part-r文件。1个包含2个键，1个空白，1个有1个键。我对此有任何控制吗？

Hadoop EMR section stackoverflow questions amazon-emr

hadoop - 在 EMR 3.10 中添加步骤或引导操作以将文件从本地复制到 s3

我正在使用AmazonEMR3.10将文件从本地复制到AmazonS3...我在参数中使用“script-runner.jar”，我在参数中提到了一个命令sudoawss3cp/home/hadoop/conf/hdfs-site.xmls3://testbucket/myfolder/--recursive....但是该步骤失败并抛出以下异常:Exceptioninthread"main"java.lang.RuntimeException:Localfiledoesnotexist.atcom.amazon.elasticmapreduce.scriptrunner.ScriptR

hadoop 3.10 section java ScriptRunner amazon-web-services amazon-s3 amazon-emr

amazon-web-services - 在选择定价时，hadoop 分发下的 aws EMR 亚马逊标准是什么

我正在尝试计算AWSEMR服务的定价。我用谷歌搜索，但在默认的hadoop分布列下找不到什么是亚马逊标准。最佳答案假设您在http://calculator.s3.amazonaws.com/index.html谈论定价计算器，“HadoopDistribution”下拉列表中的“AmazonStandard”选项只是指AWSEMR自己的Hadoop分布(当然还有其他BigData应用程序，如Hive、Spark、Pig等)。也就是说，不是MapR分布之一，它们也受支持但具有不同的成本结构。这是EMR的默认发行版，因此您会知道您

amazon-web-services 分发 section 定价 stackoverflow hadoop amazon-emr

java - 用于获取 AWS EMR 中任务实例组实例计数的 API

我想获取AWSEMR中任务实例组实例的数量。为此，我使用Cloudwatch检查每个任务实例组实例的心跳。但是我觉得，EMR说到底是一个使用hadoop的框架，hadoop的master肯定有活任务节点的信息。任何人都可以告诉我元数据链接(或任何文件位置)以获取此信息吗？最佳答案我编写了一个Java工具来在处理过程中动态调整EMR集群的大小。它有一些代码来获取实例中的实例计数，作为它的一部分。也许这就是您要找的东西。在以下位置查看:http://www.lopakalogic.com/articles/hadoop-articl

java AWS section articles hadoop mapreduce amazon-emr elastic-map-reduce

amazon-web-services - 是否可以通过 EMR(通过 VPC)查看 Spark UI？

我已经完成了https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-ssh-tunnel-local.html中描述的过程通过本地端口转发打开ssh隧道，然后转到http://localhost:8157/.这将打开Hadoop/YARN界面，此时我单击TrackingUI/ApplicationMaster链接，并收到“找不到此站点的服务器DNS”页面。根据AWS文档http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/em

amazon-web-services services ElasticMapReduce section amazon hadoop apache-spark

hadoop - 当 aws emr 核心节点在 hadoop 环境中死亡时会发生什么

我有一个包含1个主节点和2个核心节点的EMR集群。这会自动将复制因子设置为1。所以我从文档中读到的意思是，当文件上传到节点时，它仅存储在该节点上。在我的例子中，我有一个spark应用程序，它运行得很好，直到其中一个核心节点由于某种我仍在调查的原因而死掉。当该节点死亡时，我的应用程序也因以下错误而死亡:Diagnostics:Couldnotobtainblock:BP-1346795555-172.31.18.53-1503395276403:blk_1073762933_22444file=/user/hadoop/.sparkStaging/application_15035806

hadoop aws section stackoverflow apache-spark amazon-emr

hadoop - 尽管 hadoop 访问有效，但在 EMR 上将 spark 与 s3 结合使用失败

这个问题在这里已经有了答案:SparkreadfilefromS3usingsc.textFile("s3n://...)(14个答案)关闭4年前。我正在尝试访问s3://路径spark.read.parquet("s3://")我得到了这个错误Py4JJavaError:Anerroroccurredwhilecallingo31.parquet.:java.io.IOException:NoFileSystemforscheme:s3但是，运行以下行hadoopfs-ls有效...所以我猜这可能是hadoop和spark之间的配置问题如何解决？编辑阅读建议的答案后，我尝试将硬编码的

hadoop 尽管 section code spark apache-spark amazon-s3 amazon-emr

9 10 111213 14 15