amazon-ebs_草庐IT

json - 在中央主机上使用 Amazon EMR

我正在尝试使用AmazonEMR使用此处的文档处理日志http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-process-logs.html.我已经创建了一个PEM文件和我的credentials.json文件，并且能够从S3成功运行和下载日志并在其上创建配置单元表并运行mapreduce查询。现在我想将所有这些credentials.json、PEM文件和我的脚本放到一个集中的主机中，这样其他用户就可以来运行脚本并下载日志。他们不需要创建自己的key对等。所以我只是在远程主机上对PEM文件、脚本和crede

机上 Amazon section 凭据 json hadoop amazon-web-services amazon-s3 amazon-emr

hadoop - 在 Amazon EMR 上使用 Hadoop 流处理整个文件

我在AmazonS3上有一个充满gzip文本文件的目录，我正尝试在AmazonElasticMapReduce上使用Hadoop流式处理来分别对每个文件应用一个函数(特别是解析多行header)。默认的Hadoop流“每行是一条记录”格式在这里不起作用。我的尝试是将-input设置为列出每个gzip文件的S3路径的文本文件，然后在映射器中使用“Hadoopfs-get”或“Hadoopfs-copyToLocal”将文件复制到工作节点，然后在整个文件上运行函数。但是，这样做会导致步骤失败并出现“权限被拒绝”错误。我猜这与dfs.permissions.enabled变量有关，但我没有运

hadoop Amazon section amazon-web-services amazon-s3 hadoop-streaming elastic-map-reduce

linux - 无法将文件从 ubuntu scp 到 Amazon EC2

我正在运行sch命令并收到以下错误，谁能告诉我那是什么？xxxxxxxxx@ubuntu:~/Downloads$sudoscp-v"word_count.jar"ubuntu@54.68.0.10:/usr/Executing:program/usr/bin/sshhost54.68.0.10,userubuntu,commandscp-v-t/usr/OpenSSH_6.6.1,OpenSSL1.0.1f6Jan2014debug1:Readingconfigurationdata/etc/ssh/ssh_configdebug1:/etc/ssh/ssh_configline19

Amazon ubuntu debug1 debug ssh linux unix hadoop

hadoop - Amazon ElasticMapReduce(EMR) 控制拆分大小/映射器数量

如何更改此配置？对于我的应用程序，64/128的拆分大小对我来说太多了，例如，我希望拆分大小为16mb。我该怎么做？最佳答案您可以通过设置fs.s3n.block.size来更改默认block大小。请在您的代码中尝试如下所示-jobConf.set("fs.s3n.block.size",value);请引用以下链接-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.htmlhttp://s3.amazonaw

射器 ElasticMapReduce section latest hadoop amazon-web-services elastic-map-reduce

hadoop - 在 Amazon EMR 上制定执行时间表

我有兴趣使用job_history_summary.py用于创建我的EMR集群的任务时间线的脚本，类似于此(picturefromSmithCollegeHadoopTutorial1.1，但显然来自Yahoo关于TeraSort实验的报告。)。Hadoop日志似乎是存储在每个节点上，而不是在中央服务器上。我需要手动合并日志吗？似乎脚本实际上并没有生成图形。最佳答案您可以启用日志记录并提供s3存储桶。日志将被压缩并存储在提供的s3存储桶中。关于hadoop-在AmazonEMR上制

时间表 hadoop section noreferrer noopener emr

amazon-web-services - 在选择定价时，hadoop 分发下的 aws EMR 亚马逊标准是什么

我正在尝试计算AWSEMR服务的定价。我用谷歌搜索，但在默认的hadoop分布列下找不到什么是亚马逊标准。最佳答案假设您在http://calculator.s3.amazonaws.com/index.html谈论定价计算器，“HadoopDistribution”下拉列表中的“AmazonStandard”选项只是指AWSEMR自己的Hadoop分布(当然还有其他BigData应用程序，如Hive、Spark、Pig等)。也就是说，不是MapR分布之一，它们也受支持但具有不同的成本结构。这是EMR的默认发行版，因此您会知道您

amazon-web-services 分发 section 定价 stackoverflow hadoop amazon-emr

amazon-web-services - 是否可以通过 EMR(通过 VPC)查看 Spark UI？

我已经完成了https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-ssh-tunnel-local.html中描述的过程通过本地端口转发打开ssh隧道，然后转到http://localhost:8157/.这将打开Hadoop/YARN界面，此时我单击TrackingUI/ApplicationMaster链接，并收到“找不到此站点的服务器DNS”页面。根据AWS文档http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/em

amazon-web-services services ElasticMapReduce section amazon hadoop apache-spark

amazon-web-services - 在 EC2 上设置 Hadoop 的脚本

在EC2上设置Hadoop的脚本，如https://wiki.apache.org/hadoop/AmazonEC2中所述已从最近的hadoop版本中删除。谷歌给我指出了一个替代方案http://whirr.apache.org/这也已经退休一年多了。是否有替代品或替代品仍然适合在EC2上设置最新版本的Hadoop？谢谢!更新hadoop-ec2脚本已从hadoopsrc中删除01/11/2011.目的是将其替换为ApacheWhirr.如果可以明确记录删除操作，那就太好了。不幸的是，Hadoop官方网站上不再方便地提供早期变更日志。最佳答案

amazon-web-services services noreferrer section noopener hadoop

amazon-web-services - 如何使用 HadoopJarStep Config.Step 属性？

AWS文档指出此属性是“作业流程步骤运行时设置的Java属性列表。您可以使用这些属性将键值对传递给JAR文件中的主函数。”但是没有解释(至少我没有找到)它们是如何传递的，以及如何在主函数端正确访问所述键值对集合。快速检查证明它们不是通过环境或命令行参数传递的。可以用其他方式吗？最佳答案好吧，似乎这个映射转到了Java系统属性，并且可以通过System.getProperties()调用从主函数端访问，但是有一些不明显的含义。首先要记住的是，它们在内部通过环境变量HADOOP_CLIENT_OPTS设置为-Dkey=value开关

amazon-web-services HadoopJarStep section shell 传递 hadoop emr amazon-emr

amazon-web-services - 在 AWS EMR 中编辑配置文件

在哪里可以找到AWSEMR的配置文件？主要是我在寻找hue.ini文件，我启动了一个新集群，打开了hueUI，创建了新的super用户并登录。然后我看到了该区域中的所有s3存储桶，但我无法访问存储桶中的文件，我不断收到此错误-Failedtoaccesspath:"s3a://data-storage"Checkthatyouhaveaccesstoreadthisbucketandthattheregioniscorrect:BadRequest.然后我尝试按照这个将我的s3帐户添加到hue-http://gethue.com/introducing-s3-support-in-hu

amazon-web-services services section hue code hadoop amazon-s3 amazon-emr