草庐IT

amazon-emr

全部标签

hadoop 从 hdfs 复制到 S3

我已经在AmazonEMR上成功完成了mahout矢量化工作(使用MahoutonElasticMapReduce作为引用)。现在我想将结果从HDFS复制到S3(以便在未来的集群中使用它)。ForthatI'veusedhadoopdistcp:den@aws:~$elastic-mapreduce--jars3://elasticmapreduce/samples/distcp/distcp.jar\>--arghdfs://my.bucket/prj1/seqfiles\>--args3n://ACCESS_KEY:SECRET_KEY@my.bucket/prj1/seqfile

amazon-web-services - AWS EMR 引导操作作为 sudo

我需要为我的EMR集群(EMRAMI4.3)中的所有实例更新/etc/hosts。整个脚本无非就是:#!/bin/bashecho-e'ip1uri1'>>/etc/hostsecho-e'ip2uri2'>>/etc/hosts...此脚本需要作为sudo运行,否则将失败。来自这里:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html#bootstrapUsesBootstrapactionsexecuteastheHadoopuserbydefault.Youcanexecute

amazon-web-services - 无法从 S3 存储桶( Parquet 文件)将数据加载到 EMR 上的 pig 中

我想从EMR上的Pig中的s3存储桶中加载数据,我的源文件格式是parquet:下面是我用过的命令:A=LOAD's3://test-1/icted/emp_db/emp_tb'USINGparquet.pig.ParquetLoader(header__change_seq:chararray,header__change_oper:chararray,header__change_mask:chararray,header__stream_position:chararray,header__operation:chararray,header__transaction_id:ch

amazon-s3 - 我无法让 Hadoop 开始使用 Amazon EC2/S3

我已经创建了一个AMI镜像并从ClouderaCDH2构建安装了Hadoop。我这样配置了我的core-site.xml:fs.default.names3:///fs.s3.awsAccessKeyIdfs.s3.awsSecretAccessKeyhadoop.tmp.dir/var/lib/hadoop-0.20/cache/${user.name}但是当我在namenode日志中启动hadoop守护进程时,我收到以下错误消息:2010-11-0323:45:21,680ERRORorg.apache.hadoop.hdfs.server.namenode.NameNode:ja

amazon-web-services - 在 hadoop 中指定 AWS 凭证

我想在运行时指定AWS_SECRET_ACCESS_KEY和AWS_ACCESS_KEY_ID。我已经尝试过使用hadoop-Dfs.s3a.access.key=${AWS_ACESS_KEY_ID}-Dfs.s3a.secret.key=${AWS_SECRET_ACCESS_KEY}fs-lss3a://my_bucket/和exportHADOOP_CLIENT_OPTS="-Dfs.s3a.access.key=${AWS_ACCESS_KEY_ID}-Dfs.s3a.secret.key=${AWS_SECRET_ACCESS_KEY}"和exportHADOOP_OPTS

amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS?

我正在EC2上设置Hadoop集群,我想知道如何进行DFS。我所有的数据目前都在s3中,所有map/reduce应用程序都使用s3文件路径来访问数据。现在我一直在研究Amazon的EMR是如何设置的,它似乎为每个作业流设置了一个名称节点和数据节点。现在我想知道我是否真的需要那样做,或者我是否可以只使用s3(n)作为DFS?如果这样做,有什么缺点吗?谢谢! 最佳答案 为了使用S3而不是HDFS,core-site.xml中的fs.name.default需要指向您的存储桶:fs.default.names3n://your-bucke

hadoop - 使用 bootstrap 替换 EMR 上的默认 jar

我在带有AMI3.0.4的EMR集群上。集群启动后,我ssh到master并手动执行以下操作:cd/home/hadoop/share/hadoop/common/lib/rmguava-11.0.2.jarwgethttp://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1.jarchmod777guava-14.0.1.jar是否可以在引导操作中执行上述操作?谢谢! 最佳答案 在EMR4.0中,hadoop安装路径发生了变化。所以手动更新gu

hadoop - 自动缩放 EMR - 是否需要?我应该只使用 EC2 吗?我应该只使用 Qubole 吗?

为了减少配置时间,我们决定保留一个包含5个实例的专用EMR集群(我们预计大约需要5个)。如果我们需要更多,我们认为我们需要实现某种自动缩放。我对EMR一点都不熟悉-它支持自动缩放吗?我在文档中找到了这个:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html这是查找自动缩放的正确位置还是我误解了“调整大小”的含义。我读过EMR的一个好处是“按需处理”,我认为它在ec2实例之间分配负载而无需指定实例数量,所以这给我的印象是它自己进行ec2实例的扩展,这意味着我们不需要

hadoop - 无法在 EMR 中重启 Hue

我无法在AWSEMRHadoop集群中重启Hue。我已经修改了hue.ini文件并想重新启动hue以应用更改。当我运行“servicehuerestart”时,它给出“commandnotfound”错误。我可以理解这一定是因为hue没有添加到环境路径中。但是,当我运行bin/hue时,它​​不会将重启作为输入。有没有办法重新启动色调?我正在使用Hue3.7.1-amzn-7、emr-4.8.4和Amazon2.7.3Hadoop发行版。提前致谢。 最佳答案 重启过程取决于您使用的EMRAMI版本。在EMR4.x.x和5.x.xAM

hadoop - 403 拒绝访问 Amazon S3 删除 protected 文件夹

我在amazons3中有一个文件夹,我限制了删除任何文件夹的权限。但是,现在发生的事情是我无法使用配置单元脚本创建任何文件夹。此配置单元查询创建一个名为_tmp.customerlevel的临时文件夹。一旦它完成mapreduce作业,它就会尝试删除它。但是,由于删除配置单元查询的限制而失败。任何人都可以告诉我解决方法,以便我可以维护删除保护权限以及我可以使用配置单元脚本写入数据吗?Insertoverwritedirectory's3://logs/customerlevel'select*fromcustomer;REST.DELETE.OBJECTlogs/_tmp.custom