草庐IT

amazon-elasticache

全部标签

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的,因此我提供了一个虚拟可执行文件,并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中,不会启动reducer作业,但在AWS中,虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业? 最佳答案 您也可以使用cat或NONE作为reducer参数。 关于amazon-web-services-Amazo

java - Spark 是否允许对 DynamoDB 使用 Amazon Assumed Role 和 STS 临时凭证?

我需要使用Java使用Spark从DynamoDB表中获取数据。它适用于用户的访问key和secretkey:finalJobConfjobConf=newJobConf(sc.hadoopConfiguration());jobConf.set("dynamodb.servicename","dynamodb");jobConf.set("dynamodb.input.tableName",tableName);jobConf.set("mapred.output.format.class","org.apache.hadoop.dynamodb.write.DynamoDBOutp

amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用

我需要在EMR中设置一个自定义环境变量,以便在运行spark应用程序时可用。我试过添加这个:...--configurations'[{"Classification":"spark-env","Configurations":[{"Classification":"export","Configurations":[],"Properties":{"SOME-ENV-VAR":"qa1"}}],"Properties":{}}]'...还尝试用hadoop-env替换“spark-env”但似乎没有任何效果。有this来自aws论坛的回答。但我不知道如何应用它。我在EMR5.3.1上

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗?我发现他们使用的是自己的S3FileSystem,而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna

hadoop - 如何将 AWS 访问 key ID 和 secret 访问 key 指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数从网页传递给mapreduce字数统计程序。出现以下错误:HTTPStatus500-Requestprocessingfailed;nestedexceptionisjava.lang.IllegalArgumentException:AWSAccessKeyIDandSecretAccessKeymustbespecifiedastheusernameorpassword(respectively)ofas3nURL,orbysettingthefs.s3n.awsAccessKeyIdorfs.s3n.awsSecretAccessKeypropert

amazon-s3 - 如何将文件从 S3 复制到 Amazon EMR HDFS?

我在EMR上运行hive,并需要将一些文件复制到所有EMR实例。据我所知,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文件复制到HDFS,但是我还没有找到直接从S3复制到HDFS的简单方法。解决这个问题的最佳方法是什么? 最佳答案 最好的方法是使用Hadoop的distcp命令。示例(在其中一个集群节点上):%${HADOOP_HOME}/bin/hadoopdistcps3n://mybucket/myfile/root/myfile这会将名为myfile的文件从名为mybucket的S3存储桶复制到HDFS中的

hadoop - Hadoop 中 Amazon S3 和 S3n 的区别

当我将我的Hadoop集群连接到Amazon存储并将文件下载到HDFS时,我发现s3://不起作用。在Internet上寻找帮助时,我发现我可以使用S3n。当我使用S3n时,它起作用了。我不明白在我的Hadoop集群中使用S3和S3n之间的区别,有人可以解释一下吗? 最佳答案 使用AmazonS3的两个文件系统记录在相应的HadoopwikipageaddressingAmazonS3中:S3NativeFileSystem(URIscheme:s3n)Anativefilesystemforreadingandwritingreg

amazon-ec2 - HDFS 错误 : could only be replicated to 0 nodes, 而不是 1

我在EC2中创建了一个ubuntu单节点hadoop集群。测试一个简单的文件上传到hdfs可以在EC2机器上运行,但不能在EC2之外的机器上运行。我可以从远程机器通过Web界面浏览文件系统,它显示一个报告为正在服务的数据节点。已经打开了从0到60000(!)的安全性中的所有tcp端口,所以我不认为是这样。我得到了错误java.io.IOException:File/user/ubuntu/piescouldonlybereplicatedto0nodes,insteadof1atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.ge

amazon-web-services - 从技术上讲,s3n、s3a 和 s3 之间有什么区别?

我知道https://wiki.apache.org/hadoop/AmazonS3的存在以及以下的话:S3NativeFileSystem(URIscheme:s3n)AnativefilesystemforreadingandwritingregularfilesonS3.TheadvantageofthisfilesystemisthatyoucanaccessfilesonS3thatwerewrittenwithothertools.Conversely,othertoolscanaccessfileswrittenusingHadoop.Thedisadvantageist

php - 使用适用于 PHP 的 AWS 开发工具包上传的 Amazon S3 文件始终为 “application/octet-stream”?

根据docs,contentType是可选的,它将尝试根据文件扩展名确定正确的mime类型。但是,它似乎从不猜测mime类型,并且始终默认为application/octet-stream这是我的代码:$s3=newAmazonS3();$opt=array('fileUpload'=>$_FILES['file']['tmp_name'],'storage'=>Amazons3::STORAGE_REDUCED);$r=$s3->create_object('mybucket',$_FILES['file']['name'],$opt);这是我的AWS控制台的屏幕截图:你如何在不设置