amazon-elasticache

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的，因此我提供了一个虚拟可执行文件，并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中，不会启动reducer作业，但在AWS中，虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业？最佳答案您也可以使用cat或NONE作为reducer参数。关于amazon-web-services-Amazo

java - Spark 是否允许对 DynamoDB 使用 Amazon Assumed Role 和 STS 临时凭证？

我需要使用Java使用Spark从DynamoDB表中获取数据。它适用于用户的访问key和secretkey:finalJobConfjobConf=newJobConf(sc.hadoopConfiguration());jobConf.set("dynamodb.servicename","dynamodb");jobConf.set("dynamodb.input.tableName",tableName);jobConf.set("mapred.output.format.class","org.apache.hadoop.dynamodb.write.DynamoDBOutp

DynamoDB Assumed 34 hadoop java apache-spark amazon-dynamodb aws-sdk

amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用

我需要在EMR中设置一个自定义环境变量，以便在运行spark应用程序时可用。我试过添加这个:...--configurations'[{"Classification":"spark-env","Configurations":[{"Classification":"export","Configurations":[],"Properties":{"SOME-ENV-VAR":"qa1"}}],"Properties":{}}]'...还尝试用hadoop-env替换“spark-env”但似乎没有任何效果。有this来自aws论坛的回答。但我不知道如何应用它。我在EMR5.3.1上

中设自定 34 code section amazon-web-services hadoop apache-spark environment-variables emr

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗？我发现他们使用的是自己的S3FileSystem，而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna

hadoop Amazon section Flink strong amazon-s3 apache-flink

hadoop - 如何将 AWS 访问 key ID 和 secret 访问 key 指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数从网页传递给mapreduce字数统计程序。出现以下错误:HTTPStatus500-Requestprocessingfailed;nestedexceptionisjava.lang.IllegalArgumentException:AWSAccessKeyIDandSecretAccessKeymustbespecifiedastheusernameorpassword(respectively)ofas3nURL,orbysettingthefs.s3n.awsAccessKeyIdorfs.s3n.awsSecretAccessKeypropert

定为 key section s3n hadoop amazon-web-services amazon-s3 mapreduce hadoop2

amazon-s3 - 如何将文件从 S3 复制到 Amazon EMR HDFS？

我在EMR上运行hive，并需要将一些文件复制到所有EMR实例。据我所知，一种方法是将文件复制到每个节点上的本地文件系统，另一种方法是将文件复制到HDFS，但是我还没有找到直接从S3复制到HDFS的简单方法。解决这个问题的最佳方法是什么？最佳答案最好的方法是使用Hadoop的distcp命令。示例(在其中一个集群节点上):%${HADOOP_HOME}/bin/hadoopdistcps3n://mybucket/myfile/root/myfile这会将名为myfile的文件从名为mybucket的S3存储桶复制到HDFS中的

amazon-s amazon section distcp myfile amazon-s3 hadoop hive hdfs emr

hadoop - Hadoop 中 Amazon S3 和 S3n 的区别

当我将我的Hadoop集群连接到Amazon存储并将文件下载到HDFS时，我发现s3://不起作用。在Internet上寻找帮助时，我发现我可以使用S3n。当我使用S3n时，它起作用了。我不明白在我的Hadoop集群中使用S3和S3n之间的区别，有人可以解释一下吗？最佳答案使用AmazonS3的两个文件系统记录在相应的HadoopwikipageaddressingAmazonS3中:S3NativeFileSystem(URIscheme:s3n)Anativefilesystemforreadingandwritingreg

hadoop strong filesystem section amazon-s3 hdfs

amazon-ec2 - HDFS 错误 : could only be replicated to 0 nodes, 而不是 1

我在EC2中创建了一个ubuntu单节点hadoop集群。测试一个简单的文件上传到hdfs可以在EC2机器上运行，但不能在EC2之外的机器上运行。我可以从远程机器通过Web界面浏览文件系统，它显示一个报告为正在服务的数据节点。已经打开了从0到60000(!)的安全性中的所有tcp端口，所以我不认为是这样。我得到了错误java.io.IOException:File/user/ubuntu/piescouldonlybereplicatedto0nodes,insteadof1atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.ge

replicated amazon-ec java hadoop apache amazon-ec2

amazon-web-services - 从技术上讲，s3n、s3a 和 s3 之间有什么区别？

我知道https://wiki.apache.org/hadoop/AmazonS3的存在以及以下的话:S3NativeFileSystem(URIscheme:s3n)AnativefilesystemforreadingandwritingregularfilesonS3.TheadvantageofthisfilesystemisthatyoucanaccessfilesonS3thatwerewrittenwithothertools.Conversely,othertoolscanaccessfileswrittenusingHadoop.Thedisadvantageist

amazon-web-services services s3 filesystem section amazon-s3 aws-sdk

php - 使用适用于 PHP 的 AWS 开发工具包上传的 Amazon S3 文件始终为 “application/octet-stream”？

根据docs,contentType是可选的，它将尝试根据文件扩展名确定正确的mime类型。但是，它似乎从不猜测mime类型，并且始终默认为application/octet-stream这是我的代码:$s3=newAmazonS3();$opt=array('fileUpload'=>$_FILES['file']['tmp_name'],'storage'=>Amazons3::STORAGE_REDUCED);$r=$s3->create_object('mybucket',$_FILES['file']['name'],$opt);这是我的AWS控制台的屏幕截图:你如何在不设置

工具包 octet-stream 39 section contentType php amazon-s3 amazon-web-services