amazon-ebs

bash - 使用 Amazon MapReduce/Hadoop 进行图像处理

我有一个项目需要我处理大量(1000-10000)大(100MB到500MB)图像。我正在进行的处理可以通过Imagemagick完成，但我希望实际上是在Amazon的ElasticMapReduce平台(我相信该平台使用Hadoop运行)上进行处理。在我找到的所有示例中，它们都处理基于文本的输入(我发现WordCount样本有十亿次)。我找不到任何有关Hadoop此类工作的信息:从一组文件开始，对每个文件执行相同的操作，然后将新文件的输出作为它自己的文件写出。我很确定这可以用这个平台来完成，并且应该可以用Bash来完成；我认为我不需要费心去创建整个Java应用程序或其他东西，但我可能

amazon-web-services - Hadoop 2.9.2、Spark 2.4.0 访问 AWS s3a 存储桶

已经有几天了，但我无法使用Spark从公共(public)AmazonBucket下载:(这是spark-shell命令:spark-shell--masteryarn-v--jarsfile:/usr/local/hadoop/share/hadoop/tools/lib/hadoop-aws-2.9.2.jar,file:/usr/local/hadoop/share/hadoop/tools/lib/aws-java-sdk-bundle-1.11.199.jar--driver-class-path=/usr/local/hadoop/share/hadoop/tools/li

amazon-web-services services hadoop apache java apache-spark

java - 使用 Java SDK 将多个文件批处理到 Amazon S3

我正在尝试通过附加文件将多个文件全部上传到同一key下的AmazonS3。我有一个文件名列表，想按该顺序上传/附加文件。我几乎完全遵循thistutorial但我首先循环遍历每个文件并部分上传。因为文件在hdfs上(Path实际上是org.apache.hadoop.fs.Path)，所以我使用输入流来发送文件数据。下面是一些伪代码(我正在评论教程中逐字逐句的block)://CreatealistofUploadPartResponseobjects.Yougetoneofthesefor//eachpartupload.ListpartETags=newArrayList();//

Amazon java AmazonHttpClient code section amazon-web-services hadoop amazon-s3 aws-java-sdk

amazon-web-services - 运行 EMR 示例，出现 301 错误

我正在尝试运行示例hadoop-streaming命令:hadoop-streaming-filesstreamingCode/wordSplitter.py\-mapperwordSplitter.py\-inputs3://elasticmapreduce/samples/wordcount/input\-outputstreamingCode/wordCountOut\-reduceraggregate但我一直收到这个错误:Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.service

amazon-web-services services code section Exception hadoop emr amazon-emr

hadoop - 从本地 Hadoop 到 Amazon S3 的 DistCp

我正在尝试使用distcp将文件夹从我的本地hadoop集群(cdh4)复制到我的AmazonS3存储桶。我使用以下命令:hadoopdistcp-log/tmp/distcplog-s3/hdfs://nameserv1/tmp/data/sampledatas3n://hdfsbackup/hdfsbackup是我的AmazonS3存储桶的名称。DistCp因未知主机异常而失败:13/05/3111:22:33INFOtools.DistCp:srcPaths=[hdfs://nameserv1/tmp/data/sampledata]13/05/3111:22:33INFOtoo

hadoop apache java amazon-s3

hadoop - 具有多个输入参数的 Amazon EMR 作业

在Amazon数据管道中，我正在创建使用Hive将S3复制到EMR的事件。为了实现它，我必须将两个输入参数作为一个步骤传递给EMR作业。我搜索了几乎所有数据管道文档，但没有找到指定多个输入参数的方法。我也和AWS支持团队谈过，但他们也不清楚。他们建议的方法/技巧也不起作用。下面是我的步骤参数和Hive查询。如果有人有实现它的想法，请告诉我。步骤:s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://us-east-1.elasticmapreduce/libs/hive/hive-script

hadoop Amazon string user user_id amazon-s3 amazon-emr amazon-data-pipeline

hadoop - 如何为 DynamoDb Amazon 控制台导出映射 Hive 中的字段？

我正在尝试将使用“导入/导出”工具从AmazonDynamodbWeb控制台获取的DynamoDb导出文件加载到Hive中。但我无法正确映射字段，因为DynamoDBWeb控制台“导出”工具使用的是“ETX”“STX”。下面是一个以[LF]结尾的示例行Elapsed[ETX]{"n":"1477"}[STX]Device[ETX]{"n":"3"}[STX]Date[ETX]{"s":"2014-03-05T12:13:00.852Z"}[STX]Duration[ETX]{"n":"8075"}[LF]这个查询应该是什么？CREATEEXTERNALTABLEIFNOTEXISTST

何为 DynamoDb 34 section code hadoop hive amazon-dynamodb elastic-map-reduce amazon-emr

amazon-web-services - AWS EMR 集群流式处理步骤 : Bad Request

我正在尝试设置一个简单的EMR作业来对存储在s3://__mybucket__/input/中的大量文本文件执行字数统计。我无法正确添加两个必需的流式处理步骤中的第一个(第一个是将输入映射到wordSplitter.py，使用IdentityReducer减少到临时存储；第二个步骤是使用/bin/wc/映射此辅助存储的内容，并再次使用IdentityReducer进行缩减。这是第一步的(失败)描述:Status:FAILEDReason:S3ServiceError.LogFile:s3://aws-logs-209733341386-us-east-1/elasticmapreduc

流式 amazon-web-services code section hadoop amazon-s3 elastic-map-reduce

c++ - 使用自定义 AMI 运行 Amazon EMR？

我需要在Amazon上运行自定义C++作业作为MapReduce，并计划为此使用Hadoop流。C++映射器可执行文件依赖于数十个自定义库，其中一些构建起来非常耗时。我希望EMR能够支持自定义AMI(已经构建了一个)。然而，仔细查看文档后，似乎只能在预定义图像上运行EMR:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-cli-commands.html.我错过了什么吗？如果确实只支持预定义的AMI，那么让它运行的最佳选择是什么？显然，可执行文件在s3上，但我真的可以将它捆绑起来，以便它完全不依

自定 amp ElasticMapReduce DeveloperGuide c++hadoop amazon-web-services amazon-emr amazon-ami

hadoop - 在 Amazon EMR 上使用来自 java 的 hbase 时遇到问题

因此，我尝试使用作为MapReduce步骤启动的自定义jar在Amazonec2上查询我的hbase集群。我是我的jar(在map函数内)，我这样调用Hbase:publicvoidmap(Textkey,BytesWritablevalue,Contextcontex)throwsIOException,InterruptedException{Configurationconf=HBaseConfiguration.create();HTabletable=newHTable(conf,"tablename");...问题是，当它到达该HTable行并尝试连接到hbase时，该步骤

hadoop Amazon hbase zookeeper amazon-web-services apache-zookeeper elastic-map-reduce

140 141 142143144 145 146