amazon-ebs

hadoop - 在 Amazon EMR 中的所有 Hadoop 节点上运行脚本

如何在AmazonEMR上的所有节点(主节点和从节点)上运行脚本，script-runner.jar仅在Namenode上运行。最佳答案您有Bootstrap选项:您可以使用引导操作来安装其他软件并更改集群上应用程序的配置。引导操作是在AmazonEMR启动集群时在集群节点上运行的脚本。它们在Hadoop启动之前和节点开始处理数据之前运行。您可以创建自定义引导操作，或使用AmazonEMR提供的预定义引导操作。来自文档:http://docs.aws.amazon.com/ElasticMapReduce/latest/Deve

hadoop - 将 s3distcp 与 Amazon EMR 结合使用以复制单个文件

我只想使用s3distcp将一个文件复制到HDFS。我试过使用srcPattern参数，但它没有帮助，它一直在抛出java.lang.Runtime异常。我正在使用的正则表达式可能是罪魁祸首，请帮忙。我的代码如下:elastic-mapreduce-j$jobflow--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3:///'--args'--dest,hdfs:///output'--arg--srcPattern--arg'(filename)'异常抛出:Ex

用以 s3distcp java JobClient hadoop amazon-s3 mapreduce elastic-map-reduce emr

hadoop - 用于日志分析的 Amazon MapReduce 最佳实践

我正在解析由Apache、Nginx、Darwin(视频流服务器)生成的访问日志，并按日期/推荐人/用户代理汇总每个已交付文件的统计信息。每小时生成大量日志，并且这个数字在不久的将来可能会急剧增加-因此通过AmazonElasticMapReduce以分布式方式处理此类数据听起来很合理。现在我已经准备好使用映射器和缩减器来处理我的数据并使用以下流程测试整个过程:将映射器、reducer和数据上传到AmazonS3配置适当的作业并成功处理将聚合结果从AmazonS3下载到我的服务器，并通过运行CLI脚本将它们插入MySQL数据库我已经根据Internet上有关AmazonERM的数千个教

MapReduce hadoop li Amazon section logging amazon-s3 amazon-emr hadoop-streaming

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件，我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp，一个成员众多的集群，可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

何以 amazon-s section hadoop 数来 amazon-s3 hdfs

hadoop - Amazon Elastic Map Reduce - 创建工作流程

我对亚马逊服务还很陌生。我在创建工作流程时遇到问题。每次我创建任何作业流程时，它都会失败或关闭。我不清楚输入、输出或映射器函数上传技术。我关注了开发人员部分，但事情并不清楚。任何建议都会有所帮助。提前致谢。错误日志是LastStateChange:Noactivekeysfoundforuseraccount 最佳答案这是对我有用的修复，如果您的工作流程报告以下错误，您可能需要它:LastStateChange:Noactivekeysfoundforuseraccount当您创建AWS账户时，默认情况下，必须为您创建安全访问ke

工作流程 Elastic section strong hadoop amazon-s3 amazon-ec2 elastic-map-reduce emr

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在，当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的，第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

时出 amazon-s code gt lt amazon-s3 amazon-ec2 hadoop cloud hdfs

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的，因此我提供了一个虚拟可执行文件，并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中，不会启动reducer作业，但在AWS中，虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业？最佳答案您也可以使用cat或NONE作为reducer参数。关于amazon-web-services-Amazo

amazon-web-services MapReduce section reducer 中运 hadoop reducers

java - Spark 是否允许对 DynamoDB 使用 Amazon Assumed Role 和 STS 临时凭证？

我需要使用Java使用Spark从DynamoDB表中获取数据。它适用于用户的访问key和secretkey:finalJobConfjobConf=newJobConf(sc.hadoopConfiguration());jobConf.set("dynamodb.servicename","dynamodb");jobConf.set("dynamodb.input.tableName",tableName);jobConf.set("mapred.output.format.class","org.apache.hadoop.dynamodb.write.DynamoDBOutp

DynamoDB Assumed 34 hadoop java apache-spark amazon-dynamodb aws-sdk

amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用

我需要在EMR中设置一个自定义环境变量，以便在运行spark应用程序时可用。我试过添加这个:...--configurations'[{"Classification":"spark-env","Configurations":[{"Classification":"export","Configurations":[],"Properties":{"SOME-ENV-VAR":"qa1"}}],"Properties":{}}]'...还尝试用hadoop-env替换“spark-env”但似乎没有任何效果。有this来自aws论坛的回答。但我不知道如何应用它。我在EMR5.3.1上

中设自定 34 code section amazon-web-services hadoop apache-spark environment-variables emr

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗？我发现他们使用的是自己的S3FileSystem，而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna

hadoop Amazon section Flink strong amazon-s3 apache-flink

141 142 143144145 146 147