amazon-elb

hadoop - 用于日志分析的 Amazon MapReduce 最佳实践

我正在解析由Apache、Nginx、Darwin(视频流服务器)生成的访问日志，并按日期/推荐人/用户代理汇总每个已交付文件的统计信息。每小时生成大量日志，并且这个数字在不久的将来可能会急剧增加-因此通过AmazonElasticMapReduce以分布式方式处理此类数据听起来很合理。现在我已经准备好使用映射器和缩减器来处理我的数据并使用以下流程测试整个过程:将映射器、reducer和数据上传到AmazonS3配置适当的作业并成功处理将聚合结果从AmazonS3下载到我的服务器，并通过运行CLI脚本将它们插入MySQL数据库我已经根据Internet上有关AmazonERM的数千个教

MapReduce hadoop li Amazon section logging amazon-s3 amazon-emr hadoop-streaming

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件，我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp，一个成员众多的集群，可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

何以 amazon-s section hadoop 数来 amazon-s3 hdfs

hadoop - Amazon Elastic Map Reduce - 创建工作流程

我对亚马逊服务还很陌生。我在创建工作流程时遇到问题。每次我创建任何作业流程时，它都会失败或关闭。我不清楚输入、输出或映射器函数上传技术。我关注了开发人员部分，但事情并不清楚。任何建议都会有所帮助。提前致谢。错误日志是LastStateChange:Noactivekeysfoundforuseraccount 最佳答案这是对我有用的修复，如果您的工作流程报告以下错误，您可能需要它:LastStateChange:Noactivekeysfoundforuseraccount当您创建AWS账户时，默认情况下，必须为您创建安全访问ke

工作流程 Elastic section strong hadoop amazon-s3 amazon-ec2 elastic-map-reduce emr

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在，当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的，第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

时出 amazon-s code gt lt amazon-s3 amazon-ec2 hadoop cloud hdfs

amazon-web-services - Amazon MapReduce 无 reducer 作业

我正在尝试通过AWS(流式作业)创建仅映射器作业。reducer字段是必需的，因此我提供了一个虚拟可执行文件，并将-jobconfmapred.map.tasks=0添加到ExtraArgs框中。在我安装的hadoop环境(版本0.20)中，不会启动reducer作业，但在AWS中，虚拟可执行文件启动并失败。如何在AWS中运行一个没有reducer/mapper的作业？最佳答案您也可以使用cat或NONE作为reducer参数。关于amazon-web-services-Amazo

amazon-web-services MapReduce section reducer 中运 hadoop reducers

java - Spark 是否允许对 DynamoDB 使用 Amazon Assumed Role 和 STS 临时凭证？

我需要使用Java使用Spark从DynamoDB表中获取数据。它适用于用户的访问key和secretkey:finalJobConfjobConf=newJobConf(sc.hadoopConfiguration());jobConf.set("dynamodb.servicename","dynamodb");jobConf.set("dynamodb.input.tableName",tableName);jobConf.set("mapred.output.format.class","org.apache.hadoop.dynamodb.write.DynamoDBOutp

DynamoDB Assumed 34 hadoop java apache-spark amazon-dynamodb aws-sdk

amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用

我需要在EMR中设置一个自定义环境变量，以便在运行spark应用程序时可用。我试过添加这个:...--configurations'[{"Classification":"spark-env","Configurations":[{"Classification":"export","Configurations":[],"Properties":{"SOME-ENV-VAR":"qa1"}}],"Properties":{}}]'...还尝试用hadoop-env替换“spark-env”但似乎没有任何效果。有this来自aws论坛的回答。但我不知道如何应用它。我在EMR5.3.1上

中设自定 34 code section amazon-web-services hadoop apache-spark environment-variables emr

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗？我发现他们使用的是自己的S3FileSystem，而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna

hadoop Amazon section Flink strong amazon-s3 apache-flink

hadoop - 如何将 AWS 访问 key ID 和 secret 访问 key 指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数从网页传递给mapreduce字数统计程序。出现以下错误:HTTPStatus500-Requestprocessingfailed;nestedexceptionisjava.lang.IllegalArgumentException:AWSAccessKeyIDandSecretAccessKeymustbespecifiedastheusernameorpassword(respectively)ofas3nURL,orbysettingthefs.s3n.awsAccessKeyIdorfs.s3n.awsSecretAccessKeypropert

定为 key section s3n hadoop amazon-web-services amazon-s3 mapreduce hadoop2

amazon-s3 - 如何将文件从 S3 复制到 Amazon EMR HDFS？

我在EMR上运行hive，并需要将一些文件复制到所有EMR实例。据我所知，一种方法是将文件复制到每个节点上的本地文件系统，另一种方法是将文件复制到HDFS，但是我还没有找到直接从S3复制到HDFS的简单方法。解决这个问题的最佳方法是什么？最佳答案最好的方法是使用Hadoop的distcp命令。示例(在其中一个集群节点上):%${HADOOP_HOME}/bin/hadoopdistcps3n://mybucket/myfile/root/myfile这会将名为myfile的文件从名为mybucket的S3存储桶复制到HDFS中的

amazon-s amazon section distcp myfile amazon-s3 hadoop hive hdfs emr

139 140 141142143 144 145