amazon-elasticache

ant - Amazon EMR 教程示例不使用 ant 进行编译

我正在尝试做AmazonEMR(ElasticMapReduce)的教程https://www.youtube.com/embed/ZSu8N2PoVbM?rel=0&hd=1;autoplay=1我下载了教程示例http://elasticmapreduce.s3.amazonaws.com/training/wikipedia-lab.tgz，它计算维基百科文档集合中二元组的数量。我一开始就卡住了:2.Buildthejobjar[Onyourdevmachine]%antcleanjobThiswillcreatethewikipedia-ngrams-job.jarHadoop

hadoop - 在 Amazon EMR 上运行带有输入参数的自定义 jar 文件

所以，我正在尝试运行WordCountAmazonEMR上的hadoop应用程序。我有自己的数据文件，已上传到abcbucket。我还在abcbucket下添加了wordcount.jar文件。谁能告诉我当我们创建集群时，我们如何提供数据文件的路径以及我们是否还需要提供输出目录路径，如果是那么我如何提供输出目录路径？最佳答案数据文件作为参数传入Jar，数据文件位于S3存储桶中。输出也是一个s3存储桶，在这种情况下，您可以使用相同的存储桶，只需在存储桶中有一个目录/output并将所有输出发送到那里。https://blog.sa

自定 hadoop section running-hadoop-mapreduce-jobs-on-amazon-web-services amazon-ec2 amazon-s3 amazon-emr

java - AmazonS3Client 在 hadoop(oozie) 中通过代理

我正在尝试通过oozie运行java代码。该代码是为非代理环境编写的，但我试图在需要代理服务器设置的环境中实现它。这是我在运行作业时遇到的错误。2015-05-1809:22:26,929WARNcom.amazonaws.http.AmazonHttpClient:UnabletoexecuteHTTPrequest:connecttimedoutjava.net.SocketTimeoutException:connecttimedout现在这是预期的行为，因为我需要通过代理传递那个，但问题是我没有看到这个连接到代理。所有人都试图直接连接到互联网，但被防火墙阻止了。我已经使用/et

中通 AmazonS3Client gt lt section java hadoop amazon-s3 proxy oozie

hadoop - AmazonS3Exception 错误请求 : distcp from frankfurt s3 to emr hdfs failing

我正在尝试将文件从法兰克福(eu-central-1)的s3存储桶复制到我在爱尔兰(eu-west-1)通过EMR托管的hdfs。我尝试在以下位置执行的复制命令:hdfsdfs-cp"s3a:///"/user/hadoop/和s3-dist-cp--src"s3a:///"--desthdfs:///user/hadoop/--srcPattern和hadoopdistcp"s3a:///"/user/hadoop/在所有情况下(以及关于所有这些命令的额外选项和s3、s3a、s3n的各种排列)我确实得到类似以下异常的信息:16/01/1511:48:24ERRORtools.Dist

AmazonS3Exception 3Exception hadoop java apache amazon-web-services amazon-s3 emr

amazon-web-services - AWS EMR 集群失败，因为磁盘已满

我在具有约10个节点的awsemr集群上运行一些Map-Reduce-Jobs。(emr4.7.11,m3.xlarge)当作业正在运行时，工作节点在约4小时后开始一个接一个地死亡。在日志中我发现了以下错误:“1/3本地目录错误:/mnt/yarn；1/1日志目录错误:/var/log/hadoop-yarn/containers”当节点出现故障时，工作节点上的磁盘使用率为96%。所以我假设节点上的磁盘达到100%，并且没有文件可以写入磁盘。所以我尝试为每个实例附加一个500GB的EBS卷。但是Hadoop只使用了/mnt，并没有使用额外的Volume(/mnt2)。如何配置AWSEM

amazon-web-services services hadoop code section amazon-emr

amazon-web-services - 尝试从本地计算机访问 AWS 上的 HDFS 文件时出现错误

我已经在thistutorial之后在AWSEC2上成功安装了hadoop和spark.我可以从AWS上的spark访问HDFS。但是，当我尝试通过以下方式从本地计算机访问HDFS文件时vallines=sc.textFile("hdfs://namenode_public_DNS:9000/datasets/wikipedia/wikipedia.dat")lines.first()我明白了17/04/1016:35:41WARNBlockReaderFactory:I/Oerrorconstructingremoteblockreader.org.apache.hadoop.net

时出 amazon-web-services section code pre hadoop apache-spark amazon-ec2 hdfs

amazon-web-services - 列出 EMR 上的 S3 文件夹

我无法理解如何在Spark作业期间简单地列出EMR上S3存储桶的内容。我想做以下事情Configurationconf=spark.sparkContext().hadoopConfiguration();FileSystems3=S3FileSystem.get(conf);Listlist=toList(s3.listFiles(newPath("s3://mybucket"),false))这总是失败并出现以下错误java.lang.IllegalArgumentException:WrongFS:s3://*********/,expected:hdfs://*********

amazon-web-services services section code FileSystem hadoop amazon-s3 amazon-emr

azure - 对于 Hadoop，选择哪种数据存储，Amazon S3 还是 Azure Blob Store？

我正在处理Hadoop项目并在我的本地集群中生成大量数据。稍后我将使用基于云的Hadoop解决方案，因为与实际工作负载相比，我的Hadoop集群非常小，但是我现在无法选择我将使用哪一个，即基于WindowsAzure、EMR或其他。我在本地生成大量数据，并希望将这些数据存储到一些基于云的存储中，因为我将在稍后但很快将这些数据与Hadoop一起使用。我正在寻找建议，以根据某人的经验来决定选择哪个云存储。提前致谢。最佳答案首先这是一个很好的问题。让我们尝试理解“Hadoop中如何处理数据”:在Hadoop中，所有数据都在Hadoop

种数 Hadoop li section azure amazon-web-services emr

java - Amazon (EMR) 使用哪个 Hadoop 版本？

我想创建一个Hadoop作业并在EC2MapReduce上运行它。另外，我想在上传到EC2之前在本地运行该作业。我应该在本地安装哪个版本/类型的Hadoop？我可以使用ClouderaVM吗？亚马逊使用哪个Hadoop版本？最佳答案 AmazonElasticMapReduce支持Hadoop0.18、0.20和0.20.205(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIVersion.

Amazon Hadoop section Cloudera java amazon-ec2 amazon-emr

hadoop - Amazon Elastic Mapreduce 默认配置

Hadoop默认配置(core-site.xml、yarn-site.xml等)是否由Amazon发布？我看到了一些已发布的参数，但没有看到全部默认配置。最佳答案您将在以下链接的amazonemr文档页面找到默认配置http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html您可以找到触发作业的配置。您可以访问保存日志的S3位置。在那里你会找到j-yourjoblogsfilelocation/jobs/jo

Mapreduce Elastic section TaskConfiguration_H TaskConfiguration hadoop amazon-ec2 emr

140 141 142143144 145 146