草庐IT

hadoop - YARN 如何决定创建多少个容器? (为什么S3a和HDFS有区别?)

我正在使用当前版本的Hadoop,并运行一些TestDFSIO基准测试(1.8版)来比较默认文件系统是HDFS与默认文件系统是S3存储桶的情况(通过S3a使用)。在默认文件系统为S3a的情况下读取100x1MB文件时,我观察到YARNWebUI中的最大容器数小于默认情况下的HDFS,而S3a约为慢4倍。当使用默认文件系统S3a读取1000x10KB文件时,我观察到YARNWebUI中的最大容器数至少比默认为HDFS,S3a大约慢16倍。(例如,默认情况下HDFS的测试执行时间为50秒,而默认情况下S3a的测试执行时间为16分钟。)启动的maptask的数量在每种情况下都符合预期,这方面

java - 亚马逊电子病历 : running Custom Jar with input and output from S3

我正在尝试运行具有自定义jar步骤的EMR集群。该程序从S3获取输入并输出到S3(或者至少这是我想要完成的)。在步骤配置中,我在参数字段中有以下内容:v3.MaxTemperatureDrivers3n://hadoopbook/ncdc/alls3n://hadoop-szhu/max-temp其中hadoopbook/ncdc/all是包含输入数据的存储桶的路径(作为旁注,我正在运行的示例来自此book),并且hadoop-szhu是我自己的存储桶,我想在其中存储输出。按照这个post,我的MapReduce驱动程序如下所示:packagev3;importorg.apache.h

hadoop - 将 HDFS 从本地磁盘替换为 s3 出现错误 (org.apache.hadoop.service.AbstractService)

我们正在尝试设置Cloudera5.5,其中HDFS将仅在s3上工作,因为我们已经在Core-site.xml中配置了必要的属性fs.s3a.access.key################fs.s3a.secret.key###############fs.default.names3a://bucket_Namefs.defaultFSs3a://bucket_Name设置完成后,我们可以通过命令浏览s3存储桶的文件hadoopfs-ls/它显示了仅在s3上可用的文件。但是当我们启动yarn服务时,JobHistory服务器无法启动并出现以下错误,而在启动pig作业时,我们会遇

scala - 如何使用 Spark 在 S3 中捆绑多个文件

我在S3中有2000万个文件,跨越大约8000天。文件按UTC时间戳组织,如下所示:s3://mybucket/path/txt/YYYY/MM/DD/filename.txt.gz。每个文件都是UTF-8文本,包含0(空)到100KB的文本(第95个百分位数,尽管有一些文件高达数MB)。使用Spark和Scala(我对两者都不熟悉,想学习),我想保存“每日包”(其中8000个),每个包包含当天找到的任意数量的文件。理想情况下,我想存储原始文件名及其内容。输出也应驻留在S3中并以某种适合在进一步的Spark步骤和实验中输入的格式进行压缩。一个想法是将包存储为一堆JSON对象(每行一个,

scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

我正在尝试从包含许多子目录的目录中读取文件。数据在S3中,我正在尝试这样做:valrdd=sc.newAPIHadoopFile(data_loc,classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.io.NullWritable])这似乎行不通。感谢帮助 最佳答案 是的,它可以工作,

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢 最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp,一个成员众多的集群,可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上,我希望在这里取得更大的成功。我不确定它是否与spark直接相关,尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回,当它们返回时,我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi

scala - 将 S3(法兰克福)与 Spark 结合使用

有人使用hadoop/spark1.6.0在Frankfurt上使用s3吗?我正在尝试将作业的结果存储在s3上,我的依赖项声明如下:"org.apache.spark"%%"spark-core"%"1.6.0"exclude("org.apache.hadoop","hadoop-client"),"org.apache.spark"%%"spark-sql"%"1.6.0","org.apache.hadoop"%"hadoop-client"%"2.7.2","org.apache.hadoop"%"hadoop-aws"%"2.7.2"我设置了以下配置:System.setPr

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗?我发现他们使用的是自己的S3FileSystem,而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna