草庐IT

S3PutObjectOperation_Internal

全部标签

hadoop - 将 s3distcp 与 Amazon EMR 结合使用以复制单个文件

我只想使用s3distcp将一个文件复制到HDFS。我试过使用srcPattern参数,但它没有帮助,它一直在抛出java.lang.Runtime异常。我正在使用的正则表达式可能是罪魁祸首,请帮忙。我的代码如下:elastic-mapreduce-j$jobflow--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3:///'--args'--dest,hdfs:///output'--arg--srcPattern--arg'(filename)'异常抛出:Ex

hadoop - 当您使用 S3 位置在 Hive 中创建外部表时,何时传输数据?

当您使用AmazonS3源位置在Hive(在Hadoop上)中创建外部表时,数据何时传输到本地HadoopHDFS?是否开启:外部表创建当查询(MR作业)在外部表上运行时从不(从未传输过任何数据)并且MR作业读取S3数据。此处S3读取产生的成本是多少?将数据传输到HDFS是否有单一成本,或者没有数据传输成本但是当Hive创建的MapReduce作业运行在这个外部表上时会产生读取成本。一个示异常(exception)部表定义是:CREATEEXTERNALTABLEmydata(keySTRING,valueINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY

hadoop - pig 0.13 错误 2998 : Unhandled internal error. org/apache/hadoop/mapreduce/task/JobContextImpl

刚刚安装了Pig0.13,我正在尝试将它与Hadoop1.1.2一起使用。(Pig文档指出Pig0.13与Hadoop1.1.2兼容)。根据Pig安装说明,我设置了$PIG_CLASSPATH指向定义了core-site.xml、hdfs-site.xml和mapred-site.xml的/etc/hadoop。Hadoop集群功能正常,可以很好地处理非Pig作业。根据下面的错误描述,我了解到Pig无法找到它正在寻找的JobContextImpl类。根据Hadoop1.1.2API文档,我不认为“任务”是“mapreduce”包的子包。我尝试将hadoop-core-1.1.2.jar

hadoop - YARN 如何决定创建多少个容器? (为什么S3a和HDFS有区别?)

我正在使用当前版本的Hadoop,并运行一些TestDFSIO基准测试(1.8版)来比较默认文件系统是HDFS与默认文件系统是S3存储桶的情况(通过S3a使用)。在默认文件系统为S3a的情况下读取100x1MB文件时,我观察到YARNWebUI中的最大容器数小于默认情况下的HDFS,而S3a约为慢4倍。当使用默认文件系统S3a读取1000x10KB文件时,我观察到YARNWebUI中的最大容器数至少比默认为HDFS,S3a大约慢16倍。(例如,默认情况下HDFS的测试执行时间为50秒,而默认情况下S3a的测试执行时间为16分钟。)启动的maptask的数量在每种情况下都符合预期,这方面

java - 亚马逊电子病历 : running Custom Jar with input and output from S3

我正在尝试运行具有自定义jar步骤的EMR集群。该程序从S3获取输入并输出到S3(或者至少这是我想要完成的)。在步骤配置中,我在参数字段中有以下内容:v3.MaxTemperatureDrivers3n://hadoopbook/ncdc/alls3n://hadoop-szhu/max-temp其中hadoopbook/ncdc/all是包含输入数据的存储桶的路径(作为旁注,我正在运行的示例来自此book),并且hadoop-szhu是我自己的存储桶,我想在其中存储输出。按照这个post,我的MapReduce驱动程序如下所示:packagev3;importorg.apache.h

hadoop - 将 HDFS 从本地磁盘替换为 s3 出现错误 (org.apache.hadoop.service.AbstractService)

我们正在尝试设置Cloudera5.5,其中HDFS将仅在s3上工作,因为我们已经在Core-site.xml中配置了必要的属性fs.s3a.access.key################fs.s3a.secret.key###############fs.default.names3a://bucket_Namefs.defaultFSs3a://bucket_Name设置完成后,我们可以通过命令浏览s3存储桶的文件hadoopfs-ls/它显示了仅在s3上可用的文件。但是当我们启动yarn服务时,JobHistory服务器无法启动并出现以下错误,而在启动pig作业时,我们会遇

scala - 如何使用 Spark 在 S3 中捆绑多个文件

我在S3中有2000万个文件,跨越大约8000天。文件按UTC时间戳组织,如下所示:s3://mybucket/path/txt/YYYY/MM/DD/filename.txt.gz。每个文件都是UTF-8文本,包含0(空)到100KB的文本(第95个百分位数,尽管有一些文件高达数MB)。使用Spark和Scala(我对两者都不熟悉,想学习),我想保存“每日包”(其中8000个),每个包包含当天找到的任意数量的文件。理想情况下,我想存储原始文件名及其内容。输出也应驻留在S3中并以某种适合在进一步的Spark步骤和实验中输入的格式进行压缩。一个想法是将包存储为一堆JSON对象(每行一个,

scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

我正在尝试从包含许多子目录的目录中读取文件。数据在S3中,我正在尝试这样做:valrdd=sc.newAPIHadoopFile(data_loc,classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.io.NullWritable])这似乎行不通。感谢帮助 最佳答案 是的,它可以工作,

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢 最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp,一个成员众多的集群,可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe