S3_REGION_草庐IT

hadoop - 当您使用 S3 位置在 Hive 中创建外部表时，何时传输数据？

当您使用AmazonS3源位置在Hive(在Hadoop上)中创建外部表时，数据何时传输到本地HadoopHDFS？是否开启:外部表创建当查询(MR作业)在外部表上运行时从不(从未传输过任何数据)并且MR作业读取S3数据。此处S3读取产生的成本是多少？将数据传输到HDFS是否有单一成本，或者没有数据传输成本但是当Hive创建的MapReduce作业运行在这个外部表上时会产生读取成本。一个示异常(exception)部表定义是:CREATEEXTERNALTABLEmydata(keySTRING,valueINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY

hadoop - YARN 如何决定创建多少个容器？ (为什么S3a和HDFS有区别？)

我正在使用当前版本的Hadoop，并运行一些TestDFSIO基准测试(1.8版)来比较默认文件系统是HDFS与默认文件系统是S3存储桶的情况(通过S3a使用)。在默认文件系统为S3a的情况下读取100x1MB文件时，我观察到YARNWebUI中的最大容器数小于默认情况下的HDFS，而S3a约为慢4倍。当使用默认文件系统S3a读取1000x10KB文件时，我观察到YARNWebUI中的最大容器数至少比默认为HDFS，S3a大约慢16倍。(例如，默认情况下HDFS的测试执行时间为50秒，而默认情况下S3a的测试执行时间为16分钟。)启动的maptask的数量在每种情况下都符合预期，这方面

java - 亚马逊电子病历 : running Custom Jar with input and output from S3

我正在尝试运行具有自定义jar步骤的EMR集群。该程序从S3获取输入并输出到S3(或者至少这是我想要完成的)。在步骤配置中，我在参数字段中有以下内容:v3.MaxTemperatureDrivers3n://hadoopbook/ncdc/alls3n://hadoop-szhu/max-temp其中hadoopbook/ncdc/all是包含输入数据的存储桶的路径(作为旁注，我正在运行的示例来自此book)，并且hadoop-szhu是我自己的存储桶，我想在其中存储输出。按照这个post，我的MapReduce驱动程序如下所示:packagev3;importorg.apache.h

hadoop - 将 HDFS 从本地磁盘替换为 s3 出现错误 (org.apache.hadoop.service.AbstractService)

我们正在尝试设置Cloudera5.5，其中HDFS将仅在s3上工作，因为我们已经在Core-site.xml中配置了必要的属性fs.s3a.access.key################fs.s3a.secret.key###############fs.default.names3a://bucket_Namefs.defaultFSs3a://bucket_Name设置完成后，我们可以通过命令浏览s3存储桶的文件hadoopfs-ls/它显示了仅在s3上可用的文件。但是当我们启动yarn服务时，JobHistory服务器无法启动并出现以下错误，而在启动pig作业时，我们会遇

scala - 如何使用 Spark 在 S3 中捆绑多个文件

我在S3中有2000万个文件，跨越大约8000天。文件按UTC时间戳组织，如下所示:s3://mybucket/path/txt/YYYY/MM/DD/filename.txt.gz。每个文件都是UTF-8文本，包含0(空)到100KB的文本(第95个百分位数，尽管有一些文件高达数MB)。使用Spark和Scala(我对两者都不熟悉，想学习)，我想保存“每日包”(其中8000个)，每个包包含当天找到的任意数量的文件。理想情况下，我想存储原始文件名及其内容。输出也应驻留在S3中并以某种适合在进一步的Spark步骤和实验中输入的格式进行压缩。一个想法是将包存储为一堆JSON对象(每行一个，

scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

我正在尝试从包含许多子目录的目录中读取文件。数据在S3中，我正在尝试这样做:valrdd=sc.newAPIHadoopFile(data_loc,classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.io.NullWritable])这似乎行不通。感谢帮助最佳答案是的，它可以工作，

hadoop - HBase region server和Hadoop数据节点应该在同一台机器上吗？

抱歉，我没有资源来设置集群来测试它，我只是想知道:我可以在hadoop数据节点机器以外的单独机器上部署hbase区域服务器吗？我想答案是肯定的，但我不确定。hbaseregionserver和hadoopdatanode部署在不同的机器上好还是不好？当将一些数据放入hbase时，这些数据最终存储在什么地方，数据节点还是区域服务器？我猜是datanode，但是regionserver里面的StoreFile和HFile是什么东西，不就是存放我们数据的物理文件吗？谢谢! 最佳答案如果您想要良好的性能，RegionServers应该始终

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件，我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp，一个成员众多的集群，可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在，当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的，第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上，我希望在这里取得更大的成功。我不确定它是否与spark直接相关，尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回，当它们返回时，我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi