S3FileSystem

hadoop - 如果我使用 S3 而不是 HDFS，是否仍然需要 Namenode？

最近我正在使用S3在ObjectStore上设置我的Hadoop集群，所有数据文件都存储在S3而不是HDFS中，并且我在S3上成功运行了spark和MP，所以我想知道我的名称节点是否仍然需要，如果是的话，当我在S3上运行hadoop应用程序时，我的名称节点会做什么？谢谢。最佳答案不，只要您有办法处理S3缺乏交付工作提交者所需的一致性这一事实。每隔一段时间，如果S3的列表不够一致，您的结果将是无效的并且您甚至不会注意到。不同的SparkonAWS供应商以他们自己的方式解决这个问题。如果您使用的是ASFspark，则没有任何捆绑软件

Namenode 仍然 section https stackoverflow hadoop amazon-s3 hdfs

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是，我实际上如何在我的集群上运行的hbase中获取我的数据？我需要将它加载到S3中然后加载到我的hbase集群中吗？是否有加载/提取数据的最佳实践？由于我是EC2的新手，因此我将不胜感激。最佳答案您需要通过SSH连接到您的一个节点，

hadoop write section hbase amazon-s3 amazon-ec2

amazon-web-services - 避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我在AWS数据管道中使用EMR事件。此EMR事件正在EMR集群中运行配置单元脚本。它以dynamoDB作为输入并将数据存储在S3中。这是EMR事件中使用的EMR步骤s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hive-script,--run-hive-script,--hive-versions,latest,--args,-f,s3://my-s3-bucket/hive/my_hive_script.q,-d,DYNAMODB_INPUT_TA

中创 amazon-web-services code section hadoop amazon-s3 amazon-emr

hadoop - 在不创建 _temporary 文件夹的情况下将 Spark 数据帧作为 Parquet 写入 S3

我正在使用pyspark从AmazonS3上的Parquet文件中读取数据帧，例如dataS3=sql.read.parquet("s3a://"+s3_bucket_in)这没有问题。但是后来我尝试写数据dataS3.write.parquet("s3a://"+s3_bucket_out)我确实得到以下异常py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo39.parquet.:java.lang.IllegalArgumentException:java.net.URISyntaxException:Relativep

temporary Parquet code section hadoop apache-spark amazon-s3 pyspark

amazon-web-services - 如何使用 apache spark 处理数百万个较小的 s3 文件

所以这个问题一直让我抓狂，而且我开始觉得带有s3的spark不是这项特定工作的正确工具。基本上，我在s3存储桶中有数百万个较小的文件。由于我不一定要了解的原因，这些文件无法合并(其中一个是独特的加密副本)。我见过类似的问题，每一个解决方案都没有产生好的结果。我尝试的第一件事是通配符:sc.wholeTextFiles(s3aPath+"/*/*/*/*.txt").count();注意:计数更多的是关于处理文件需要多长时间的调试。这项工作几乎花了一整天的时间，有超过10个实例，但仍然失败，并在列表底部显示错误。然后我找到了这个链接，它基本上说这不是最佳的:https://forums.

amazon-web-services services 34 objectListing tempMeta hadoop apache-spark amazon-s3

hadoop - 从 s3 ://to local file system 复制文件

我是aws新手。我创建了一个集群并通过ssh连接到主节点。当我尝试将文件从s3://my-bucket-name/复制到pig中的本地file://home/hadoop文件夹时，使用:cps3://my-bucket-name/path/to/filefile://home/hadoop我得到错误:2013-06-0818:59:00,267[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2999:Unexpectedinternalerror.AWSAccessKeyIDandSecretAccessKeymustbespecifi

hadoop system apache pig amazon-web-services amazon-s3 apache-pig hdfs

amazon-web-services - Hadoop 2.9.2、Spark 2.4.0 访问 AWS s3a 存储桶

已经有几天了，但我无法使用Spark从公共(public)AmazonBucket下载:(这是spark-shell命令:spark-shell--masteryarn-v--jarsfile:/usr/local/hadoop/share/hadoop/tools/lib/hadoop-aws-2.9.2.jar,file:/usr/local/hadoop/share/hadoop/tools/lib/aws-java-sdk-bundle-1.11.199.jar--driver-class-path=/usr/local/hadoop/share/hadoop/tools/li

amazon-web-services services hadoop apache java apache-spark

hadoop - s3distcp : can not create path from empty string

从S3到HDFS运行s3distcp时:sudo-uhdfshadoopjar/usr/lib/hadoop/lib/s3distcp.jar--srcs3n://workAAAA-KKKK-logs/production-logs/Log-XXXX-click/Log-XXXXX-click-2013-03-27_06-21-19_i-7XXb2x39_00037.gz--desthdfs:///test/我得到以下异常。我的路径语法(s3n://;hdfs:///)有问题吗？以前有人遇到过这个问题吗？13/04/0412:10:52INFOs3distcp.S3DistCp:Usi

s3distcp 3distcp java hadoop amazon-web-services amazon-s3 hdfs

java - 使用 Java SDK 将多个文件批处理到 Amazon S3

我正在尝试通过附加文件将多个文件全部上传到同一key下的AmazonS3。我有一个文件名列表，想按该顺序上传/附加文件。我几乎完全遵循thistutorial但我首先循环遍历每个文件并部分上传。因为文件在hdfs上(Path实际上是org.apache.hadoop.fs.Path)，所以我使用输入流来发送文件数据。下面是一些伪代码(我正在评论教程中逐字逐句的block)://CreatealistofUploadPartResponseobjects.Yougetoneofthesefor//eachpartupload.ListpartETags=newArrayList();//

Amazon java AmazonHttpClient code section amazon-web-services hadoop amazon-s3 aws-java-sdk

hadoop - 如何让 s3distcp 与换行符合并

我有数以百万计的小型一行s3文件，我希望将它们合并在一起。我有s3distcp语法，但是，我发现合并文件后合并集中不包含换行符。我想知道s3distcp是否包含强制换行的任何选项，或者是否有另一种方法可以在不直接修改源文件(或复制它们并执行相同操作)的情况下完成此操作最佳答案如果您的文本文件以独特的字符序列开始/结束，您可以先使用s3distcp将它们合并到一个文件中(我通过设置--targetSize到一个非常大的数字)，然后使用sed和Hadoop流来添加新行；在下面的示例中，每个文件都包含一个json(文件名都以0开头)，

换行符 s3distcp code section hadoop amazon-s3 hadoop-streaming amazon-emr

115 116 117118119 120 121