s3fs

hadoop - 从 Internet 直接下载文件到我的 S3 存储桶

我在AWS基础设施上使用EMR(ElasticMapReduce)，为程序提供输入文件(大型数据集)的默认方式是将它们上传到S3存储桶并从中引用那些存储桶在EMR内。通常我将数据集下载到我的本地开发机器，然后将它们上传到S3，但是对于较大的文件，这变得越来越困难，因为上传速度通常比下载速度低得多。我的问题是有没有一种方法可以从互联网上下载文件(给定它们的URL)直接到S3中，这样我就不必将它们下载到我的本地机然后手动上传？最佳答案没有。您需要一个中介-通常，使用EC2实例而不是您的本地机器来提高速度。

hadoop - 在配置 EMR 后，如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR？

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前，我如何告诉DataPipeline将文件复制到EMR？我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案如果您可以选择修改Pig脚本，则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则，您可以使用在Emr

EMR Pipeline section PigActivity https hadoop amazon-web-services amazon-s3 amazon-emr

java - 在 MAPR 中找不到 Hadoop FS API 文件问题

我在运行hadoopfsapi删除目录时遇到问题。即使我有适当的配置，程序也会抛出异常。需要帮助解决问题。我正在使用下面的maven依赖项hadoop-common2.4.1-mapr-1408hadoop-核心2.4.1-mapr-1408hadoop客户端2.7.1repo:http://repository.mapr.com/maven/packagecom.cisco.installbase.hiveconnector;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.a

Hadoop java apache maven hdfs

Hadoop 可以列出 s3 内容，但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之，我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件，然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误，因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事，然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹，我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

ClassNotFoundException spark-shell hadoop code amazon-web-services amazon-s3 apache-spark

shell - 抑制 hadoop fs -get -p 命令的警告

我正在使用hadoopfs-get-p命令复制大量文件。我想保留(时间戳，所有权)很多文件无法保留权限因为userid在本地机器上不可用。因此，对于这些文件，我得到“get:chown:changingownership/a/b/c.txtOperationnotpermitted”是否可以抑制该错误，因为我可能还会遇到其他问题。如果我执行2>/dev/null，这将抑制所有问题所以我不想使用这个选项。有什么办法可以只抑制与权限相关的问题。？任何提示真的很有帮助吗？最佳答案不是很优雅，但功能正常，使用grep-vyour_und

抑制 hadoop section code shell unix

hadoop fs -ls “no such file or directory”

如果我写命令:[hdfs@nnode~]$hadoopfs-ls我收到消息:ls:`.':Nosuchfileordirectory我知道hadoopfs-ls默认情况下会查找文件夹/home/hdfs，所以我使用它创建了它hadoopfs-mkdir/home然后hadoopfs-mkdir/home/hdfs但是我仍然收到消息:ls:`.':Nosuchfileordirectory 最佳答案其实是/user/hdfs，不是/home尝试hadoopfs-mkdir-p/user/hdfs

directory hadoop blockquote section code hdfs uri

scala - Spark Scala S3 存储 : permission denied

我在Internet上阅读了很多关于如何让Spark与S3一起工作的主题，但仍然没有任何东西可以正常工作。我已经下载了:Spark2.3.2withhadoop2.7andabove.我只从Hadoop2.7.7(匹配Spark/Hadoop版本)复制了一些库到Sparkjars文件夹:hadoop-aws-2.7.7.jarhadoop-auth-2.7.7.jaraws-java-sdk-1.7.4.jar我仍然无法使用S3N或S3A来让spark读取我的文件:对于S3A我有这个异常(exception):sc.hadoopConfiguration.set("fs.s3a.acc

permission denied 34 hadoopConfiguration hadoop scala apache-spark amazon-s3

scala - 如何在 Spark 提交中将 s3a 与 Apache spark 2.2(hadoop 2.8) 一起使用？

我正在尝试使用使用hadoop2.8版本构建的spark2.2.0从spark访问S3数据，我正在使用/jars/hadoop-aws-2.8.3。jar,/jars/aws-java-sdk-s3-1.10.6.jar和/jars/aws-java-sdk-core-1.10.6.jar在类路径我得到以下异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatisticsatjava.lang.Class.forName0(NativeMethod)atjava.lang.Class.forName(Class

何在 Apache java hadoop scala apache-spark amazon-s3 pyspark-sql

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群？

这已经是之前post的讨论对象了，但是，我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外，即使可以通过编程方式设置此属性，但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket？请注意，我没有包含所有参数，因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而，当传递这个时，我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群，那

apache-spark defaultFS code section hadoop google-cloud-dataproc

hadoop - 如何在 Java 中的 Storm Bolt 中使用 Hadoop FS API

我想将数据存储在由StormSpout发出的hdfs中。我在Bolt类中添加了hadoopFSAPI代码，但它在storm中抛出编译错误。以下是Stormbolt类:packagebolts;importjava.io.*;importjava.util.*;importjava.net.*;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.uti

何在 hadoop apache UserGroupInformation apache-storm

112 113 114115116 117 118