草庐IT

hadoop - 从 Internet 直接下载文件到我的 S3 存储桶

我在AWS基础设施上使用EMR(ElasticMapReduce),为程序提供输入文件(大型数据集)的默认方式是将它们上传到S3存储桶并从中引用那些存储桶在EMR内。通常我将数据集下载到我的本地开发机器,然后将它们上传到S3,但是对于较大的文件,这变得越来越困难,因为上传速度通常比下载速度低得多。我的问题是有没有一种方法可以从互联网上下载文件(给定它们的URL)直接到S3中,这样我就不必将它们下载到我的本地机然后手动上传? 最佳答案 没有。您需要一个中介-通常,使用EC2实例而不是您的本地机器来提高速度。

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr

java - 在 MAPR 中找不到 Hadoop FS API 文件问题

我在运行hadoopfsapi删除目录时遇到问题。即使我有适当的配置,程序也会抛出异常。需要帮助解决问题。我正在使用下面的maven依赖项hadoop-common2.4.1-mapr-1408hadoop-核心2.4.1-mapr-1408hadoop客户端2.7.1repo:http://repository.mapr.com/maven/packagecom.cisco.installbase.hiveconnector;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.a

Hadoop 可以列出 s3 内容,但 spark-shell 抛出 ClassNotFoundException

我的传奇还在继续-简而言之,我正在尝试为spark创建一个测试堆栈-旨在从s3存储桶中读取文件,然后将其写入另一个存储桶。Windows环境。我在尝试访问S3或S3n时反复遇到错误,因为抛出了ClassNotFoundException。这些类作为s3和s3n.impl添加到core-site.xml我将hadoop/share/tools/lib添加到类路径中无济于事,然后我将aws-java-jdk和hadoop-awsjar添加到share/hadoop/common文件夹,我现在可以在命令行上使用haddop列出存储桶的内容。hadoopfs-ls"s3n://bucket"显

shell - 抑制 hadoop fs -get -p 命令的警告

我正在使用hadoopfs-get-p命令复制大量文件。我想保留(时间戳,所有权)很多文件无法保留权限因为userid在本地机器上不可用。因此,对于这些文件,我得到“get:chown:changingownership/a/b/c.txtOperationnotpermitted”是否可以抑制该错误,因为我可能还会遇到其他问题。如果我执行2>/dev/null,这将抑制所有问题所以我不想使用这个选项。有什么办法可以只抑制与权限相关的问题。?任何提示真的很有帮助吗? 最佳答案 不是很优雅,但功能正常,使用grep-vyour_und

hadoop fs -ls “no such file or directory”

如果我写命令:[hdfs@nnode~]$hadoopfs-ls我收到消息:ls:`.':Nosuchfileordirectory我知道hadoopfs-ls默认情况下会查找文件夹/home/hdfs,所以我使用它创建了它hadoopfs-mkdir/home然后hadoopfs-mkdir/home/hdfs但是我仍然收到消息:ls:`.':Nosuchfileordirectory 最佳答案 其实是/user/hdfs,不是/home尝试hadoopfs-mkdir-p/user/hdfs

scala - Spark Scala S3 存储 : permission denied

我在Internet上阅读了很多关于如何让Spark与S3一起工作的主题,但仍然没有任何东西可以正常工作。我已经下载了:Spark2.3.2withhadoop2.7andabove.我只从Hadoop2.7.7(匹配Spark/Hadoop版本)复制了一些库到Sparkjars文件夹:hadoop-aws-2.7.7.jarhadoop-auth-2.7.7.jaraws-java-sdk-1.7.4.jar我仍然无法使用S3N或S3A来让spark读取我的文件:对于S3A我有这个异常(exception):sc.hadoopConfiguration.set("fs.s3a.acc

scala - 如何在 Spark 提交中将 s3a 与 Apache spark 2.2(hadoop 2.8) 一起使用?

我正在尝试使用使用hadoop2.8版本构建的spark2.2.0从spark访问S3数据,我正在使用/jars/hadoop-aws-2.8.3。jar,/jars/aws-java-sdk-s3-1.10.6.jar和/jars/aws-java-sdk-core-1.10.6.jar在类路径我得到以下异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatisticsatjava.lang.Class.forName0(NativeMethod)atjava.lang.Class.forName(Class

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群?

这已经是之前post的讨论对象了,但是,我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外,即使可以通过编程方式设置此属性,但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket?请注意,我没有包含所有参数,因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群,那

hadoop - 如何在 Java 中的 Storm Bolt 中使用 Hadoop FS API

我想将数据存储在由StormSpout发出的hdfs中。我在Bolt类中添加了hadoopFSAPI代码,但它在storm中抛出编译错误。以下是Stormbolt类:packagebolts;importjava.io.*;importjava.util.*;importjava.net.*;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.uti