草庐IT

amazon-s3 - 将目录作为压缩文件从 Elastic MapReduce 上传到 S3

我想将EMR本地文件系统中的目录作为压缩文件上传到s3。有没有比我目前使用的方法更好的方法来解决这个问题?是否可以将ZipOutputStream作为Reducer输出返回?谢谢zipFolderAndUpload("target","target.zip","s3n://bucketpath/");staticpublicvoidzipFolderAndUpload(StringsrcFolder,StringzipFile,Stringdst)throwsException{//ZipsadirectoryFileOutputStreamfileWriter=newFileOutp

hadoop - 使用 Spark 读取 S3 文件时出现 NullPointerException

我正在尝试使用Spark读取S3文件并出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:433)atorg.apache.hadoop.fs.Globber.getFileStatus(Globber.java:57)atorg.apache.hadoop.fs.Globber.glob(Globber.java:248)atorg.apache.hadoop.fs.FileSystem

hadoop - Alluxio 错误 :java. lang.IllegalArgumentException:错误的 FS

我可以使用cloudera提供的示例jar在alluxio上运行wordcount,使用:sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jarwordcount-libjars/home/nn1/alluxio-1.2.0/core/client/target/alluxio-core-client-1.2.0-jar-with-dependencies.jaralluxio://nn1:19998/wordcountalluxio://nn1:19998/wc1这是成功的。但是当我使用附加代码创建的

java - 在hadoop FS中写一个二叉树

我需要将二叉树写入HDFS,我将使用它来表示决策树。但是为了做到这一点,我首先需要创建一个BinaryTreeNode类,它将成为树节点。这些是我的类属性:privateStringname;privateStringattribute;privateStringattType;privateStringcondition;privateStringlines;privateBinaryTreeNodeleftChild;privateBinaryTreeNoderightChild;所以现在我需要实现用于读取和写入这些节点的write和readFields方法。这些是我所做的:pub

Hadoop fs -get 仅复制特定文件

有没有办法只复制特定文件,比如使用fs-get或fs-copyToLocal根据文件类型?注意:我希望这是递归的并遍历整个集群。想通了,但我无法回答我自己的问题。这是我们的做法。刚刚写了一个快速的shell脚本。mkdir/tmp/txtforFin`hadoopfs-fshdfs://namenode.mycluster-lsr/|grep'/*.txt$'|awk'{print$NF}';dohadoopfs-fshdfs://namenode.mycluster-copyToLocal$F/tmp/las/done 最佳答案

hadoop - 无法从 Hadoop 访问公共(public) S3 存储桶

我正在使用Hadoop处理GoogleBooksngram,它们作为Hadoop序列文件存储在AmazonS3中。Hadoop包括从S3读取的功能(使用S3存储桶作为虚拟“文件系统”),只需在文件名上指定s3://或s3n://协议(protocol)即可。不幸的是,它需要您设置您的AWS访问key和secretkey。由于我想读取的存储桶是公开的,所以我没有任何key可以使用。如果我使用自己的key,则无法从ngrams存储桶中读取(因为它不属于我的帐户)。我如何从Hadoop使用存储在公共(public)S3存储桶中的文件,而无需自己重新托管文件(这会变得非常昂贵,因为有几TB的数

渲染存储在S3中的降价文件,上传了神社 - 轨道

我正在使用Shrine将Rails应用程序中的文件上传到S3。一切都很好,但是我不知道如何使用RedCarpetGem显示该文件。例如,我可以这样做:而且工作正常。但是如果我这样做:向我展示了S3的下载链接。如何获得文件内容而不是文件链接?看答案拨电至@rfile.rfile返回aShrine::UploadedFile对象,除了仅仅是其他方便的方法#url。在这种方法上是#read,检索文件的内容:但是,在这种情况下,将打开和读取文件,但不关闭。所以最好打电话#open用块,打电话#read在屈服的io对象上,可以整齐地写成

hadoop - s3distcp 在显示 100% 后挂起

为了尝试解决performanceissues使用AmazonEMR,我尝试使用s3distcp将文件从S3复制到我的EMR集群以进行本地处理。作为第一个测试,我从一个目录复制一天的数据,2160个文件,使用--groupBy选项将它们折叠成一个(或几个)文件。工作似乎运行得很好,向我展示了map/reduce进度到100%,但此时进程挂起并且再也没有回来。我怎样才能弄清楚发生了什么?源文件是存储在S3中的GZipped文本文件,每个大约30kb。这是一个普通的AmazonEMR集群,我从主节点的shell运行s3distcp。hadoop@ip-xxx:~$hadoopjar/hom

hadoop - 如何在 aws us-east-2 上将 s3a 与 spark 2.1.0 一起使用?

背景我一直在努力为自己获取一个灵活的设置,以便在aws上使用spark和dockerswarm模式。我一直在使用的docker镜像配置为使用最新的spark,当时是2.1.0和Hadoop2.7.3,可在jupyter/pyspark-notebook获得。.这是有效的,我一直在测试我计划使用的各种连接路径。我遇到的问题是与s3交互的正确方式的不确定性。我一直在跟踪如何使用s3a为spark提供依赖项以连接到awss3上的数据。协议(protocol),对比s3n协议(protocol)。我终于找到了hadoopawsguide并认为我正在关注如何提供配置。但是,我仍然收到400Bad

hadoop - 相当于 'hadoop fs -tail -f' 的程序

我想使用org.apache.hadoop.fs.FileSystemAPI以编程方式跟踪一个hdfs文件。有没有一种方法可以使用API以等同于hadoopfs-tail-f命令的方式跟踪文件? 最佳答案 也许我误解了这个问题。hadoopfs-tail-f是使用API实现的吧?来自org.apache.hadoop.fs.FsShell.tail(String[],int)longfileSize=srcFs.getFileStatus(path).getLen();longoffset=(fileSize>1024)?fileS