s3fs_草庐IT

python - 尝试使用 pyspark 从 S3 获取数据时出现空指针异常

当我尝试使用pyspark从S3获取数据时，出现空指针异常。我正在使用hadoop2.4运行spark1.6.1。我尝试同时使用s3n和s3a。也尝试通过以下方式设置配置:hadoopConf=sc._jsc.hadoopConfiguration()hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3n.awsAccessKeyId","aws-key")hadoopConf.set("fs.s3n.awsSecretAccessKey"

时出 pyspark apache spark scala python hadoop amazon-s3 streaming

java - 如何将多个文件从 hdfs 上传到单个 s3 文件？

我有一个hadoop作业，可以将许多部分输出到hdfs，例如输出到某个文件夹。例如:/output/s3/2014-09-10/part...最好的方法是什么，使用s3javaapi将这些部分上传到s3中的signle文件例如s3:/jobBucket/output-file-2014-09-10.csv作为一个可能的解决方案，有一个选项可以合并各个部分并将结果写入hdfs单个文件，但这将创建一个双I/O。使用单个reducer也不是选项谢谢，最佳答案尝试使用FileUtil#copyMerge方法，它允许您在两个文件系统之间复

传到 java section hadoop apache amazon-s3

hadoop - 使用 distcp 安全地将数据从 HDFS 传输到 amazon S3

我们想将ClouderaHadoop集群中的HDFS数据备份到AmazonS3。看起来我们可以为此使用distcp但不清楚的是数据是否通过加密传输复制到S3。是否需要配置一些东西才能启用此功能？最佳答案我认为S3客户端加密在Hadoop中还不可用。好像S3serversideencryption(在S3端加密静态数据)可从Hadoop2.5.0进行配置。要启用它，请在core-site.xml中添加以下属性:fs.s3n.server-side-encryption-algorithmAES256Specifyaserver-s

hadoop distcp section encryption ssl amazon-s3

hadoop fs -rm -skipTrash 不起作用

我使用以下方法将一些文件从一个目录复制到另一个目录hadoopdistcp-Dmapreduce.job.queuename=adhoc/user/comverse/data/$CURRENT_DATE_NO_DASH_*/*rcr.gz/apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_rcr/我在scipt完成之前停止了它，剩下很多.distcp.tmp.attempt和完成移动到dst目录中的文件现在我想清理dst目录。运行后hadoopfs-rm-skipTrash/apps/hive/warehouse/

skipTrash hadoop code section rm distcp

hadoop - Hadoop fs 和常规 Unix 命令有什么区别？

我是Hadoop和HDFS的新手，我想了解为什么需要Hadoopfs命令而不是仅使用Unix命令等价物。它们似乎都有效，我的第一个想法是Hadoop命令直接与HDFSnamenode接口(interface)并将其传播到所有节点。然而，当我只使用Unixshell命令时，情况似乎就是这样。我翻遍了互联网，没有找到简单的解释。非常感谢帮助。或指向差异解释的链接。最佳答案如果您通过NFS在HDFS上运行，那么您可以期望大多数简单的命令都能正常工作(例如ls、cd、mkdir、mv、rm、chmod、chgrp、chown)。hado

hadoop code section hdfs

hadoop - NameNode 地址的 URI 无效，s3a 不是模式 'hdfs'

根据我的研究，我正在做一些关于在hadoop环境(yarn)中用Ceph替换HDFS的事情，来自hortonworks的指南和ReplaceHDFSformlocaldisktos3gettingerror显示我需要修改$hadoop_home/etc/hadoop下的core-site.xml。我的修改如下:fs.s3a.access.keyxxxxxxxxxxxxxxfs.s3a.secret.keyxxxxxxxxxxxxxfs.default.names3a://bucket_namefs.defaultFSs3a://bucket_namefs.s3a.endpointhtt

amp NameNode code gt lt hadoop hdfs bigdata ceph

hadoop - S3NativeFileSystem 调用是否会在 AWS EMR 4.6.0 上杀死我的 Pyspark 应用程序

当我的Spark应用程序必须从S3访问大量CSV文件(每个~1000@63MB)并将它们通过管道传输到SparkRDD时，它失败了。拆分CSV的实际过程似乎可行，但对S3NativeFileSystem的额外函数调用似乎导致错误和作业崩溃。首先，以下是我的PySpark应用程序:frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)importtimestartTime=float(time.time

S3NativeFileSystem 3NativeFileSystem spark 39 code hadoop amazon-web-services amazon-s3 pyspark emr

bash - 无法找到或加载主类 org.apache.hadoop.fs.FsShell

我知道这个问题可能已经回答了，好吧，我的问题仍然在这里:我使用CentOS7在vmware上为hadoop创建了一个虚拟机，我可以启动名称节点和数据节点，但是，当我尝试使用以下命令查看hdfs文件时:hdfsdfs-ls它抛出以下错误:Couldnotfindorloadmainclassorg.apache.hadoop.fs.FsShell我的谷歌搜索表明这可能与bash中的hadoop变量设置有关，这是我的设置:#.bashrc#Sourceglobaldefinitionsif[-f/etc/bashrc];then./etc/bashrcfiexportHADOOP_HOME

FsShell apache export hadoop bash

hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge

如何在dataproc上使用getmerge处理转储到google存储桶的部分文件。如果我尝试这个hadoopfs-getmergegs://my-bucket/temp/part-*gs://my-bucket/temp_merged我得到一个错误getmerge:/temp_merged(权限被拒绝)它适用于hadoopfs-getmergegs://my-bucket/temp/part-*temp_merged但当然是在集群机器上而不是在GS中写入合并文件。最佳答案根据fsshelldocumentation，getme

hadoop 何在 code temp_merged google-cloud-storage google-cloud-dataproc

scala - 在 Apache Spark 中按列分区到 S3

有我们想要从具有JSON的S3读取文件的用例。然后，基于特定的JSON节点值，我们希望对数据进行分组并将其写入S3。我能够读取数据，但找不到关于如何根据JSONkey对数据进行分区然后上传到S3的好例子。任何人都可以提供任何示例或指向可以帮助我处理此用例的教程吗？创建数据框后我得到了我的数据模式:root|--customer:struct(nullable=true)||--customerId:string(nullable=true)|--experiment:string(nullable=true)|--expiryTime:long(nullable=true)|--par

Apache scala 34 true StructField hadoop apache-spark amazon-s3 mapreduce