草庐IT

s3VideoPlayer

全部标签

azure - 对于 Hadoop,选择哪种数据存储,Amazon S3 还是 Azure Blob Store?

我正在处理Hadoop项目并在我的本地集群中生成大量数据。稍后我将使用基于云的Hadoop解决方案,因为与实际工作负载相比,我的Hadoop集群非常小,但是我现在无法选择我将使用哪一个,即基于WindowsAzure、EMR或其他。我在本地生成大量数据,并希望将这些数据存储到一些基于云的存储中,因为我将在稍后但很快将这些数据与Hadoop一起使用。我正在寻找建议,以根据某人的经验来决定选择哪个云存储。提前致谢。 最佳答案 首先这是一个很好的问题。让我们尝试理解“Hadoop中如何处理数据”:在Hadoop中,所有数据都在Hadoop

hadoop - 使用 Hadoop 读取 s3 时出现 java.lang.NullPointerException(Scalding)

尝试使用Scalding/Hadoop读取s3时出现奇怪的NPE。路径100%正确。问这个问题是因为用谷歌搜索这个问题出乎意料的困难,而且每次我遇到这个错误时,我都会忘记我是如何解决它的。所以在SO上发帖,这样我就可以自己谷歌了。Causedby:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.listStatus(NativeS3FileSystem.java:479)atorg.apache.hadoop.fs.Globber.listStatus(Globber.ja

java - 未由 S3FileSystem FileSystem 实现 Hadoop Jar 实现

我已经在我的mavenpom中添加了这些构建配置,因为我希望将ApacheSolr依赖项与Jar捆绑在一起。否则我得到了SolarServerException:ClassNotFound,现在我没有得到那个异常,而是下面显示的一个新异常(在Pom片段之后)maven-assembly-pluginjar-with-dependenciesmake-assemblypackagesingle这会创建两个Jar文件,一个带有依赖项,一个简单的jar。JarwithDeps,抛出这个错误,Exceptioninthread"main"java.lang.UnsupportedOperati

amazon-web-services - 将文件从 SFTP 复制到 Amazon S3

我正在尝试将文件从SFTP复制到S3。我不想登陆文件中间服务器,请给我建议方法。 最佳答案 我假设您无权访问/控制sftp服务器。如果您确实有访问权限,那就很容易了。否则,选择您选择的语言并流式传输数据。例如,对于Python,您可以使用paramiko的sftp.getfo()并将该文件流指向Boto的s3.key.send_file()。这使您无需将文件下载到磁盘。但是,无法告诉随机SFTP服务器将其发送到S3。 关于amazon-web-services-将文件从SFTP复制到Am

hadoop - 如何从 pyspark rdd 或分区确定原始 s3 输入文件名

我正在使用pyspark流式处理来自S3的ETL输入文件。我需要能够建立所有原始输入文件的审计线索在s3://上,我的Parquet输出在hdfs://上结束。给定一个dstream、rdd,甚至是一个特定的rdd分区,是否有可能确定s3中输入数据的原始文件名?目前我知道的唯一方法是采取rdd.toDebugString()并尝试解析它。然而,这感觉真的很hacky并且不在某些情况下工作。例如,解析调试输出对我的批处理模式导入不起作用我也在做(使用sc.TextFile("s3://...foo/*")样式的glob)。有没有人有确定原始文件名的明智方法?似乎其他一些spark用户过去

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR,我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时,一切都完美无缺。然而,当我针对我的完整数据集运行它时,在我的工作中花费了一段(随机)时间,我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中,我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst

hadoop - AWS EMR S3DistCp : The auxService:mapreduce_shuffle does not exist

我通过SSH连接到AWSEMRv5.4.0实例,我想调用s3distcp。Thislink演示了如何设置一个emr步骤来调用它,但是当我运行它时出现以下错误:Containerlaunchfailedforcontainer_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistatsun.reflect.NativeConstructorAccessorImpl.newIns

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd,但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

hadoop - 让 Amazon EMR 使用 S3 进行输入和输出

如何让AmazonEMR(0.20.205MapR)将S3存储桶用于输入和输出?我尝试将以下内容添加到核心配置xml文件(通过引导操作):fs.default.names3n://dfs.name.defaults3n://但我总是得到类似的东西:Causedby:java.io.IOException:Couldnotresolvepath:s3n://some_out_bucket/outatcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)atcom.mapr.fs.MapRFileSystem.del

hadoop - s3 上的 Spark Dataset Parquet 分区创建临时文件夹

Spark(version=2.2.0)没有DirectParquetOutputCommitter。作为替代方案,我可以使用dataset.option("mapreduce.fileoutputcommitter.algorithm.version","2")//magichere.parquet("s3a://...")避免在S3上创建_temporary文件夹。一切正常,直到我将partitionBy设置为我的数据集dataset.partitionBy("a","b").option("mapreduce.fileoutputcommitter.algorithm.versi