aws-codebuild

hadoop - 有没有办法让 Spark 在不使用 Hadoop 的情况下读取 AWS S3 文件？

独立程序可以通过使用AWS客户端jar文件在没有Hadoop的情况下读取/写入AWSS3文件。Spark程序可以在没有Hadoop的情况下读/写文件。然而，Spark需要读取/写入AWSS3文件的程序才能使用Hadoop。即便如此，即使设置了Hadoop目录，Spark1.4和Hadoop2.6&2.7仍会出现关于缺少S3的Hadoop类的运行时错误。Spark程序是否可以通过AWS客户端jar文件在不使用Hadoop的情况下读取/写入S3文件？如果不是，我该如何解决Spark在运行时缺少Hadoop的S3类的问题？最佳答案 Sp

hadoop - 停止 hadoop/EMR/AWS 创建带有 _$folder$ 扩展名的 S3 路径

在EMR上运行spark作业，输出直接写入S3。我注意到每个S3目录路径(例如/the/s3/path)都包含一个名为/the/s3/path_$folder$的标志文件。这导致使用spark重新加载数据时出现问题(它是Parquet，spark提示额外的文件等)。我怎样才能阻止AWS/无论它是什么来创建这个标志？它过去也发生在hadoop作业中，所以我不认为它是spark(尽管它使用hadoopFS的东西)。最佳答案嗯，是的，我以前也获取过这些文件夹，但是它们不再出现了...我怀疑是因为我对hadoopConfiguratio

hadoop 扩展名 code section hadoopConfiguration amazon-web-services amazon-s3 apache-spark emr

amazon-web-services - AWS EMR 使用 KMS 加密 S3 存储桶

我的EMR出现以下情况，有人可以指导如何进行相同的配置吗？EMR集群跨数据管道执行多项操作:使用KMSKEY1将EMR写入S3BUCKET1使用KMSKEY2将EMR写入S3BUCKET2如何在EMR中配置以上内容？我知道配置EMR的唯一选项位于emrfs-site.xml&/etc/hadoop/conf.empty/core-site.xml这些有标签fs.s3.serverSideEncryption.kms.keyId如何使用上述KMSkey实现我的要求？我需要为不同的存储桶写入在KMSkey之间切换。最佳答案您可以为E

amazon-web-services services code section 34 hadoop amazon-s3 amazon-emr aws-kms

ruby - 使用 SequenceFile 的 Hadoop 流式处理(在 AWS 上)

我有大量Hadoop序列文件，我想在AWS上使用Hadoop进行处理。我现有的大部分代码都是用Ruby编写的，因此我想在AmazonEMR上使用HadoopStreaming以及我的自定义RubyMapper和Reducer脚本。我找不到任何关于如何将SequenceFiles与HadoopStreaming集成以及如何将输入提供给我的Ruby脚本的文档。我会很感激一些关于如何启Action业(直接在EMR上，或者只是一个普通的Hadoop命令行)以使用SequenceFiles的说明，以及一些关于如何期望将数据提供给我的脚本的信息。--编辑:我之前错误地提到了StreamFiles而

流式 SequenceFile section Hadoop code ruby amazon-web-services amazon-emr

apache - 为什么 hdfs 在 Hadoop 集群中抛出 LeaseExpiredException (AWS EMR)

我在hadoop集群中收到LeaseExpiredException-tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log2016-09-2111:54:14,533INFOBlockStateChange(IPCServerhandler10on8020):BLOCK*InvalidateBlocks:addblk_1073747501_6677to172.30.2.189:500102016-09-2111:54:14,534INFOorg.apache.hadoop.ipc.Server(IPCSe

LeaseExpiredException apache java hadoop amazon-web-services hive apache-tez

hadoop - 结合 AWS EMR 输出

我使用自定义映射器运行了一个测试AWSEMR作业，但使用NONE作为缩减器。我在13个单独的“部分”文件中获得了(预期的)输出。如何将它们合并到一个文件中？我不需要以任何特殊方式聚合数据，我也不在乎它是排序的、任意重新排序的还是按顺序保留的。但我想有效地将数据放回一个文件中。我必须手动执行此操作，还是有办法将其作为EMR集群的一部分执行？我很奇怪没有默认选项或某种自动步骤可用。我读过一些关于IdentityReducer的内容。它能满足我的要求吗？如果是，在通过EMR控制台启动集群时如何使用它？我的数据在S3中。编辑非常清楚，我可以在工作完成后对所有输出部分运行cat，如果这是我必

hadoop AWS code section 射器 amazon-web-services amazon-s3 emr amazon-emr

apache-spark - hadoop aws 版本兼容性

是否有任何关于awsjavasdk、hadoop、hadoop-awsbundle、hive、spark之间兼容的版本集的引用？比如我知道Spark不兼容Hive2.1.1以上的hive版本最佳答案您不能从whichhadoop-aws构建的更高版本的AWSSDK中删除并期望s3a连接器工作。曾经。现在在S3Atroubleshootingdocs中写得很清楚了。无论您遇到什么问题，更改AWSSDK版本都不会解决问题，只会更改您看到的堆栈跟踪。考虑到AWS团队推出新SDK的速度，这似乎令人沮丧，但您必须了解(a)API经常在版本

apache-spark apache hadoop section noreferrer amazon-s3 hive

amazon-web-services - Hadoop 2.9.2、Spark 2.4.0 访问 AWS s3a 存储桶

已经有几天了，但我无法使用Spark从公共(public)AmazonBucket下载:(这是spark-shell命令:spark-shell--masteryarn-v--jarsfile:/usr/local/hadoop/share/hadoop/tools/lib/hadoop-aws-2.9.2.jar,file:/usr/local/hadoop/share/hadoop/tools/lib/aws-java-sdk-bundle-1.11.199.jar--driver-class-path=/usr/local/hadoop/share/hadoop/tools/li

amazon-web-services services hadoop apache java apache-spark

scala - 将 aws 凭据配置文件与 spark scala 应用程序一起使用

如果可能的话，我希望能够在我的sparkscala应用程序中使用我维护的具有不同配置文件的~/.aws/credentials文件。我知道如何在我的应用程序中为s3a设置hadoop配置，但我不想继续使用不同的硬编码key，而宁愿像我对不同程序所做的那样只使用我的凭据文件。我还尝试过使用javaapi，例如valcredentials=newDefaultAWSCredentialsProviderChain().getCredentials()然后创建一个s3客户端，但这不允许我在从中读取文件时使用我的keys3。我也知道当我运行我的应用程序时，key可以进入core-site.xm

凭据 scala section code awsCredentials amazon-web-services hadoop intellij-idea apache-spark

使用 Mxnet 的 Hadoop 流作业在 AWS Emr 中失败

我在AWS数据管道中设置了一个emr步骤。步骤命令如下所示:/usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file,/scripts/reducer.py,-file,/params/parameters.bin我收到以下错误Error:java.lang.RuntimeException:PipeMapRed.waitOutpu

Hadoop Mxnet java apache emr hadoop-streaming amazon-data-pipeline

158 159 160161162 163 164