AWS-EC_草庐IT

scala - AWS S3 中的 FileUtil.copyMerge()

我已经使用以下代码将DataFrame作为text格式加载到HDFS中。finalDataFrame是DataFramefinalDataFrame.repartition(1).rdd.saveAsTextFile(targetFile)执行上面的代码后，我发现用我提供的文件名创建了一个目录，并在该目录下创建了一个文件，但不是文本格式。文件名类似于part-00000。我已经使用下面的代码在HDFS中解决了这个问题。valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMe

hadoop - 使用 aws 自动化 Hive Activity

我想每天自动化我的配置单元脚本，为了做到这一点，我有一个选项是数据管道。但问题是我正在将数据从dynamo-db导出到s3，并使用配置单元脚本来处理这些数据。我在配置单元脚本中提供此输入和输出，这是问题开始的地方，因为配置单元事件必须有输入和输出，但我必须在脚本文件中提供它们。我正在尝试找到一种方法来自动化此配置单元脚本并等待一些想法？干杯，最佳答案您可以在Hive事件上禁用暂存以运行任意Hive脚本。stage=false做类似的事情:{"name":"DefaultActivity1","id":"ActivityId_1"

Activity hadoop 34 配置单 section amazon-web-services hive amazon-data-pipeline

hadoop - 将 Hadoop+Hive 与 AWS EMR 上的 MongoDB 连接(找不到类 com/mongodb/DBObject)

我喜欢通过MongoDB连接(而不是通过BSON转储)将EMR集群连接到我们的MongoDB。为此，我通过AWS管理控制台生成了集群。在Bootstrap配置中，我指向了这个位于S3上的文件:#!/bin/shwget-P/home/hadoop/libhttp://central.maven.org/maven2/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jarwget-P/home/hadoop/libhttps://github.com/mongodb/mongo-hadoop/releases/d

DBObject MongoDB hadoop java mongo amazon-web-services hive mongodb-java emr

hadoop - 有没有办法让 Spark 在不使用 Hadoop 的情况下读取 AWS S3 文件？

独立程序可以通过使用AWS客户端jar文件在没有Hadoop的情况下读取/写入AWSS3文件。Spark程序可以在没有Hadoop的情况下读/写文件。然而，Spark需要读取/写入AWSS3文件的程序才能使用Hadoop。即便如此，即使设置了Hadoop目录，Spark1.4和Hadoop2.6&2.7仍会出现关于缺少S3的Hadoop类的运行时错误。Spark程序是否可以通过AWS客户端jar文件在不使用Hadoop的情况下读取/写入S3文件？如果不是，我该如何解决Spark在运行时缺少Hadoop的S3类的问题？最佳答案 Sp

hadoop section Spark amazon-s3 apache-spark

hadoop - 停止 hadoop/EMR/AWS 创建带有 _$folder$ 扩展名的 S3 路径

在EMR上运行spark作业，输出直接写入S3。我注意到每个S3目录路径(例如/the/s3/path)都包含一个名为/the/s3/path_$folder$的标志文件。这导致使用spark重新加载数据时出现问题(它是Parquet，spark提示额外的文件等)。我怎样才能阻止AWS/无论它是什么来创建这个标志？它过去也发生在hadoop作业中，所以我不认为它是spark(尽管它使用hadoopFS的东西)。最佳答案嗯，是的，我以前也获取过这些文件夹，但是它们不再出现了...我怀疑是因为我对hadoopConfiguratio

hadoop 扩展名 code section hadoopConfiguration amazon-web-services amazon-s3 apache-spark emr

amazon-web-services - AWS EMR 使用 KMS 加密 S3 存储桶

我的EMR出现以下情况，有人可以指导如何进行相同的配置吗？EMR集群跨数据管道执行多项操作:使用KMSKEY1将EMR写入S3BUCKET1使用KMSKEY2将EMR写入S3BUCKET2如何在EMR中配置以上内容？我知道配置EMR的唯一选项位于emrfs-site.xml&/etc/hadoop/conf.empty/core-site.xml这些有标签fs.s3.serverSideEncryption.kms.keyId如何使用上述KMSkey实现我的要求？我需要为不同的存储桶写入在KMSkey之间切换。最佳答案您可以为E

amazon-web-services services code section 34 hadoop amazon-s3 amazon-emr aws-kms

ruby - 使用 SequenceFile 的 Hadoop 流式处理(在 AWS 上)

我有大量Hadoop序列文件，我想在AWS上使用Hadoop进行处理。我现有的大部分代码都是用Ruby编写的，因此我想在AmazonEMR上使用HadoopStreaming以及我的自定义RubyMapper和Reducer脚本。我找不到任何关于如何将SequenceFiles与HadoopStreaming集成以及如何将输入提供给我的Ruby脚本的文档。我会很感激一些关于如何启Action业(直接在EMR上，或者只是一个普通的Hadoop命令行)以使用SequenceFiles的说明，以及一些关于如何期望将数据提供给我的脚本的信息。--编辑:我之前错误地提到了StreamFiles而

流式 SequenceFile section Hadoop code ruby amazon-web-services amazon-emr

hadoop - 如何通过 whirr 在 EC2 集群上安装 JDK 7？

我有一些由OracleJDK7编译的map-reduce程序。我正在尝试使用whirr0.8.1来设置EC2集群来运行它们。不过whirr0.8.1默认安装的JDK好像是OpenJDK6，我在运行它们时遇到了以下错误:不支持的major.minor版本51.0因此我尝试通过设置指定whirr的JDK版本:whirr.java.install-function=install_oracle_jdk7但这会导致安装过程失败，尝试修改以下脚本似乎没有用:whirr-0.8.1\core\src\main\resources\functions\install_oracle_jdk7.sh有谁

hadoop whirr strong oracle amazon-ec2 amazon-web-services apache-whirr

apache - 为什么 hdfs 在 Hadoop 集群中抛出 LeaseExpiredException (AWS EMR)

我在hadoop集群中收到LeaseExpiredException-tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log2016-09-2111:54:14,533INFOBlockStateChange(IPCServerhandler10on8020):BLOCK*InvalidateBlocks:addblk_1073747501_6677to172.30.2.189:500102016-09-2111:54:14,534INFOorg.apache.hadoop.ipc.Server(IPCSe

LeaseExpiredException apache java hadoop amazon-web-services hive apache-tez

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce