aws-documentdb-mongoapi

security - 在 Hadoop 环境中使用多个 AWS key

在Hadoop环境中拥有多个AWSkey的解决方法是什么？我的hadoop作业需要访问两个不同的S3存储桶(两个不同的key)。尝试使用“凭据”提供者，但看起来非常有限。它以小写形式存储所有键，因此我不能将“s3a”用于一项工作而将“s3n”用于另一项工作。例如:对于s3a，它寻找:fs.s3a.access.keyfs.s3a.secret.key对于s3n:fs.s3n.awsAccessKeyIdfs.s3n.awsSecretAccessKey但是，如果我使用“fs.s3n.awsAccessKeyId”创建提供程序，它会存储为“fs.s3n.awsaccesskeyid”，因

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置，其中TB的记录将写入KAFKA主题，使用KAFKAconnect-HDFS连接器的最佳实践是什么？我的kafka实例在AWS主机名a.b.c.d上运行，我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的，我们在运行kafka实例的同一个盒子中保持融合，即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置，是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合？在这样的生产案例中，confluent需要多少单独的磁盘大小？最佳答案

amazon-web-services services section 的汇合 hadoop apache-kafka hdfs apache-kafka-connect

apache-spark - 我应该使用哪个版本的 hadoop-aws

我在EMR5.14(hadoop2.8.3)上的Yarn上运行spark作业。我可以使用更高版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议(protocol)的最新优化吗？最佳答案无论EMR为您提供什么，您都需要坚持使用。他们的s3://连接器是AWS开发的，可能是您最安全的选择。FWIW，自2.8.3以来的s3a用于输入性能。与后来的版本没有太大变化，除了在3.1中，如果您将fs.s3a.experimental.fadvise保留为normal，它会自动从优化顺序IO切换到随机IO(列数据)在第一个向后查

apache-spark hadoop-aws section code 化顺 hadoop amazon-s3 amazon-emr

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后，当我尝试使用AWSCrawler读取athena中的数据时，我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗？最佳答案谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

HIVE_CANNOT_OPEN_SPLIT amazon-web-services section spark hadoop pyspark aws-glue

hadoop - 当我使用 aws 凭证时出现 Distcp 重试错误

我正在尝试将一些日志文件从hdfs推送到s3存储桶我正在为此使用distcp命令，但它一直在尝试很长时间，请帮助我解决问题。sudo-uhdfshadoopdistcp-Dfs.s3a.access.key="xxxxxxxxxx"-Dfs.s3a.secret.key="xxxxxxxxxxxxxx"hdfs://prod1/data/exchange/inventory_snapshot/20160610s3a://test-inventory-snapshot/test/18/11/2715:01:41INFOtools.DistCp:InputOptions:DistCpOpt

时出 hadoop xxxx xx RetryUpToMaximumCountWithFixedSle amazon-s3 hdfs

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序，我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services Mapreduce section emr-manage-view-web-log-files ElasticMapReduce hadoop spark-streaming amazon-emr

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例？

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录，但是当我尝试put文件时，我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时，出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗？

amazon-ec amazon code section stackoverflow amazon-ec2 hadoop amazon-web-services cloudera

hadoop - 使用 Amazon AWS 中的公共(public)数据集是否需要支付数据传输费用？

基本上，我的单个t1.micro实例处于免费层级。我想使用维基百科转储文件公共(public)数据集。如果我在我的实例中处理来自该数据集的大约2-4GB数据，亚马逊会向我收费吗？最佳答案任何数据进入AWS网络都是免费的，如果您的数据从AWS网络移出则需要付费关于hadoop-使用AmazonAWS中的公共(public)数据集是否需要支付数据传输费用？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow

hadoop Amazon section stackoverflow 维基 amazon-web-services amazon-ec2

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群，并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此，即使我有100个区域(如果我有1个主节点)，这也意味着整个IO都会受到限制吗？谢谢问候最佳答案您是否使用ElasticMapReduc

hadoop AWS section HBase elastic-map-reduce

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写一个字段“HDFS主机”才能运行作业。自从我在本地机器上进行测试以来，我一直在使用“localhost”，而且效果很好。在AWSEMR上运行时，我盲目地尝试使用“localhost”，但作业失败了。我想知道的是我应该在该字段中输入什么主机名，以便weka调用正确的主机？是在启动集群时提供的公共(public)DNS名称，还是API中有一种方法可以为我获取该地址？最佳答案如果你想

hadoop 配给 section questions ec2-public-dns-inside-a-running-i amazon-web-services hdfs weka emr