amazon-redshift

amazon-web-services - Amazon S3 错误代码 403 禁止进入 EMR 集群

我知道这个问题可能被问过多次，但我尝试了这些解决方案，但没有成功。因此，在新线程中询问它以获得确定的解决方案。我创建了一个具有S3只读权限(在所有S3资源上获取和列出)的IAM用户，但是当我尝试使用HDFS命令从EMR集群访问S3时，它会针对某些文件夹抛出“错误代码403禁止访问”异常。其他帖子的人回答是权限问题；我没有找到正确的解决方案，因为它是“禁止”而不是“拒绝访问”。此错误的行为仅针对存储桶内的某些文件夹(包含对象)和某些空文件夹出现。据观察，如果我使用nativeAPI调用，那么它会正常工作，如下所示:使用s3a调用时出现“禁止”异常:hdfsdfs-lss3a:///使用s

amazon-web-services - AWS Data Pipeline 中有任何东西可以通过决策脚本停止执行特定事件吗？

我们的数据管道中有5个管道，它们在以下基础上执行:管道1-管道4=每天管道5-月底。我们正在考虑为管道5创建单独管道的选项，因为它对其他管道没有任何依赖性。有没有什么办法可以执行除管道5之外的所有管道，就像我们在OOZIE中所做的那样，它可以成功地忽略管道5的执行并完成管道而没有任何“错误”/“等待依赖项”状态？最佳答案您最好创建多个管道并将它们设置在不同的时间表上。如果您想让事情变得有趣，您可以使用Cloudwatch调度和AWSLambda以类似cron的方式安排管道创建/删除。您还可以使用AWSStep函数来定义每个组件的

amazon-web-services Pipeline section 数来管道 hadoop amazon-data-pipeline

amazon-web-services - 在策略中列出 dynamo 的所有权限将不起作用，但通配符可以 dynamodb :*

所以我试图从一个步骤中找出EMR集群创建配置单元表所需的最低权限。我发现它需要来自dynamodb的东西，因为它不会工作，除非策略中有“dynamodb:*”(它确实在集群上设置了一致的View)。我想知道它需要的特定权限，而不是通配所有权限。这样做的一种蛮力方法是，我使用一个列出所有dynamodb操作的策略，然后我将它们一个一个地删除，并在集群上的一个步骤中再次创建该表，以查看它是否失败。但是当我使用通配符时它起作用了，但列出所有通配符却不起作用。当我使用时:{"Version":"2012-10-17","Statement":[...(otherstuff){"Effect":

amazon-web-services services 34 dynamodb section hadoop hive amazon-dynamodb amazon-iam

hadoop - Amazon EMR - 从站上的 Yum 更新引导操作失败

打算重写这个问题，因为我得到了很多更新的信息。我的问题如下:我有一个包含1个主节点和1个从节点的EMR集群。从节点配置为可以不受限制地访问开放互联网(我知道这是一个安全风险)。当我使用简单调用sudoyum-yupdate的引导操作设置此集群时，它失败了，表示引导操作在从属节点上失败(它总是在主节点上成功)但是，如果SSH进入从节点并手动尝试执行sudoyum-yupdate，则操作会在5.5.0EMR包上成功。我无法进一步调试为什么会发生这种情况，因为尽管据我所知已正确配置它，但EMR不会将任何日志复制到S3(日志复制最多是零星的)并且CloudWatch不会获取任何日志来自VPC，

站上 hadoop section code update emr amazon-emr

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因，我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而，它经常失败，EMR控制台中的stderr中没有任何内容。

amazon-web-services services 39 section code hadoop hdfs elastic-map-reduce

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

我正在尝试从pyspark(版本2.2.0)访问s3(s3a协议(protocol))，但我遇到了一些困难。我正在使用Hadoop和AWSSDK包。pyspark--packagescom.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2这是我的代码:sc._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc._jsc.hadoopConfiguration().set("f

amazon-web-services services java apache at hadoop apache-spark amazon-s3 pyspark

hadoop - Apache Spark history-server 如何引用 Amazon S3？

[版本]ApacheSpark2.2.0Hadoop2.7我想设置ApacheSpark历史服务器。位于AmazonS3中的Spark事件日志。我可以在S3中保存日志文件，但无法从历史服务器读取。ApacheSpark安装在/usr/local/spark所以，$SPARK_HOME是/usr/local/spark$cd/usr/local/spark/sbin$shstart-history-server.sh出现以下错误Exceptioninthread"main"java.lang.ClassNotFoundException:org.apache.hadoop.fs.s3a.

history-server history code spark java hadoop apache-spark amazon-s3

amazon-web-services - 无法将 AWS 主机注册到 Ambari 服务器

将主机注册到Ambari-server集群时，出现以下错误。“在1个未能注册的主机上跳过了主机检查。”我正在尝试在AWS实例上安装HDP2.5版本。我已尝试遵循Hortonworks的文档。https://docs.hortonworks.com/HDPDocuments/Ambari-2.5.0.3/bk_ambari-installation/content/set_the_hostname.html我已将公共(public)IP地址和公共(public)主机名添加到/etc/hosts文件，并更改服务器和主机上/etc/hostname文件中的主机名。重新启动两者，主机名已更改。

amazon-web-services services section Ambari code hadoop hortonworks-data-platform

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上，我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec amazon 跟踪器 HADOOP section amazon-ec2 cloud hdfs

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费，因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中，许多作业是并发执行的，我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群，然后根据需求管理可用性？即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业？谢谢最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器，您可以考虑使用FairScheduler，它为每个正在运行的作业分配一个集群份额，并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些

从属 amazon-ec section 跟踪器 amazon-ec2 hadoop mapreduce

131 132 133134135 136 137