草庐IT

configuration - 在 ec2 上手动配置 hadoop

谁能给我指出任何资源的方向,这些资源可以帮助我在EC2上手动设置/配置Hadoop(1.0.4)。我同意有很多资源可以使用工具、服务等来完成这项工作,但我正在寻找的是一些帮助,以确定对conf/*.xml文件进行哪些修改手动slaves和master都是为了让Hadoop正常工作。现在,我有5个ec2实例在运行,它们都能够在伪分布式模式下单独运行hadoop作业。所以,我需要通过配置conf文件的方式,将一个变成master,其余的变成slave,让slave知道namenode和jobtracker在哪里,而master知道所有的slave。我的理解是,我还必须配置实例的EC2安全组

java - 开始使用最新版本的 hadoop 和 ec2

我正在关注HadoopinAction开始使用ec2的hadoop。我在ubuntu上运行并下载并安装了最新版本的Hadoop。我遇到了这个命令的障碍:hadoop-ec2launch-clustermycluster2Thebooksays"TheHadoopEC2toolsareinthedirectorysrc/contrib/ec2/binunderyourHadoopinstallation.Recallthatourec2-init.shscripthasalreadyaddedthatdirectorytoyoursystemPATH.Withinthatdirector

hadoop - AWS cloudwatch 自定义指标数据不可见

我已经创建了一个cron作业(cron作业每分钟运行一次)和一个shell脚本,用于在thisanswerinAWSforum的帮助下将HDFS使用情况发布到Cloudwatch|.我的脚本如下所示:#!/bin/sh##Prerequisites:#1.AWScloudwatchCLI#2.JAVA#3.AWScredentialsfileinsideAWScloudwatchCLIdirectory#exportJAVA_HOME=$1exportAWS_CLOUDWATCH_HOME=$2exportAWS_CREDENTIAL_FILE=$AWS_CLOUDWATCH_HOME

hadoop - Hortonworks HDP ambari AWS EC2 心跳丢失

在AWSEC2上成功部署HDP集群。重启HDP集群节点后,ambari服务器的心跳丢失,因为所有公共(public)和私有(private)IP以及DNS都已更改。在ambari服务器中我们可以在哪里配置新的IP或DNS?? 最佳答案 首先,Ambari要求所有节点都有FQHN。最佳做法是在所有节点上分配正确的主机名。在您的Ambari服务器上恢复心跳的一个简单的方法是在您的所有客户端节点上运行以下命令:sudoambari-agentrestartyour_ambari.server.hostname.com它在Ambari2.0

hadoop - 在 AWS EMR 中重启 Oozie

我想更改Oozie电子邮件操作的“发件人地址”并对oozie-site.xml进行了一些更改。我不确定如何应用我所做的更改。我们可以启动和停止服务,例如AWSEMR中的Oozie?谢谢,赛 最佳答案 ps-ef|grepoozie--只是为了检查oozie服务的名称sudostopooziesudostartoozie 关于hadoop-在AWSEMR中重启Oozie,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 解析参数错误,amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序,它使用spark-submit在我的笔记本电脑上运行正常。但是,当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例,上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接,但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改,所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里,但我不知道他们会这样消失。为什么会这样?

amazon-web-services - 如何更改在 AWS 数据管道中运行的 Hive 事件的内存设置?

在使用AWSDataPipeline运行一个HiveActivity时,我的Hive事件失败并出现以下错误:Diagnostics:Container[pid=,containerID=]isrunningbeyondphysicalmemorylimits.Currentusage:1.0GBof1GBphysicalmemoryused;2.8GBof5GBvirtualmemoryused.Killingcontainer.当我运行由HiveActivity手动执行的Hive脚本时,我必须按如下所示执行它:hive\-hiveconftez.am.resource.memory.

amazon-ec2 - 将新卷添加到伪分布式 Hadoop 节点无提示失败

我试图通过在hdfs-site.xml中的dfs.name.dir中添加卷的位置来向Hadoop伪分布式节点添加新卷>,我可以在这个位置看到锁定文件-但尽我所能尝试,似乎当我加载文件(使用配置单元)时,这些位置几乎没有被使用(即使锁定文件和一些子文件夹出现..所以Hadoop显然可以访问它们)。当主卷即将用完空间时,我会收到以下异常:Failedwithexceptionjava.io.IOException:File/tmp/hive-ubuntu/hive_2011-02-24_15-39-15_997_1889807000233475717/-ext-10000/test.csv