草庐IT

linux - 如何在 AWS ec 虚拟机上使用 hadoop 1.0 配置高可用性

我已经在非VM设置上使用心跳和虚拟IP机制配置了此设置。我正在使用hadoop1.0.3并使用共享目录进行Namenode元数据共享。问题是,在亚马逊云上,没有什么能像虚拟Ip那样使用Linux-ha获得高可用性。有没有人能做到这一点。请让我知道所需的步骤? 最佳答案 现在我在hbase上使用Hbase复制WAL。0.92以后的Hbase支持这个。对于云上的hadoop集群,我会等待2.0版本稳定。使用了以下内容http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/repli

hadoop - AWS cloudwatch 自定义指标数据不可见

我已经创建了一个cron作业(cron作业每分钟运行一次)和一个shell脚本,用于在thisanswerinAWSforum的帮助下将HDFS使用情况发布到Cloudwatch|.我的脚本如下所示:#!/bin/sh##Prerequisites:#1.AWScloudwatchCLI#2.JAVA#3.AWScredentialsfileinsideAWScloudwatchCLIdirectory#exportJAVA_HOME=$1exportAWS_CLOUDWATCH_HOME=$2exportAWS_CREDENTIAL_FILE=$AWS_CLOUDWATCH_HOME

hadoop - Hortonworks HDP ambari AWS EC2 心跳丢失

在AWSEC2上成功部署HDP集群。重启HDP集群节点后,ambari服务器的心跳丢失,因为所有公共(public)和私有(private)IP以及DNS都已更改。在ambari服务器中我们可以在哪里配置新的IP或DNS?? 最佳答案 首先,Ambari要求所有节点都有FQHN。最佳做法是在所有节点上分配正确的主机名。在您的Ambari服务器上恢复心跳的一个简单的方法是在您的所有客户端节点上运行以下命令:sudoambari-agentrestartyour_ambari.server.hostname.com它在Ambari2.0

hadoop - 在 AWS EMR 中重启 Oozie

我想更改Oozie电子邮件操作的“发件人地址”并对oozie-site.xml进行了一些更改。我不确定如何应用我所做的更改。我们可以启动和停止服务,例如AWSEMR中的Oozie?谢谢,赛 最佳答案 ps-ef|grepoozie--只是为了检查oozie服务的名称sudostopooziesudostartoozie 关于hadoop-在AWSEMR中重启Oozie,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 解析参数错误,amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例,上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接,但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改,所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里,但我不知道他们会这样消失。为什么会这样?

amazon-web-services - 如何更改在 AWS 数据管道中运行的 Hive 事件的内存设置?

在使用AWSDataPipeline运行一个HiveActivity时,我的Hive事件失败并出现以下错误:Diagnostics:Container[pid=,containerID=]isrunningbeyondphysicalmemorylimits.Currentusage:1.0GBof1GBphysicalmemoryused;2.8GBof5GBvirtualmemoryused.Killingcontainer.当我运行由HiveActivity手动执行的Hive脚本时,我必须按如下所示执行它:hive\-hiveconftez.am.resource.memory.

hadoop - AWS EMR Hive 分区无法识别任何类型的分区

我正在尝试处理amazons3中存储桶中的一些日志文件。我创建表:CREATEEXTERNALTABLEapiReleaseData2(messageIdstring,hostNamestring,timestampstring,macAddressstringDISTINCT,apiKeystring,userAccountIdstring,userAccountEmailstring,numFilesstring)ROWFORMATserde'com.amazon.elasticmapreduce.JsonSerde'withserdeproperties('paths'='mes

AWS EMR 中的 Hadoop : Will closing terminal kill hadoop job?

在不终止我的Hadoop作业的情况下关闭我的终端或关闭我的计算机是否安全?我正在通过AmazonElasticMapReduce上的集群运行Hadoop作业。我打开了我的终端,在那里我通过ssh进入了我的主节点。当我尝试关闭终端时,我收到一条警告,提示所有进程都将被终止。这也会扼杀我的Hadoop工作吗?或者我可以关闭我的计算机并稍后再次使用ssh吗?我是否需要特殊工具(如tmux)来执行此操作?如果重要的话,我在Ubuntu13.10中使用默认的(bin/bash)终端。我从Pig脚本开始这项工作。 最佳答案 不,你可以愉快地杀死

hadoop - 为什么使用 c3.8xlarge 服务器的 AWS EMR 作业与使用 cc2.8xlarge 服务器的相同作业相比会严重滞后?

我怀疑这可能是AWS端的内部问题,但我想在这里发帖,因为我目前没有高级AWS支持(更新:已签名申请AWS支持,希望我能从他们那里得到答案)。我有一份经常性的EMR工作,最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时,我的一个通常需要2-3分钟的map-reduce作业被卡住了,花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业,重新尝试在新的EMR集群上启Action业,我在第一个小时内看到了相同的行为,因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时,工作在2-3分钟内完成。