草庐IT

hadoop - 在 amazon EMR 上运行 HBase 时,为什么/tmp 文件夹与实际数据相比很大?

我们在amazonEMR上有一个默认配置的hadoop+hbase集群,所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间,现在/tmp为500Gb,而实际/hbase数据为70Gb。这种差异似乎太大了,我们是否应该定期删除一些/tmp数据? 最佳答案 经过一些调查,我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

hadoop - 当我使用 Amazon EMR 上的 Hive 引擎从 Presto 导出数据时发生 FileAlreadyExistsException

我尝试使用Presto和AmazonEMR上的Hive引擎将数据从S3存储桶导出到其他S3存储桶,如ETL,但在我导出数据时发生了FileAlreadyExistsException。如何使用Presto导出数据?环境emr-4.3.0hive1.0.0Presto-Sandbox0.130错误我尝试了以下操作:$hivehive>CREATEEXTERNALTABLElogs(logstring)->LOCATION's3://foo-bucket/logs/';hive>CREATEEXTERNALTABLEs3_export(logstring)->ROWFORMATDELIMI

hadoop - 在 AWS EMR 中重启 Oozie

我想更改Oozie电子邮件操作的“发件人地址”并对oozie-site.xml进行了一些更改。我不确定如何应用我所做的更改。我们可以启动和停止服务,例如AWSEMR中的Oozie?谢谢,赛 最佳答案 ps-ef|grepoozie--只是为了检查oozie服务的名称sudostopooziesudostartoozie 关于hadoop-在AWSEMR中重启Oozie,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 解析参数错误,amazon aws emr

我正在尝试通过Linux控制台创建一个步骤:awsemradd-steps--cluster-idj-XXXXXXXXXX--stepsType=CUSTOM_JAR,Name="S3DistCpstep",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com","--src,s3://folder-name/logs/j-XXXXXXXXXX/node/","--dest,hdfs:///output","--srcPattern,.*[a-zA-Z,]+"]

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

hadoop - 如何使 Hadoop/EMR 每个节点使用更多容器

我正在将我们的应用程序从Hadoop1.0.3迁移到EMRv5.1.0上的2.7。我让它运行起来了,但我仍然无法理解Yarn中的资源分配系统。使用EMR提供的默认设置,Hadoop只为每个节点分配一个容器,即使我为节点选择了更大的实例类型。这是一个问题,因为我们现在将使用两倍的节点来完成相同数量的工作。我想将更多容器压缩到一个节点中,并且确保我们使用所有可用资源。我假设我不应该触摸yarn.nodemanager.resource.memory-mb或yarn.nodemanager.resource.cpu-vcores,因为它们是由EMR设置的以反射(reflect)实际可用的资源

amazon-web-services - Amazon EMR MapReduce 进度回滚?

嗨,我刚刚想到了一个奇怪的任务:我使用EMR运行java-MapReduce作业。数据大概是1T,我用的是1master+8slave。所有实例都是r2.2xlarge。最初,一切看起来都很好,如下所示:INFOmapreduce.Job:map0%reduce0%INFOmapreduce.Job:map1%reduce0%INFOmapreduce.Job:map2%reduce0%INFOmapreduce.Job:map3%reduce0%INFOmapreduce.Job:map4%reduce0%INFOmapreduce.Job:map5%reduce0%INFOmapr

java - 在 EMR 上提交 JAR 时出现 ClassNotFoundException

我正在使用eclipse/Maven创建一个JAR并在EMR上运行它这是我的pom.xml文件4.0.0com.sudarshanSparkApplicationSQLjarSparkApplicationhttp://maven.apache.orgUTF-8clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/junitjunit3.8.1testorg.scala-langscala-library2.11.1org.apache.sparkspark-core_2.112.2.0org.apache

hadoop - AWS EMR Hive 分区无法识别任何类型的分区

我正在尝试处理amazons3中存储桶中的一些日志文件。我创建表:CREATEEXTERNALTABLEapiReleaseData2(messageIdstring,hostNamestring,timestampstring,macAddressstringDISTINCT,apiKeystring,userAccountIdstring,userAccountEmailstring,numFilesstring)ROWFORMATserde'com.amazon.elasticmapreduce.JsonSerde'withserdeproperties('paths'='mes

AWS EMR 中的 Hadoop : Will closing terminal kill hadoop job?

在不终止我的Hadoop作业的情况下关闭我的终端或关闭我的计算机是否安全?我正在通过AmazonElasticMapReduce上的集群运行Hadoop作业。我打开了我的终端,在那里我通过ssh进入了我的主节点。当我尝试关闭终端时,我收到一条警告,提示所有进程都将被终止。这也会扼杀我的Hadoop工作吗?或者我可以关闭我的计算机并稍后再次使用ssh吗?我是否需要特殊工具(如tmux)来执行此操作?如果重要的话,我在Ubuntu13.10中使用默认的(bin/bash)终端。我从Pig脚本开始这项工作。 最佳答案 不,你可以愉快地杀死