马逊_草庐IT

hadoop - 亚马逊电子病历 : configuration of running on local file system

我目前正在尝试在本地文件系统上运行EMR作业。对于EMR，本地文件系统位于EMR作业创建的EC2实例上。我点击了这个链接:IsitpossibletorunHadoopinPseudo-DistributedoperationwithoutHDFS?配置看起来很简单，设置fs.default.name在core-site.xml中为file:///.然后Hadoop将在本地文件系统而不是HDFS上运行。(我首先在我的本地机器(Redhat)上用Hadoop尝试了这个配置。当将fs.default.name设置为file:///时不起作用，但是file://home//使hadoop运行

病历 configuration code hadoop section emr amazon-emr

amazon-web-services - 在选择定价时，hadoop 分发下的 aws EMR 亚马逊标准是什么

我正在尝试计算AWSEMR服务的定价。我用谷歌搜索，但在默认的hadoop分布列下找不到什么是亚马逊标准。最佳答案假设您在http://calculator.s3.amazonaws.com/index.html谈论定价计算器，“HadoopDistribution”下拉列表中的“AmazonStandard”选项只是指AWSEMR自己的Hadoop分布(当然还有其他BigData应用程序，如Hive、Spark、Pig等)。也就是说，不是MapR分布之一，它们也受支持但具有不同的成本结构。这是EMR的默认发行版，因此您会知道您

amazon-web-services 分发 section 定价 stackoverflow hadoop amazon-emr

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中，我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务？我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是，对于完全相同的输入，我偶尔会得到略有不同的数字，或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同？最佳答案这很可能是推测性执行的启动。当Hadoop有可用资源时，它可能会选择同时运行同一任务的两次尝试。启

MapReduce launched section 推测的 hadoop

amazon-web-services - 降低亚马逊 EMR 上 100% Cpu 利用率的 Hive 技巧

我正在使用下表来处理大约15GB(.gz压缩)的iislog。使用亚马逊EMR(1个中型主实例、4个大型核心实例、2个任务实例)。甚至需要大约1小时才能获得此查询的结果:selecturi,cs_CookieasCookie,count(*)ashitsfromtmp1groupbycs_Cookie,uriorderbyhitsDesc;我看到所有DataNode上的cpu利用率每次都是100%。那么，有人可以建议如何减少查询时间和cpu利用率吗？表定义:createexternaltablemarData(logdatestring,timestring,computernames

amazon-web-services services string section 34 hadoop hive amazon-emr

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群，并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此，即使我有100个区域(如果我有1个主节点)，这也意味着整个IO都会受到限制吗？谢谢问候最佳答案您是否使用ElasticMapReduc

hadoop AWS section HBase elastic-map-reduce

hadoop - 如何从亚马逊 emr 访问 .pem 文件

我是亚马逊EMR的新手，我想在EMR中使用.pem文件。.pem文件在我的本地文件夹中。当我在EMR实例中使用pem文件内容创建相同的文件时，它不起作用。如果有人可以提供从本地计算机将文件复制到EMR或从S3访问文件的步骤，那将非常有帮助。提前致谢。最佳答案创建引导脚本以将.pem文件复制到EMR盒在Bootstrap脚本中使用以下命令将文件下载到EMR的任何位置(我正在将文件下载到/mnt/#!/bin/bashhadoopfs-copyToLocals3:n://mybucket/myfolder/my.pem/mnt/my

hadoop emr section pem amazon-ec2 amazon-emr

hadoop - 无法通过命令行界面连接到亚马逊 AWS EMR

当我尝试通过命令行在AWS上运行mapreduce作业时遇到了问题。我必须执行大量相互链接的步骤(大约100个)。由于我不希望使用AWS图形界面手动配置它，因此我尝试使用CLI来完成它。然而，即使是最简单的命令也不起作用:$awsemrlist-clustershostname'elasticmapreduce.us-west-1.amazonaws.com'doesn'tmatchu'us-west-1.elasticmapreduce.amazonaws.com'在S3上，我的配置似乎工作正常，因为此命令创建存储桶没有任何问题:$awss3mbs3://randombigdatab

hadoop AWS section code pre amazon-web-services configuration amazon-s3 emr

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器，如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是，我没有足够的声誉在那里添加评论。此外，考虑到它特定于AWSEMR，这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

病历 SparkException noreferrer noopener nofollow apache-spark hadoop hive amazon-emr beeline

amazon-web-services - 如何计算映射器/缩减器的数量，以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能？

根据AmazonElasticMapReduce上使用/可用的实例，计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么？(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR，查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

射器缩减 section 的 amazon-web-services hadoop mahout reducers mapper

java - 亚马逊电子病历 : Passing java system property to custom jar

AmazonEMR是否允许将系统属性传递给自定义jar，例如hadoopjar-Dkey=valuemyjob.jar?(上面的key，value在应用程序本身的初始化期间使用，而不是属于hadoop的Configuration对象。)相关话题Howtospecifymapredconfigurations&javaoptionswithcustomjarinCLIusingAmazon'sEMR?讨论了仅通过引导操作将系统属性传递给hadoop守护进程的方法，显然，这不允许对java入口点类执行相同的操作。最佳答案如果您不想将

病历 java code section hadoop amazon-emr system-properties