草庐IT

kibana_task_manager

全部标签

hadoop - cleanup() 方法是否为失败的 map task 调用?

是否为失败的maptask调用了cleanup()方法?如果是这样,它如何确保“原子性”?在我的例子中,我正在映射器中准备一些统计信息,这些统计信息在cleanup()方法中写入数据库。在这种情况下,如果映射器在执行其输入拆分的过程中失败,清理方法会将till处理后的数据写入DB?这将导致不正确的统计信息,因为备用映射器尝试也会再次写入相同的数据。 最佳答案 根据您的映射器何时失败,可能会调用或不调用清理。例如,如果您的映射器在map方法中失败,则不会调用清理。但是,如果您的映射器在清理方法中失败,则清理已经被调用。如果映射器失败,

c# - "Failed Map Tasks exceeded allowed limit"来自 Hadoop 的错误

当我使用C#运行MapReduce示例应用程序时出现“失败的maptask超出允许的限制”错误,如下所示。谁能告诉我为什么它一直向我显示此错误?欣赏它。publicoverridevoidMap(stringinputLine,MapperContextcontext){//ExtractthenamespacedeclarationsintheCsharpfilesvarreg=newRegex(@"(using)\s[A-za-z0-9_\.]*\;");varmatches=reg.Matches(inputLine);foreach(Matchmatchinmatches){/

hadoop - 关闭推测执行的 Wordcount : More than 1 map task per block,

在Wordcount中,您似乎可以在每个block中获得超过1个maptask,并关闭推测执行。jobtracker是否在幕后做了一些魔术来分配比InputSplits提供的更多的任务? 最佳答案 区block和拆分是两种不同的东西。如果一个block有多个拆分,您可能会为一个block获得多个映射器。 关于hadoop-关闭推测执行的Wordcount:Morethan1maptaskperblock,,我们在StackOverflow上找到一个类似的问题:

jdbc - 使用CDH4+Cloudera Manager时JDBC驱动放在哪里?

我试图让Sqoop2(CDH4.4.0)识别JDBCjar,但无论我把它们放在哪里,它们似乎都没有被识别。我听从了建议:here,here,并问了一个类似的问题here.有人可以对此提供明确的答案吗? 最佳答案 我强烈建议您遵循Hadoop发行版及其相关版本的官方安装指南。看来您使用的是CDH4.4.0,但正在查看CDH4.2.1安装说明。而在CDH4.2.1中,JDBC驱动程序jar文件应在/usr/lib/sqoop2中,自CDH4.3.0起,它们应在/var/lib/sqoop2中(documentation)。

hadoop - 为什么我的 Hadoop 作业得到 Map task num = 1 ,并生成了 300 多个结果文件?

我有这样一份Hadoop工作。MR只有map,没有reduce。所以设置job.setNumReduces(0)。输入文件约300+然后我运行作业,我可以看到只有1个maptask在运行。完成它大约需要1个小时。然后我检查结果,我可以在输出文件夹中看到300多个结果文件。有什么问题吗?或者这是正确的做法?我真的希望Map应该等于输入文件的数量(而不是1)。我也不知道为什么输出文件数与输入文件数相同。hadoop作业是从oozie提交的。非常感谢您的热心帮助。新松 最佳答案 当您将reducer数量设置为0时,生成的输出对应于map任

hadoop - map task 是否并行读取其输入数据?

假设HDFS的复制因子是3,那么对于一个map任务,有三个节点保存它的输入数据。map任务是从所有3个节点并行读取还是随机选择其中一个?我做了一些实验,我将其中一个数据节点设置为具有非常低的带宽并获得一些非常慢的maptask,所以我猜maptask不会并行读取所有可用的数据节点,我是对的?感谢您的帮助! 最佳答案 如果您的复制因子是3,则集群中有三个节点保存特定映射任务的输入数据。JobTracker只会将map任务分配给这三个节点中的一个,因此它只会从该节点读取数据。Hadoop具有称为推测执行的功能。在推测执行中,如果JobT

hadoop - Cloudera Manager CDH Parcel 分发错误

我正在尝试使用CentOS6机器在Rackspace云上安装Hadoop集群。从cloudera管理器创建新集群时出现以下错误。有人可以帮忙吗。集群安装安装选定的包裹正在将选定的包裹下载并安装到集群中的所有主机上。CDH5.3.2-1.cdh5.3.2.p0.103个错误Errorwhendistributingtovm-cdh-cluster-3:[Errnosocketerror][Errno-2]Nameorservicenotknown.Errorwhendistributingtovm-cdh-cluster-1:[Errnosocketerror][Errno-2]Name

私有部署ELK,搭建自己的日志中心(四)-- kibana展示es的数据

一、说在前面的话前一篇已把elk的安装连带讲完,本文重在讲述如何在kibana展示es数据。二、数据的展示展示es数据库的客户端工具有很多,比如eshead插件,但是一说到要查询日志,还是非kibana莫属了。1、kibana.yml#服务端口server.port:5601#服务IPserver.host:"0.0.0.0"#ES的内网Ip:192.168.8.29elasticsearch.hosts:["http://192.168.8.29:9200"]#汉化i18n.locale:"zh-CN"2、添加索引索引模式,新增索引模式。添加索引模式完成,可以看到其时间筛选字段名称是logd

hadoop - 如何在 Ubuntu (12.0.4)-32 位上安装 cloudera manager

我有一个32位的Ubuntu版本,似乎最新的ClouderaManager只支持64位。有没有人在Ubuntu(12.0.4)32位上安装了CDH4和云时代管理器?。你能不能让我知道怎么做。 最佳答案 我相信32位Ubuntu不支持CDH4。32位RHEL6.2支持32位 关于hadoop-如何在Ubuntu(12.0.4)-32位上安装clouderamanager,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 如何使用安装在 EC2 上的 Cloudera Manager 4.0 解析主机

任何人都可以提供ClouderaManager4.1免费版帮助说明在EC2中解析主机吗?我在EC2m1.large实例上安装了ClouderaManager4.1免费版。当我使用外部主机名(dn1.example.com)搜索主机时,它会正确显示并正确安装软件包。但是,经过检查,它没有出现。唯一出现的服务器是安装ClouderaManager的服务器(ip-#-#-#-136.ec2.internal)。我什至尝试在主机搜索中使用dn1的其他主机名(ec2-#-#-#-47.compute-1.amazonaws.com、ip-#-#-#-152.ec2.internal)。两者都安装