草庐IT

Steve_Jobs

全部标签

hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 位置

我正在尝试设置描述的share_jobs设置HERE为false。文档HERE说要访问http://myserver:port/dump_config以查找HUE配置的位置。对我来说,它提供了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/。正如您可能从它在/var/run/中猜到的那样,每次启动时都会重新创建该目录,因此不会保存对hue.ini的更改并执行似乎不会影响http://myserver:port/dump_config中列出的配置。我运行了find/-namehue.ini以查看是否还有另一个要更改的hue.in

apache - 哈多普 : supporting multiple outputs for Map Reduce jobs

似乎Hadoop(reference)支持它,但我不知道如何使用它。我想:a.)Map-ReadahugeXMLfileandloadtherelevantdataandpassontoreduceb.)Reduce-writetwo.sqlfilesfordifferenttables为什么我选择map/reduce是因为我必须对驻留在磁盘上的超过100k(可能更多)xml文件执行此操作。欢迎大家提出更好的建议感谢任何解释如何使用它的资源/教程。我正在使用Python并且想学习如何使用streaming实现这一点谢谢 最佳答案 这

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时,它会成功执行。有几个类似问题的问题,但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch

hadoop - 如何在 HBase 上配置 map reduce jobs

我有一个在HBase表上运行的mapreduce作业。它在应用一些扫描过滤器并进行一些处理后扫描Hbase表。这项工作花费了很长时间,绝对比预期的要长得多,并且感觉性能下降是指数级的(即,前90%的完成速度比其余的快得多,大约98%(映射器完成)之后,看起来像像电影开始时的hell边缘一样陷入永恒。从高层来看,这种不均衡的性能应该没有任何理由,因为扫描中的每一行都应该有类似的行为,并且下游服务应该在HBase表的每一行都有类似的SLA。如何调试和分析此作业?是否有任何可用的工具可以帮助我对系统进行计量并查明行为异常的组件? 最佳答案

hadoop - HDFS 联邦 : Submission of Map Reduce jobs among multiple Name nodes

根据HdfsFederation上的Apache文档,系统可通过多个名称节点的联合进行隔离扩展。多个名称节点/namespace为了横向扩展名称服务,联邦使用多个独立的名称节点/namespace。名称节点是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作block的公共(public)存储。我唯一的疑问:我没有看到名称节点之间有任何中央协调器,因为所有节点都在运行隔离。对如何提交和处理作业感到困惑。1)如果我提交一个map-reduce作业,哪个名称节点将处理它?或者2)客户端是否应该知道必须为其提交作业的名称节点?如果客户端不知道哪

hadoop - Cloudera 管理器 : Where do I put Java ClassPath for MapReduce jobs?

我已经让Hadoop-Lzo在我的本地伪集群上愉快地工作,但是第二次我在生产中尝试相同的jar文件时,我得到:java.lang.RuntimeException:native-lzolibrarynotavailable库已验证在DataNode上,所以我的问题是:我在什么屏幕/设置中指定native-lzo库的位置? 最佳答案 对于MapReduce,您需要将条目添加到MapReduce客户端环境安全阀。您可以通过转到配置下的查看和编辑选项卡找到MapReduceClientSafety。然后在那边添加这些行:HADOOP_CL

hadoop - 使用 WebHCat 访问/templeton/v1/jobs 时出现错误 500

我的WebHCat服务器正在运行,我可以使用hadoop(使用hadoop-example-mapreduce-examples-2.2.0.jar)提交作业。当我去http://localhost:8080/templeton/v1/status它正在运行,所以服务器已启动。当我去http://localhost:8080/templeton/v1/jobs它给出了缺少的user.name参数,所以我用GET给它user.name参数,但是这个URL,http://localhost:8080/templeton/v1/jobs?user.name=出现以下错误:HTTPERROR:

c++ - 匈牙利算法 : I'm having trouble with assigning as many jobs to workers as possible

我已经在C++中创建了匈牙利算法的实现。这种实现在很多情况下都非常有效。但是,在某些情况下,我的算法根本不起作用,因为我相信(并且确实如此)我对算法的一个步骤的实现是错误的。我的实现将数组X作为输入,运行算法的步骤并产生最终分配。该算法的步骤可以在维基上找到:HungarianAlgorithm在步骤3中,它具有以下成本数组(worker由行表示,作业由列表示)然后它说Initiallyassignasmanytasksaspossiblethendothefollowing但是我不明白什么是正确的实现。如何分配尽可能多的任务?选择会是随机的吗?然后如果选择是随机的,我可以选择第一个w

java - 杰斯克(Resque): Get all open delayed jobs in redis db

Jesque是我想使用的好工具。JesqueisanimplementationofResqueinJava.Itisfully-interoperablewiththeRubyandNode.js(Coffee-Resque)implementations.JesqueisaMavenprojectanddependsonJedistoconnecttoRedis,Jacksontomapto/fromJSONandSLF4Jforlogging.但在此之前,我需要更多信息。是否也可以在Jesque中检索所有空缺职位?此信息可能对我的监控和脏重启很有用。在异常关闭之后,如果任何其他应

laravel - php-resque : Retry failed jobs

我已经在Laravel上设置了php-resque。除了失败的工作,一切都很好。我看不到任何重新排队(重试)标记为失败的作业的选项。我看到在redis数据库中有一个名为“failed”的队列,但我如何才能将每个failed_job重新推送回父队列?我到处搜索(php-resque文档、google等)但没有找到php-resque。仅适用于ruby​​版本的现成解决方案...提前致谢! 最佳答案 有用于php-resque的插件:https://github.com/JaapRood/php-resque-retry