草庐IT

指挥调度

全部标签

java - 启用 hadoop 调度程序(资源感知自适应调度程序)

我想在hadoop0.20.203.0中启用adaptivescheduler。我有一个来自这个调度程序的jar文件。(我确信这个jar文件可以正常工作)。我将jar文件放在HADOOP_HOME/lib中,并在hadoop-env.sh中设置HADOOP_CLASSPATH。我在mapred-site.xml中设置了调度程序的必需属性。当我运行我的集群时,所有的jobtracker、datanode、……都开始了。但是当我转到调度程序的UI(http://localhost:50030/scheduler)时,我遇到错误404。这个调度程序的jar文件包含hadoop-0.20.20

hadoop 糟糕的任务调度

我正在hadoop上运行一些mapreduce任务。映射器用于生成数据,因此不依赖于hdfsblock放置。为了测试我的系统,我使用了2个节点和一个主节点。我正在使用yarn在hadoop-2.0上进行测试。我发现hadoop有一些非常不舒服的地方。我已将其配置为运行8个maptask。不幸的是,hadoop正在一个节点上启动所有8个map任务,而另一个节点几乎是理想的。有4个reducer,它也不平衡这些reducer。当发生这种情况时,它确实会导致性能不佳。我在作业跟踪器和任务跟踪器的mapred-site.xml中设置了这些属性mapreduce.tasktracker.map.

c# - c# 应用程序的 oozie 调度

我在Windows中使用oozie-4.1.0。我想通过oozie安排一个c#应用程序。据我所知oozie只支持java,pig,hive。谁能告诉我是否支持调度c#应用程序 最佳答案 据我所知,Oozie不支持c#,但具有shell操作:https://oozie.apache.org/docs/4.1.0/DG_ShellActionExtension.html这可能是一个变通办法-如果您通过shell操作启动您的c#应用程序。 关于c#-c#应用程序的oozie调度,我们在Stac

hadoop - 我应该使用 LSF 还是实现我自己的作业调度程序?

我们在公司内部做一些文件处理\计算简单地说,我们有一份工作或任务涉及读取一个包含超过十亿条记录的巨大文件,解析文件并进行一些清理并将清理后的数据写入另一个文件。我们有数百个这样的工作,它们不断地被创建、提交、运行。每个作业处理自己的文件,因此我们不必担心并发问题。为此,我们构建了自己的调度系统(MainFrame和Java的组合)。我们目前的吞吐量约为每小时4000万条记录。为了改善这一点(并提供更多的容错能力),我们正在评估IBM的LSF以帮助我们进行调度和创造工作。你们中有没有人觉得使用LSF可能是解决这个问题的过度杀伤力?我可以考虑使用AKKA中的参与者模型实现并围绕它编写我自己

hadoop - 使用 NiFi 调度 Hadoop 批处理

根据NiFi'shomepage,它“支持数据路由、转换和系统中介逻辑的强大且可扩展的有向图”。过去几个月我一直在使用NiFi,不禁想知道为什么不将它也用于调度批处理。假设我有一个用例,其中数据流入Hadoop,由一系列Hive\MapReduce作业处理,然后导出到一些外部NoSql数据库以供某些系统使用。使用NiFi来摄取数据并将数据流入Hadoop是NiFi的一个用例。但是,使用Nifi来安排Hadoop上的作业(“Oozie-like”)是一个我没有遇到过其他人实现的用例,并且由于它似乎完全有可能实现,我试图了解是否有原因不要这样做。在NiFi上完成这一切的好处是,人们将在一个

hadoop - yarn 容量调度程序中的队列内抢占

我在yarn中使用hadoop2.9.2进行内部队列抢占。我的队列间抢占工作正常,我设置了以下两个参数:https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/properties_for_configuring_intra-queue_preemption.html但队列内抢占仍然不起作用。任何线索都会有所帮助。 最佳答案 根据您的意见,您应该使用较低的数字来表示较高的优先级,因为第1个优先级总是比第20个优先级更

hadoop - 如何在不同节点集群中调度hadoop map任务

我有一个唯一的map程序,它有超过10张map。我的集群有5个节点,我的问题是:我可以安排将哪些映射任务运行到哪个节点吗?比如让1号映射运行在node1,3号映射运行在node3,9号映射运行在node5。如果我可以这样做,那么需要对我的代码和配置文件进行哪些更改。顺便说一句,我使用HDFS。谢谢! 最佳答案 无法在Hadoop中为map任务到节点映射设置亲和性。调度程序根据数据位置/槽状态自动决定在何处运行Map任务。 关于hadoop-如何在不同节点集群中调度hadoopmap任务,

hadoop - 在 hadoop 容量调度程序中增加用户容量

我是Hadoop新手。在编写我的MapReduce作业后,我决定在共享集群上测试它们。我最初在单个节点上测试了我的工作。但后来我添加了4个节点以在5(1+4)上对其进行测试。容量调度程序显示以下信息:队列配置容量百分比:100.0%用户限制:100%优先支持:否maptask容量:10个插槽已用容量:2(容量的20.0%)正在运行的任务:2活跃用户:用户“juancito”:2(已用容量的100.0%)因为对于1个节点我有2个槽,而现在对于5个节点我有10个槽,我猜每个节点都有两个槽(如果我错了请纠正我)。现在,调度程序说我只使用了20%的容量。这是否意味着我实际上并没有使用我添加的4

hadoop - hadoop 公平调度程序的最大池数是多少?

hadoop1公平调度器的最大池数是多少?Agooglesearch看看documentation没有透露任何信息。 最佳答案 fairschedulersource中的Queues和Container都是使用Heap数据结构,我找不到Pool结构,我猜它们是相似的,IE只是受堆空间的限制。 关于hadoop-hadoop公平调度程序的最大池数是多少?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/

algorithm - 集群作业调度算法

我正在寻找适用于以下问题的算法:有多台电脑(具体数目未知)。每台计算机从某个中央队列中提取作业,完成作业,然后提取下一个。工作是由一些用户组产生的。有些用户提交了很多工作,有些则提交了一点。作业消耗相等的CPU时间(不是真的,只是近似值)。中央队列在调度作业时应该是公平的。此外,提交大量作业的用户应该拥有一些最小的资源份额。我正在为这个调度寻找一个好的算法。考虑了两个候选人:类似Hadoop的公平调度程序。这里的问题是:当我的集群大小未知时,我在哪里可以获得最小份额?将一些惩罚与每个用户相关联。安排用户的工作时增加惩罚。使用将作业调度给用户的概率作为1-(归一化惩罚)。这有点像步幅调度