event_scheduler

hadoop - 为什么 mapreduce 尝试由于 "Container preempted by scheduler"而被终止？

我刚刚注意到Hadoop上的许多Pig作业由于以下原因而被杀死:Containerpreemptedbyscheduler有人可以向我解释是什么原因造成的，我是否应该(并且能够)对此做些什么？谢谢! 最佳答案如果您有公平的调度程序并启用了多个不同的队列，那么更高优先级的应用程序可以终止您的作业(以抢占方式)。Hortonworks有一个很好的解释和更多的细节https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/pr

hadoop - Hadoop Fair/Capacity Scheduler 可以用在 MR1 上吗？

据我所知，YARN(MRv2)允许插入调度程序，替换默认的FIFO调度程序。我的问题是，我们可以在MRv1中做同样的事情吗？有没有办法在旧版本的Hadoop中替换FIFO调度程序，或者这是仅随YARN提供的东西？最佳答案我在Hadoop的0.20.x版本中使用公平调度程序已有一段时间了，从未遇到过任何问题。您可以设置以下属性:mapred.jobtracker.taskSchedulerorg.apache.hadoop.mapred.FairScheduler然后您可以转到http:///scheduler有关如何在MR1中设

Scheduler Capacity section 中设 code hadoop mapreduce scheduling hadoop-yarn

hadoop - Hive on tez in EMR schedule tasks very slow

我正在尝试在tez上使用Hive来查询存储在S3中的orc格式数据。TezAM定时任务非常慢，很多Map任务长时间处于“PENDING”状态。集群中有足够的资源(我会说足够了。有超过6TB的内存和超过1000个vcores可用，在这个作业中每个容器只花费2GB内存。这是唯一在集群中运行的作业yarncluster)，但它们在调度任务方面做得很慢。有什么方法可以加快这个过程吗？最佳答案我遇到了同样的问题。我决定更换Hive的引擎。试试这个命令:设置hive.execution.engine=mr;在任何情况下，MR都是最好的。AW

schedule hadoop section strong noreferrer hadoop-yarn tez

hadoop - 无法在 MESOS 框架 : Could not find or load main class org. apache.mesos.hdfs.scheduler.Main 上运行 HDFS

我尝试按照https://github.com/mesosphere/hdfs中提到的步骤进行操作.当我运行./bin/hdfs-mesos时，出现以下错误:Error:Couldnotfindorloadmainclassorg.apache.mesos.hdfs.scheduler.Main有谁知道我该如何解决这个错误？最佳答案为了运行mesos-hdfs，需要构建它。githubrepo仅包含源相同标记的版本。按照以下步骤操作:gitclonegit@github.com:mesosphere/hdfs.gitcdhdfs

scheduler hadoop hdfs section mesos

Spring Scheduled Task 在集群环境中运行

我正在编写一个具有每60秒执行一次的cron作业的应用程序。该应用程序配置为在需要时扩展到多个实例。我只想每60秒在1个实例上执行任务(在任何节点上)。开箱即用我找不到解决方案，我很惊讶以前没有被问过多次。我正在使用Spring4.1.6。最佳答案有一个ShedLock正是为这个目的服务的项目。您只需注释执行时应锁定的任务@Scheduled(...)@SchedulerLock(name="scheduledTaskName")publicvoidscheduledTask(){//dosomething}配置Spring和L

中运 Scheduled section code 34 spring spring-scheduled

Spring Scheduled Task 在集群环境中运行

我正在编写一个具有每60秒执行一次的cron作业的应用程序。该应用程序配置为在需要时扩展到多个实例。我只想每60秒在1个实例上执行任务(在任何节点上)。开箱即用我找不到解决方案，我很惊讶以前没有被问过多次。我正在使用Spring4.1.6。最佳答案有一个ShedLock正是为这个目的服务的项目。您只需注释执行时应锁定的任务@Scheduled(...)@SchedulerLock(name="scheduledTaskName")publicvoidscheduledTask(){//dosomething}配置Spring和L

中运 Scheduled section code 34 spring spring-scheduled

scala - org.apache.spark.sql.AnalysisException : Reference 'dattim' is ambiguous, 可能是 : dattim#6, event_dattim#55.;

我有一个连接的数据帧，其中包含一个where子句，表明dataStampe在一个范围内:valstartTime=newTimestamp(NewDate.atStartOfDay.toEpochSecond(ZoneOffset.UTC)*1000)valendTime=newTimestamp(NewDate.plusDays(1).atStartOfDay.toEpochSecond(ZoneOffset.UTC)*1000)valjoinedTable=table1.join(table2,table1("date")===table1("key")&&....).where(

dattim AnalysisException section table scala apache-spark hadoop

java - hadoop 日志中的 "complete event for unknown container id"是什么意思？

我正在尝试对集群中的多个文件运行一个简单的作业(wordcount示例)，但大多数map都失败了。当我引用任务日志时，我只看到这样的错误:ERROR[RMCommunicatorAllocator]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator:Containercompleteeventforunknowncontaineridcontainer_1388066512888_0001_01_000026有什么想法吗？更新:我多次检查作业，有时由于map故障而失败，有时由于减少故障而在极少数情况下成功完成。但在任何情

amp container section code java hadoop mapreduce

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件，每条记录每30分钟生成一次，并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与

time Calculate event code 34 scala apache-spark dataframe hadoop apache-spark-sql

hadoop - 无法启动 ResourceManager (capacity-scheduler.xml) 找不到 hadoop 2-6.0

我安装了haddop-2.6.0并遵循了Apache站点http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html中的单集群说明。当我尝试使用以下命令启动ResourceManager时$sbin/start-yarn.sh我在控制台中没有收到任何错误，但是当我看到资源管理器日志时却看到了错误。这是日志2015-02-0519:59:08,360INFO[main]resourcemanager.RMNMInfo(RMNMInfo.java:(63))-Registe

hadoop capacity-scheduler ResourceManager