草庐IT

task_scheduler_init

全部标签

hadoop - CDH 5.2 启动 NodeManager-Service 时出错 NodeManager 在 INITED 状态下失败;原因 : java. lang.NullPointerException

2014-11-2119:05:37,532INFOorg.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.LocalizedResource:Resourcehdfs://hadoop-master.nycloudlab.internal:8020/user/admin/.staging/job_1415362431963_0311/libjars/hbase-hadoop-compat.jar(->/yarn/nm/usercache/admin/filecache/1513/hbase-hadoop

Spring Scheduled Task 在集群环境中运行

我正在编写一个具有每60秒执行一次的cron作业的应用程序。该应用程序配置为在需要时扩展到多个实例。我只想每60秒在1个实例上执行任务(在任何节点上)。开箱即用我找不到解决方案,我很惊讶以前没有被问过多次。我正在使用Spring4.1.6。 最佳答案 有一个ShedLock正是为这个目的服务的项目。您只需注释执行时应锁定的任务@Scheduled(...)@SchedulerLock(name="scheduledTaskName")publicvoidscheduledTask(){//dosomething}配置Spring和L

Spring Scheduled Task 在集群环境中运行

我正在编写一个具有每60秒执行一次的cron作业的应用程序。该应用程序配置为在需要时扩展到多个实例。我只想每60秒在1个实例上执行任务(在任何节点上)。开箱即用我找不到解决方案,我很惊讶以前没有被问过多次。我正在使用Spring4.1.6。 最佳答案 有一个ShedLock正是为这个目的服务的项目。您只需注释执行时应锁定的任务@Scheduled(...)@SchedulerLock(name="scheduledTaskName")publicvoidscheduledTask(){//dosomething}配置Spring和L

hadoop - Oozie Hive 操作使用 -i init 脚本

如何使用初始化脚本运行OozieHive或Hive2操作?在CLI中,这通常可以通过-iinit.hive来完成。争论;但是当通过-iinit.hive在OozieAction中使用它时工作流程因错误而停止。我将init.hive文件链接到init.hive#init.hive属性,它在本地appcache目录中可用。$llappcache/application_1480609892100_0274/container_e55_1480609892100_0274_01_000001/|grepinit>lrwxrwxrwx1rootroot42Jan1212:24init.hive

java - Hadoop : set a variable like hashSet only once so that it can be utilized multiple times in each map task

您好,我有一个HashSet,它需要在hadoop中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎提出任何建议。 最佳答案 看来你还没有真正了解Hadoop的执行策略。如果你是分布式模式,你不能在多个map任务中共享一个集合(HashSet)。这是因为任务是在它们自己的JVM中执行的,并且它不是确定性的,即使不使用jvm重用,你的集合在jvm被重置后仍然存在。您可以做的是在计算开始时为每个任务设置一个HashSet。因此您可以覆盖setup(Contextctx)方法。这将在调用映射方法之前

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1",无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB,1个reducer需要很长时间...[ihadanny@lv

hadoop - pig 忽略 maxReducers 并使用 mapred.reduce.tasks 代替

我的pig脚本生成了大约5个MR作业。当它开始执行时,pig打印:BytesPerReducer=1000000000maxReducers=999并继续创建一个只有一个reducer的MR作业:NeitherPARALLELnordefaultparallelismissetforthisjob.Settingnumberofreducersto1但是,对于从同一脚本生成的后续作业,它不会打印此行,并且在其中一个中创建mapred.reduce.tasksreducers,在我的集群中是4992.这是一个已知错误吗?或者我在这里遗漏了什么? 最佳答案

hadoop - Shuffle write 大和 spark task 变得超慢时的优化

有一个SparkSQL将连接4个大表(前3个表5000万,最后一个表2亿)并进行一些分组操作,消耗60天的数据。并且此SQL将需要2小时才能运行,在此期间,我检查到ShuffleWrite正在急剧增加,可能会超过200GB。相比之下,当我将消耗日期范围从60天减少到45天时,运行只需要6.3分钟。我查看了DAG图,对于45天的数据,它在最后一次sortMergeJoin之后输出了10亿条数据。谁能告诉我我可以从哪个方向优化这个场景?谢谢!附言可能的相关信息:Spark.version=2.1.0spark.executor.instances=20spark.executor.memo

r - RHadoop 中的 hdfs.init() 错误

"C:/ProgramFiles/Java/jdk1.8.0_181")library(rJava)library(rhdfs)library(rmr2)hdfs.init()AftersettingupHadoopsinglenodeclusteronmymachine,ItriedtoexecutecommandsusingR-Studioinwindows.However,Iamgettinganerrormessagewithfollowingcode:Sys.setenv(HADOOP_HOME="C:/hadoop-2.7.3")Sys.setenv(HADOOP_CMD=

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1,则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下,它设置为+1,这意味着每个map/reduce任务都会启动一个新的JVM。相反,如果它设置为-1,那么一个jvm可以被无限数量的任务使用。在这种情况下,任务依次执行以使用相同的JVM。因此,当该属性设置为+1时,每个节点启动的JVM数量等于任务数量。没有混淆....但是,我的具体问题是,如果我将mapred.job.reuse.jvm.num.tasks设置为-1,每个节点将启动多少个JVM。每个节点只有一个JVM吗?还是别的? 最佳答案