delayed-job

hadoop - Apache kylin cube 失败 "no counters for job"

使用kylin1.5.4，当我构建立方体时，它在第3步失败，日志显示“没有工作计数器”。它也没有获取配置单元表的基数。当我创建一个模型或多维数据集时，它会抛出无法采取行动的错误，但是当我关闭json页面时，它们就会被创建。它不获取日期分区列，抛出在日志中找不到的列。非常感谢任何帮助或见解。最佳答案这有点晚了，但我在当前项目中也遇到了这个问题，我得到了“没有工作计数器”错误。问题是我们在Hive中使用ORC表。我们只是将数据从ORC表移至新的TEXTFILE表，并使用新表在Kylin多维数据集中设置所有内容，一切正常。

amp counters section 多维中设 hadoop hive kylin

java - 在 java 代码中设置 job.properties 文件以启动 oozie 操作

我正在尝试使用Java代码启动oozie操作。使用命令行时，我们通过“-configjob.properties”指定属性文件，它知道选择哪个工作流程。我们如何在java代码中定义“job.properties”文件来完成相同的任务？conf.setProperty(OozieClient.APP_PATH,"hdfs://clusterdb05.com:8020/user/apps/merge-logs/workflow.xml");conf.setProperty("jobTracker","jobtracker.com:8021");conf.setProperty("nameN

中设 java 34 String println hadoop workflow oozie

java - Hadoop Job 在最后几个百分比时真的很慢吗？

我一直在Hadoop集群版本0.20.2上运行作业，直到最近一切都正常，没有任何原因，也没有任何错误，maptask的最后几个百分比比作业的其余部分花费的时间长得多，其中最后2%需要30秒，其余工作不到30秒。无论输入大小如何，现在所有作业都会发生这种情况这是一个输入数据为4GB的示例，在此问题之前整个作业从提交到完成需要37秒，但现在需要一分钟多:14/08/0120:57:12INFOinput.FileInputFormat:Totalinputpathstoprocess:114/08/0120:57:12INFOmapred.JobClient:Runningjob:job_

Hadoop java JobClient mapred INFO

hadoop - 避免 "The number of tasks for this job 100325 exceeds the configured limit"错误

我有一个每周在生产集群上运行的Pig脚本。在上次运行中我得到了以下错误org.apache.pig.backend.executionengine.ExecException:ERROR6017:Jobfailed!Error-Jobinitializationfailed:java.io.IOException:Thenumberoftasksforthisjob100325exceedstheconfiguredlimit100000atorg.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:719)a

configured amp section 射器 code hadoop mapreduce apache-pig

hadoop - Hive 不尊重 mapreduce.job.reduces

以下形式的配置单元插入语句:insertintomy_tableselect*frommy_other_table;正在使用一个reducer-即使在执行以下操作之前:setmapreduce.job.reduces=80;有没有办法强制配置单元使用更多的reducer？没有明确的理由说明为什么这个特定的查询会执行单个reducer-假设末尾没有ORDERBY子句。顺便说一句，源表和目标表都是storedasparquet 最佳答案 SELECT*FROMtable;在Hive中不使用任何reducer-它是一个map-only作业

mapreduce 尊重 code section field hadoop hive

hadoop - 如果 Map 插槽跨机架启动，那么 Job Tracker 如何处理数据？

1.当将任务分配给任务跟踪器进行处理时，作业跟踪器首先尝试在具有包含数据的数据节点的同一服务器上找到具有空闲槽的任务跟踪器(以确保数据局部性)2.如果它没有找到这个TaskTracker，它会在跨机架查找TaskTracker之前在同一机架中的另一个节点上寻找TaskTracker。经验法则:处理逻辑只会到达数据进行处理。假设Tasktracker跨机架启动，相应的处理数据不可用，那么在这种情况下，处理逻辑(程序)如何到达数据，而不是数据到达处理逻辑(程序)？最佳答案当本地没有数据时，需要通过网络传输。数据局部性不是一个规则(远

何处 Tracker 跟踪器 section strong hadoop mapreduce

hadoop - 通过 spark job 创建 hive 表

我正在尝试在hadoop集群(BigInsight4.1发行版)上创建hive表作为我的spark(1.5.1版)作业的输出，但我面临权限问题。我的猜测是spark使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表，因此未能这样做。我尝试自定义hive-site.xml文件以设置一个经过身份验证的用户，该用户有权创建配置单元表，但这没有用。我还尝试将Hadoop用户变量设置为经过身份验证的用户，但它也没有用。我想避免保存txt文件然后创建配置单元表以优化性能并通过orc压缩减小输出的大小。我的问题是:有什么方法可以调用sparkdataframeapi的write函

hadoop spark section code 配置单 apache-spark hive hivecontext

java - 谁能解释我的 Apache Spark 错误 SparkException : Job aborted due to stage failure

我有一个简单的ApacheSpark应用程序，我在其中从hdfs读取文件，然后将其通过管道传输到外部进程。当我读取大量数据(在我的例子中文件大约有241MB)并且我没有指定最小分区数或将最小分区数指定为4时，我收到以下错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed4times,mostrecentfailure:Losttask1.3instage0.0(TID6,ip-172-31-36-43.us-west-2.co

SparkException aborted largeinputfile2 largeinputfile pepnovo3 java hadoop amazon-ec2 apache-spark

java - Spring MVC 和 Apache Hadoop 启动 MapReduce Job

我正在尝试通过SpringMVC应用程序启动hadoopMapReduce作业。MVC应用程序使用ApacheTomcat7.0.62运行良好。此外，hadoop应用程序与spring-data-hadoop配合得很好。当我尝试合并这些项目时，MapReduce作业初始化崩溃并出现以下错误。15/05/3116:10:18WARNsupport.ClassPathXmlApplicationContext:Exceptionencounteredduringcontextinitialization-cancellingrefreshattemptorg.springframework

MapReduce Spring springframework gt lt java spring-mvc hadoop

Hadoop异常-清理暂存区/staging/test/.staging/job_201211221353_0010

我的作业配置如下，我正在尝试对我的hadoop作业进行简单的两步链接，publicintrun(String[]args)throwsException{Configurationconf=getConf();if(args.length!=2){System.err.println("Usage:moviecount3");System.exit(2);}ConfigurationUtil.dumpConfigurations(conf,System.out);LOG.info("input:"+args[0]+"output:"+args[1]);Jobjob=newJob(con

存区 staging java hadoop job mapreduce

11 12 131415 16 17