作业队_草庐IT

hadoop - 在 Hadoop 上运行的 Oozie 作业出现问题 -/user/history/done_intermediate 上的权限

首先介绍一下背景。我有一个测试CDH集群，有两个节点。我正在尝试执行Oozie作业，下载文件，使用SPARK处理它，然后在Solr中对其进行索引。集群配置为使用Kerberos身份验证。CDH版本为5.7.1当我尝试使用Oozie运行作业时，使用以下命令:ooziejob--ooziehttps://host:11443/oozie/-run--configoozieExample/job.properties失败并出现以下异常:2016-08-1212:29:40,415WARNorg.apache.oozie.action.hadoop.JavaActionExecutor:SER

hadoop - 如何将 Flink 作业提交到远程 YARN 集群？

我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话，有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得，这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗？最佳答案在Hadoop/YA

交到 hadoop section code YARN hadoop-yarn apache-flink ambari

hadoop - 无法在 HUE oozie 中运行 spark 作业。异常 : "datanucleus-api-jdo-3.2.1.jar does not exist"

我想知道的是spark如何/在哪里挑选所需的jar。文件:/mnt/md0/yarn/nm/usercache/kylin/appcache/application_1468506830246_161908/container_1468506830246_161908_01_000001/datanucleus-api-jdo-3.2.1.jar不存在。--num-executors30--executor-memory18g--executor-cores15--driver-memory2g--fileshdfs:///jobs/kylin/hive-site.xml--jarsd

中运 datanucleus-api-jdo spark strong section hadoop apache-spark hadoop-yarn oozie hue

java - 在 Java MapReduce 作业中写入 Hive

我目前正在处理一个JavaMapReduce作业，它应该将数据输出到一个分桶的Hive表。我想到了两种方法:首先直接通过HCatalog写入Hive。问题是，这种方法不支持写入分桶Hive表。因此，当使用分桶Hive表时，我需要先写入非分桶表，然后将其复制到分桶表。第二个选项是将输出写入文本文件，然后将此数据加载到Hive中。此处的最佳做法是什么？哪种方法在处理大量数据时性能更好(考虑到内存和所用时间)？如果我还可以使用非分桶Hive表，哪种方法更好？非常感谢! 最佳答案对于非分桶表，您可以将MapReduce输出存储在表存储位置

MapReduce java section Hive 非分 hadoop hcatalog

hadoop - 由于 24 小时后无法在缓存中找到 token ，Spark 启动器作业未启动

我有一个Java应用程序，它连续运行并检查数据库中的表以获取新记录。当在表中添加新记录时，Java应用程序解压缩文件并将其放入HDFS位置，然后触发Spark作业(我在Java应用程序中使用“SparkLauncher”类以编程方式触发Spark作业)，它对HDFS位置中新添加的文件进行处理。我已经使用OozieJavaAction在集群中安排了Java应用程序。该集群是HDPkerberized集群。作业在24小时内完美运行。所有的解压缩都发生了，spark作业正在运行。但24小时后解压缩发生在Java应用程序中，但资源管理器中未触发Spark作业。异常:连接到服务器时遇到异常:信息

启动器 hadoop token section Java apache-spark kerberos oozie hortonworks-data-platform

hadoop - 为单个 MapReduce 作业指定 'mapreduce.jobtracker.hosts.filename'

集群中添加了一些节点。我的M/R作业在其中任何一个上执行时都失败了。确切原因尚不清楚，需要几天时间才能找到解决方案，因此我正在寻找临时解决方法。有没有办法在作业级别排除这些节点(mapreduce.jobtracker.hosts.exclude.filename)？或者将旧的工作节点列入白名单(mapreduce.jobtracker.hosts.filename)？最佳答案您可以将以下属性设置为2mapred.max.tracker.failures2并且它将在这些节点上使作业2失败两次并在其他地方继续

jobtracker MapReduce section code hadoop

Java作业不一致地给出OOM错误

我已经在Linux机器上计划(cron)了一个jar文件。jar通过JDBC与Hive服务器连接并运行选择查询，之后我将所选数据写入csv文件。每天的数据量约为1.5亿条记录，csv文件约为。大小为30GB。现在，这个作业并不是每次调用都完成，导致写入部分数据。我用dmesg|检查了PID是否有错误grep-E31866我可以看到:[1208443.268977]Outofmemory:Killprocess31866(java)score178orsacrificechild[1208443.270552]Killedprocess31866(java)total-vm:255228

Java OOM section code stackoverflow linux hadoop memory

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

amp restarted google java com scala hadoop apache-spark spark-streaming google-cloud-dataproc

hadoop - 当 parquet 使用 Snappy 算法而不是 gzip 时，将 parquet 数据写入 hive 的 spark 作业卡在了最后一个任务中

我正在将一个Parquet文件从DataFrame写入Hive。当我使用snappy作为parquet压缩算法时，我可以看到所有任务，但1个任务在写作阶段迅速完成(例如30/31)。由于大量的gc进程，最后一项任务需要很长时间才能完成。当我使用gzip作为parquet压缩算法时，一切都会正常。我想知道两种压缩算法有什么不同。最佳答案 gzip自然受到Hadoop的支持。gzip基于DEFLATE算法，它结合了LZ77和霍夫曼编码。GZIP压缩比Snappy使用更多CPU资源，但提供更高的压缩率。GZip通常是冷数据的好选择，不经

parquet hadoop strong section apache-spark apache-spark-sql snappy

hadoop - 如何列出事件的 DISTCP 作业？

如何列出事件的DISTCP作业？我正在两个集群之间运行一个distcp作业。hadoopdistcphdfs://x/y/x/y我想持续运行它，但需要确保现有的distcp任务已完成。我已经在源集群和目标集群上尝试了以下操作，但我看不到复制操作。映射作业-listall 最佳答案这基本上是YarnapigetapplicationsbyelapsedTime的变体.在您的情况下，您可以使用RMClusterApplicationsAPI获取所有应用程序(不幸的是它不会过滤name)，然后过滤name等于distcp的应用程序。下面

hadoop DISTCP code section jobs