首先介绍一下背景。我有一个测试CDH集群,有两个节点。我正在尝试执行Oozie作业,下载文件,使用SPARK处理它,然后在Solr中对其进行索引。集群配置为使用Kerberos身份验证。CDH版本为5.7.1当我尝试使用Oozie运行作业时,使用以下命令:ooziejob--ooziehttps://host:11443/oozie/-run--configoozieExample/job.properties失败并出现以下异常:2016-08-1212:29:40,415WARNorg.apache.oozie.action.hadoop.JavaActionExecutor:SER
我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话,有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得,这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗? 最佳答案 在Hadoop/YA
我想知道的是spark如何/在哪里挑选所需的jar。文件:/mnt/md0/yarn/nm/usercache/kylin/appcache/application_1468506830246_161908/container_1468506830246_161908_01_000001/datanucleus-api-jdo-3.2.1.jar不存在。--num-executors30--executor-memory18g--executor-cores15--driver-memory2g--fileshdfs:///jobs/kylin/hive-site.xml--jarsd
我目前正在处理一个JavaMapReduce作业,它应该将数据输出到一个分桶的Hive表。我想到了两种方法:首先直接通过HCatalog写入Hive。问题是,这种方法不支持写入分桶Hive表。因此,当使用分桶Hive表时,我需要先写入非分桶表,然后将其复制到分桶表。第二个选项是将输出写入文本文件,然后将此数据加载到Hive中。此处的最佳做法是什么?哪种方法在处理大量数据时性能更好(考虑到内存和所用时间)?如果我还可以使用非分桶Hive表,哪种方法更好?非常感谢! 最佳答案 对于非分桶表,您可以将MapReduce输出存储在表存储位置
我有一个Java应用程序,它连续运行并检查数据库中的表以获取新记录。当在表中添加新记录时,Java应用程序解压缩文件并将其放入HDFS位置,然后触发Spark作业(我在Java应用程序中使用“SparkLauncher”类以编程方式触发Spark作业),它对HDFS位置中新添加的文件进行处理。我已经使用OozieJavaAction在集群中安排了Java应用程序。该集群是HDPkerberized集群。作业在24小时内完美运行。所有的解压缩都发生了,spark作业正在运行。但24小时后解压缩发生在Java应用程序中,但资源管理器中未触发Spark作业。异常:连接到服务器时遇到异常:信息
集群中添加了一些节点。我的M/R作业在其中任何一个上执行时都失败了。确切原因尚不清楚,需要几天时间才能找到解决方案,因此我正在寻找临时解决方法。有没有办法在作业级别排除这些节点(mapreduce.jobtracker.hosts.exclude.filename)?或者将旧的工作节点列入白名单(mapreduce.jobtracker.hosts.filename)? 最佳答案 您可以将以下属性设置为2mapred.max.tracker.failures2并且它将在这些节点上使作业2失败两次并在其他地方继续
我已经在Linux机器上计划(cron)了一个jar文件。jar通过JDBC与Hive服务器连接并运行选择查询,之后我将所选数据写入csv文件。每天的数据量约为1.5亿条记录,csv文件约为。大小为30GB。现在,这个作业并不是每次调用都完成,导致写入部分数据。我用dmesg|检查了PID是否有错误grep-E31866我可以看到:[1208443.268977]Outofmemory:Killprocess31866(java)score178orsacrificechild[1208443.270552]Killedprocess31866(java)total-vm:255228
我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE
我正在将一个Parquet文件从DataFrame写入Hive。当我使用snappy作为parquet压缩算法时,我可以看到所有任务,但1个任务在写作阶段迅速完成(例如30/31)。由于大量的gc进程,最后一项任务需要很长时间才能完成。当我使用gzip作为parquet压缩算法时,一切都会正常。我想知道两种压缩算法有什么不同。 最佳答案 gzip自然受到Hadoop的支持。gzip基于DEFLATE算法,它结合了LZ77和霍夫曼编码。GZIP压缩比Snappy使用更多CPU资源,但提供更高的压缩率。GZip通常是冷数据的好选择,不经
如何列出事件的DISTCP作业?我正在两个集群之间运行一个distcp作业。hadoopdistcphdfs://x/y/x/y我想持续运行它,但需要确保现有的distcp任务已完成。我已经在源集群和目标集群上尝试了以下操作,但我看不到复制操作。映射作业-listall 最佳答案 这基本上是YarnapigetapplicationsbyelapsedTime的变体.在您的情况下,您可以使用RMClusterApplicationsAPI获取所有应用程序(不幸的是它不会过滤name),然后过滤name等于distcp的应用程序。下面