草庐IT

hadoop - Mahout 终止错误

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion我在伪分布式hadoop安装上运行一个简单的ItemSimilarityJobmahout作业,一段时间后进程停止,只有消息被杀死:12/06/0521:04:52INFOmapred.JobClient:map33%reduce8%12/06/0521:05:18INFOmapred.JobClient:map36%reduce8%12/06/0521:05:30INFOmapred.JobCl

hadoop - 如何告诉 Hadoop 在任务被终止时不要从 HDFS 中删除临时目录?

默认情况下,hadoopmap任务将处理过的记录写入位于${mapred.output.dir}/_temporary/_${taskid}的临时目录中的文件中。这些文件一直放在这里,直到FileCommiter将它们移动到${mapred.output.dir}(任务成功完成后)。我有这样的情况,在maptask的setup()中,我需要在上面提供的临时目录下创建文件,在那里我写了一些稍后在其他地方使用的过程相关数据。但是,当hadoop任务被终止时,临时目录将从HDFS中删除。任何人都知道是否可以告诉Hadoop在任务被终止后不删除该目录,以及如何实现?我想应该提供一些我可以配置的

hadoop - 为什么 mapreduce 尝试由于 "Container preempted by scheduler"而被终止?

我刚刚注意到Hadoop上的许多Pig作业由于以下原因而被杀死:Containerpreemptedbyscheduler有人可以向我解释是什么原因造成的,我是否应该(并且能够)对此做些什么?谢谢! 最佳答案 如果您有公平的调度程序并启用了多个不同的队列,那么更高优先级的应用程序可以终止您的作业(以抢占方式)。Hortonworks有一个很好的解释和更多的细节https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/pr

ubuntu - Ambari 服务器 java 进程终止,退出代码为 -1

我在Ubuntu16.04上安装和设置完ambari-server后无法启动ambari-server。这是我收到的错误消息:ERROR:Exitingwithexitcode-1.REASON:AmbariServerjavaprocessdiedwithexitcode-1.Check/var/log/ambari-server/ambari-server.outformoreinformation.更何况只有ambari-server.log,没有ambari-server.out有人可以帮助我吗?在此先感谢。 最佳答案 运行

hadoop - OOzie 定期终止工作

我有一个无限循环的java程序,我想在特定时间启动,并在两个小时后杀死,我可以启动程序,它一直运行,直到我手动杀死它,有没有办法Oozie(hue)在哪里可以定期启动和终止作业? 最佳答案 如果您能找到一种使用shell脚本(从任意节点)终止操作的方法,您应该能够使用oozieshell操作来终止它。话虽这么说,去这里的方式似乎是:将结束时间传递给循环(或循环的包装器) 关于hadoop-OOzie定期终止工作,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何找到自动终止的 hive mapreduce 作业的原因

我已经执行了配置单元查询,它被自动杀死了(不是任何人手动)我无法在任何日志中找到原因。Cloudera版本:5.4.11hive:1.1.0我在下面的链接中看到了类似的问题,但没有成功Whywasahivemapreducejobkilled? 最佳答案 在这里查看您的工作历史:http://:19888/jobhistory​ 关于hadoop-如何找到自动终止的hivemapreduce作业的原因,我们在StackOverflow上找到一个类似的问题: h

hadoop - 我可以在创建表时在配置单元中一次使用 2 个字段终止符(如 ',' 和 '.' )吗?

我有一个包含id和year的文件。我的字段由、和.分隔。有没有可能我可以使用、和.来代替终止的字段? 最佳答案 这可以使用RegexSerDe实现。hive>CREATEEXTERNALTABLEcitiesr1(idint,city_orgstring,pplfloat)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.RegexSerDe'WITHSERDEPROPERTIES('input.regex'='^(\\d+)\\.(\\S+),(\\d++.\\d++)\\t.*')LOCA

hadoop - 从 ResourceManager GUI 访问终止的 Spark 作业日志

我在YARN上运行Spark应用程序,当我使用以下方法终止作业时:yarnapplicationkill-applicationIdapplication_XYZ我无法从HadoopGUI(ResourceManager)转到被杀死的应用程序的SparkJobGUI。当我直接打开Spark历史服务器并尝试显示不完整的应用程序应用程序日志时,它起作用了。当作业完成(未终止)时,日志可以这样显示:HadoopGUI->Sparkhistoryserver。我正在使用YARN日志聚合服务来聚合日志。另外,我可以使用以下方法访问应用程序日志:yarnlogs-applicationIdappl

hadoop - Hive - 使用不包括行终止符的文本文件创建外部表

我想用一组文本文件创建一个外部表。每行应该是一个文本文件。一个文本文件的示例如下,可以有多个文本文件。(文件存储在HDFS中)thankingyoufortheparticipation行由/n终止。我想用上面的文本文件创建一个外部表,文本文件中的数据应该在一行(一个单元格)中。我尝试了以下创建表语句。CreateExternaltableifnotexistssample_email(emailSTRING)STOREDASTEXTFILELOCATION'/tmp/txt/sample/';它会给出创建表如下。+-----------------------------------

python - 通过 Airflow UI 终止在远程位置运行的 Airflow 任务

Airflow安装在EC2上,它在EMR上触发脚本。如果我使用UI中的“清除”选项,UI会显示任务处于关闭状态,但我仍然可以看到任务在EMR上运行。我正在使用的Airflow正在运行LocalExecutor,我想知道如何终止正在运行的任务。我应该使用UI中的“清除”选项来停止正在运行的任务吗?还是使用清除任务以及一些代码更改下面是我的代码defexecute_on_emr(cmd):f=open(file,'r')s=f.read()keyfile=StringIO.StringIO(s)mykey=paramiko.RSAKey.from_private_key(keyfile)s