草庐IT

作业队

全部标签

hadoop - 目录为空时如何防止 Hadoop 作业失败?

当输入目录中没有文件时,我有一个作业失败了。我得到的异常如下:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:InputPatternmaprfs:/profile/*我知道这个异常来自FileInputFormat类。解决这个问题的最佳方法是什么。覆盖InputFormat类是唯一的解决方案吗?谢谢 最佳答案 在您的输入路径中放置一个空文件。在驱动程序的开头列出您的输入路径(S)。如果没有文件,则不提交作业直接退出。

java - 在 hadoop 作业结束后运行 pig 作业时的 GC 开销

我正在运行一个非常简单的pig脚本(pig0.14,Hadoop2.4):customers=load'/some/hdfs/path'usingSomeUDFLoader();customers2=foreach(groupcustomersbycustomer_id)generateFLATTEN(group)ascustomer_id,MIN(dw_customer.date)asdate;storecustomers2into'/hdfs/output'usingPigStorage(',');这将启动约60000个映射器和999个缩减器的map-reduce作业。在map-r

hadoop - 如何在Hadoop作业中保持状态?

我正在研究计划每天运行一次的hadoop程序。它需要一堆json文档,并且每个文档都有一个时间戳,用于显示文档的添加时间。我的程序只应处理自上次运行以来添加的文档。因此,我需要保持一个状态,该状态是显示我的Hadoop作业上次运行的时间的时间戳。我当时想将此状态存储在SQLServer中,并在我的工作的驱动程序中查询该状态。这是一个好的解决方案还是一个更好的解决方案?ps。我的Hadoop工作正在HDInsight上运行。话虽如此,仍然可以从我的驱动程序查询SQLServer吗? 最佳答案 我们已经针对在AWS(AmazonWebS

oracle - Sqoop 作业因 Oracle 导入的 KiteSDK 验证错误而失败

我正在尝试运行Sqoop作业以从Oracle数据库加载并以Parquet格式加载到Hadoop集群。这项工作是增量的。Sqoop版本为1.4.6。甲骨文版本是12c。Hadoop版本为2.6.0(发行版为Cloudera5.5.1)。Sqoop命令是(创建作业并执行它):$sqoopjob-fshdfs://:8020\--createmyJob\--import\--connectjdbc:oracle:thin:@:/\--username\-P\--as-parquetfile\--table.\--target-dir\--incrementalappend\--check-c

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群,我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

apache-spark - 为什么在完成作业和关闭 Spark 之间会发生磁盘繁忙尖峰?

在执行完所有spark任务后,我检测到意外的磁盘IO(DISKBUSY峰值)完成但spark上下文并没有停止——如图案例2所示21:56:47.任何人都可以帮助解释它并提供有关如何避免的建议还是推迟?或者Spark上下文是否有一些周期性的异步IO可能导致峰值的事件?谢谢!给出了在两种情况下运行SparkSQL批处理作业的示例。在第一一,我执行sql工作负载,并在之后立即停止spark上下文.show()Action结束。在第二种情况下,我在之后添加了1分钟的sleep.show()通过使用Thread.sleep(60000),然后停止Spark上下文。结果显示两种情况下执行sql工作

hadoop - 使用项目相似度 hadoop 作业具有预先计算的项目相似度的基于可扩展实时项目的 mahout 推荐器?

我有以下设置:bool数据:(userid,itemid)基于hadoop的mahoutitemSimilarityJob具有以下参数:--similarityClassnameSimilarity_Loglikelihood--maxSimilaritiesPerItem50&others(input,output..)基于项目的bool推荐器:-模型MySqlBooleanPrefJDBCDataModel-相似性MySQLJDBCInMemoryItemSimilarity-candidatestrategyAllSimilarItemsCandidateItemsStrateg

hadoop - 如何中止映射器(或 reducer )内的 MR 作业

我试图在map方法中抛出IOExceptions,但MR作业没有停止。在抛出大量IOException后,作业将停止。有没有办法通过抛出异常或一些简单的调用来停止整个工作?谢谢。 最佳答案 这不是Hadoop的理想用例,也不是好的做法,但您可以直接从代码内部扼杀您的工作。因此,每当您达到希望工作停止的状态时,记录需要的内容并终止您的工作。这可以使用旧的mapredAPI或使用Job.killJob()来完成RunningJob.killjob()。您应该分别在configure()或setup()中获取对RunningJob或Job

Hadoop 2.2.0 Web UI 不显示作业进度

我已经从这个link安装了单节点hadoop2.2.0.当我从终端运行作业时,它可以很好地处理输出。我使用的WebUI-ResourceManager:http://localhost:8088-NamenodeDaemon:http://localhost:50070但是从资源管理器的网络用户界面(如上所示)我看不到作业进度,例如已提交的作业、正在运行的作业等。我的/etc/hosts文件如下:127.0.0.1localhost127.0.1.1meitpict我的系统有IP:192.168.2.96(我尝试删除这个ip但还是不行)我提到的唯一主机:端口是在core-site.xm

hadoop - DistributedCache 是否会在每次作业后删除缓存的文件?

DistributedCache的文档状态:Itsefficiencystemsfromthefactthatthefilesareonlycopiedonceperjobandtheabilitytocachearchiveswhichareun-archivedontheslaves.当它说它可以“缓存从服务器上未归档的文件”时,它是什么意思?每次作业后是否删除缓存文件?我希望能够在不同的数据集上运行同一个作业数百次,而不会增加在每个作业之前重新分发DistributedCache文件的开销。这可能吗? 最佳答案 Hadoop保