草庐IT

作业队

全部标签

hadoop - 获取 Hive 插入的作业统计信息

在将Hive0.10与ClouderaCHD4.x结合使用时,始终可以通过读取命令输出来查看向特定表中插入了多少行。该行看起来像:Loaded1234rowsintotablename虽然不理想(查询管理器没有编程接口(interface)),但它是插入数据量的合理指示。但是,在带有ClouderaCDH5.1的Hive0.13中,该行不会出现在命令输出中。我也不知道如何从查询管理器中获取导入计数。如何找出给定查询向给定表中插入了多少行?我想知道访问Hadoop计数器是否可以做到这一点,但我找不到有关Hive如何使用它们的任何信息。Thrift界面中似乎没有任何内容允许访问这些统计信息

hadoop - 为什么我的 pig 作业中我的 avro 输出文件如此之小而如此之多?

我正在运行一个执行一系列连接并使用AvroStorage()编写的pig脚本一切运行良好,我得到了我想要的数据……但它被写入了845个avro文件(每个约30kb)。这似乎根本不对......但我似乎找不到任何我可能已经更改的设置,从我以前的1大avro输出到845小avros(除了添加另一个数据源)。这会改变什么吗?我怎样才能把它恢复到一个或两个文件?谢谢! 最佳答案 一种可能性是更改您的block大小。如果你想回到less文件,你也可以尝试使用parquet。通过pig脚本转换您的.avro文件并将其存储为.parquet文件,

ubuntu - 如何调试 apache yarn 中的作业失败

我有hadoopapacheyarn(2.4.0)多节点集群,有2个数据节点和1个主节点。我的设置工作正常,但是当我运行包中的hadoop字数统计示例时。我的工作停止在14/08/2815:44:13INFOmapreduce.Job:Runningjob:job_1409220779657_0001Howtodebugdebugtheproblemaboutthis...这背后的错误是什么...注意:我使用下面的命令来运行字数统计示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jarwordc

python - 无法执行基于 Python 的 Hadoop Streaming 作业

我有一个5节点的hadoop集群,我可以在其上成功执行以下流作业sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar-input/sample/apat63_99.txt-output/foo1-mapper'wc-l'-numReduceTasks0但是当我尝试使用python执行流作业时sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

java - 尝试以 myuser 身份运行作业时权限被拒绝,但错误提示 root 没有足够的权限

我正在尝试让HadoopMapReduce正常工作,但一直面临访问问题。我不确定是什么问题,是配置问题还是其他问题。例如,当我运行时,这个字数hadoopjar/usr/share/hadoop/hadoop-examples-1.2.1.jarwordcount/user/myuser/input.txt/user/myuser/output.txt我收到以下错误:14/09/1020:15:51INFOinput.FileInputFormat:Totalinputpathstoprocess:114/09/1020:15:51INFOmapred.JobClient:Runnin

hadoop - 是否可以在特定的从节点上安排 Map Reduce 作业?

是否可以在Hadoop集群中的某些特定节点而不是所有节点上安排任何mapreduce作业?例如,在10个可用节点中的4个从属节点上。我尝试在Google上搜索但没有找到任何相关结果。Thispage表示默认情况下所有作业都安排在整个集群上。我的需求原因:作为研究生水平的作业,我必须实现一个分布式关系数据库。我正在使用Hadoop,根据分配要求,我们必须将数据复制到集群的连接机器。现在我们的一个复制模型要求在可用机器的子集上运行查询。 最佳答案 假设在hadoop集群上处理一些数据,你已经提交了一个mapreduce作业,现在它所做的

java - Hadoop:作业显示在作业浏览器中,但无法通过 api 访问 JobStatus

我已经运行了一个示例hadoop作业,当我查看Hue网络应用程序的作业区域时,我可以看到我的作业的详细信息。我想以编程方式访问此信息...我编写了以下代码作为测试:JobClientjobClient=newJobClient(newConfiguration());JobStatus[]jobStatuses=jobClient.getAllJobs();System.out.println("Found"+jobStatuses.length+"jobstatuses.");for(JobStatusjobStatus:jobStatuses){System.out.println

hadoop - 如何在 MapReduce 作业中将文件添加到同一目录

我有一个MapReduce作业将每天执行几次的情况。我想做的是将结果存储到相同的输出目录中。我收到这个错误:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectory我不确定如何将增量存储到同一个文件夹中,有没有我可以查看的示例? 最佳答案 当您将文件存储在hdfs中时,它会导致重复,因此您必须添加带有文件名的timesatmp,以便根据时间戳添加填充。添加文件名_$(日期+"%Y-%m-%d-%S")例如,当我们使用命令行在hdfs中添加文件时hadoop

java - MapReduce 作业 : weird output?

我正在编写我的第一个MapReduce作业。事情很简单:只计算文件中的字母数字字符。我已经完成生成我的jar文件并运行它,但除了调试输出之外,我找不到MR作业的输出。你能帮帮我吗?我的应用类:importCharacterCountMapper;importCharacterCountReducer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Int

java - mapreduce 作业未与 LocalJobRunner 一起运行

嘿伙计们,这听起来可能有点幼稚,但我是mapreduce的新手我正在实现一个mapreduce作业,我在map和reducesides中有一些sysout语句,只是为了查看map和reducesides中会发生什么,但是在作业完成后job.waitForCompletion()返回false作业失败了我试着调试它,但没有发现任何可疑的东西,所以把代码贴在这里CustomKey.javapackagecom.example.secondarysort;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Tex