作业队

hadoop - 获取 Hive 插入的作业统计信息

在将Hive0.10与ClouderaCHD4.x结合使用时，始终可以通过读取命令输出来查看向特定表中插入了多少行。该行看起来像:Loaded1234rowsintotablename虽然不理想(查询管理器没有编程接口(interface))，但它是插入数据量的合理指示。但是，在带有ClouderaCDH5.1的Hive0.13中，该行不会出现在命令输出中。我也不知道如何从查询管理器中获取导入计数。如何找出给定查询向给定表中插入了多少行？我想知道访问Hadoop计数器是否可以做到这一点，但我找不到有关Hive如何使用它们的任何信息。Thrift界面中似乎没有任何内容允许访问这些统计信息

hadoop - 为什么我的 pig 作业中我的 avro 输出文件如此之小而如此之多？

我正在运行一个执行一系列连接并使用AvroStorage()编写的pig脚本一切运行良好，我得到了我想要的数据……但它被写入了845个avro文件(每个约30kb)。这似乎根本不对......但我似乎找不到任何我可能已经更改的设置，从我以前的1大avro输出到845小avros(除了添加另一个数据源)。这会改变什么吗？我怎样才能把它恢复到一个或两个文件？谢谢! 最佳答案一种可能性是更改您的block大小。如果你想回到less文件，你也可以尝试使用parquet。通过pig脚本转换您的.avro文件并将其存储为.parquet文件，

hadoop avro section stackoverflow apache-pig

ubuntu - 如何调试 apache yarn 中的作业失败

我有hadoopapacheyarn(2.4.0)多节点集群，有2个数据节点和1个主节点。我的设置工作正常，但是当我运行包中的hadoop字数统计示例时。我的工作停止在14/08/2815:44:13INFOmapreduce.Job:Runningjob:job_1409220779657_0001Howtodebugdebugtheproblemaboutthis...这背后的错误是什么...注意:我使用下面的命令来运行字数统计示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jarwordc

ubuntu apache section yarn hadoop hadoop-yarn

python - 无法执行基于 Python 的 Hadoop Streaming 作业

我有一个5节点的hadoop集群，我可以在其上成功执行以下流作业sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar-input/sample/apat63_99.txt-output/foo1-mapper'wc-l'-numReduceTasks0但是当我尝试使用python执行流作业时sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

Streaming python hadoop StreamJob hadoop-streaming

java - 尝试以 myuser 身份运行作业时权限被拒绝，但错误提示 root 没有足够的权限

我正在尝试让HadoopMapReduce正常工作，但一直面临访问问题。我不确定是什么问题，是配置问题还是其他问题。例如，当我运行时，这个字数hadoopjar/usr/share/hadoop/hadoop-examples-1.2.1.jarwordcount/user/myuser/input.txt/user/myuser/output.txt我收到以下错误:14/09/1020:15:51INFOinput.FileInputFormat:Totalinputpathstoprocess:114/09/1020:15:51INFOmapred.JobClient:Runnin

myuser java code hadoop permissions hdfs

hadoop - 是否可以在特定的从节点上安排 Map Reduce 作业？

是否可以在Hadoop集群中的某些特定节点而不是所有节点上安排任何mapreduce作业？例如，在10个可用节点中的4个从属节点上。我尝试在Google上搜索但没有找到任何相关结果。Thispage表示默认情况下所有作业都安排在整个集群上。我的需求原因:作为研究生水平的作业，我必须实现一个分布式关系数据库。我正在使用Hadoop，根据分配要求，我们必须将数据复制到集群的连接机器。现在我们的一个复制模型要求在可用机器的子集上运行查询。最佳答案假设在hadoop集群上处理一些数据，你已经提交了一个mapreduce作业，现在它所做的

hadoop Reduce 跟踪器 section 的 mapreduce bigdata hadoop2

java - Hadoop:作业显示在作业浏览器中，但无法通过 api 访问 JobStatus

我已经运行了一个示例hadoop作业，当我查看Hue网络应用程序的作业区域时，我可以看到我的作业的详细信息。我想以编程方式访问此信息...我编写了以下代码作为测试:JobClientjobClient=newJobClient(newConfiguration());JobStatus[]jobStatuses=jobClient.getAllJobs();System.out.println("Found"+jobStatuses.length+"jobstatuses.");for(JobStatusjobStatus:jobStatuses){System.out.println

JobStatus Hadoop section stackoverflow jobStatuses java configuration mapreduce

hadoop - 如何在 MapReduce 作业中将文件添加到同一目录

我有一个MapReduce作业将每天执行几次的情况。我想做的是将结果存储到相同的输出目录中。我收到这个错误:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectory我不确定如何将增量存储到同一个文件夹中，有没有我可以查看的示例？最佳答案当您将文件存储在hdfs中时，它会导致重复，因此您必须添加带有文件名的timesatmp，以便根据时间戳添加填充。添加文件名_$(日期+"%Y-%m-%d-%S")例如，当我们使用命令行在hdfs中添加文件时hadoop

何在 MapReduce section code hadoop hdfs

java - MapReduce 作业 : weird output?

我正在编写我的第一个MapReduce作业。事情很简单:只计算文件中的字母数字字符。我已经完成生成我的jar文件并运行它，但除了调试输出之外，我找不到MR作业的输出。你能帮帮我吗？我的应用类:importCharacterCountMapper;importCharacterCountReducer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Int

MapReduce output hadoop import apache java hdfs

java - mapreduce 作业未与 LocalJobRunner 一起运行

嘿伙计们，这听起来可能有点幼稚，但我是mapreduce的新手我正在实现一个mapreduce作业，我在map和reducesides中有一些sysout语句，只是为了查看map和reducesides中会发生什么，但是在作业完成后job.waitForCompletion()返回false作业失败了我试着调试它，但没有发现任何可疑的东西，所以把代码贴在这里CustomKey.javapackagecom.example.secondarysort;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Tex

LocalJobRunner mapreduce apache import hadoop java

157 158 159160161 162 163