草庐IT

output_logging

全部标签

尽管 mapred.output.compress=true,hadoop 流仍会生成未压缩的文件

我像这样运行一个hadoop流作业:hadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar-Dmapred.reduce.tasks=16-Dmapred.output.compres=true-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec-inputfoo-outputbar-mapper"pythonzot.py"-reducer/bin/cat我确实在输出目录中得到了16个包含正确数据

java - 使用 java :no output 从 hadoop 读取文件

我正在尝试从HDFS读取和写入文件。首先,我试图阅读它并将其显示在控制台上。它运行时没有给出任何错误、警告,但它也没有在控制台上打印文件中的数据,我的文件已经保存在hdfs中,我可以在用户界面上看到它。我认为我给出的路径存在一些问题,我不确定,因为我是第一次将hadoop连接到java。我正在使用eclipse作为IDE。有人可以调查一下吗?我也尝试为名称节点提供50075端口号,但这也没有用。编辑:谁能告诉我如何在java中给出正确的路径以访问存储在hdfs中的文件?我遇到了这个异常文件file:/localhost:54310/user/hduser/project11/a.txt

hadoop - pig : How to save relation when "Scalar has more than two rows in the output"

因此,我正在处理一个包含http流量条目的日志文件。我正在尝试确定每个状态代码一天中每个小时的记录数。所以,我的想法输出是这样的:0(200,234)(201,100)(404,5553)1(200,2234)(201,1100)(404,53)....我有以下转换:e1=groupLINESBY(hour,statusCode);e2=foreache1generategroup.hour,group.statusCode,COUNT(LINES);e3=groupe2byhour;e4=foreache3{statusCount=foreache2generatestatusCod

hadoop - 如何在 hadoop 中查看 FsImage/Edit Logs 文件

我是Hadoop的初学者。我想在hadoop中查看fs-image和编辑日志。查了很多博客,都不清楚。任何人都可以告诉我在hadoop中查看编辑日志/fs-image文件的逐步过程。我的版本:ApacheHadoop:Hadoop-1.2.1我安装的director是![/home/students/hadoop-1.2.1]我列出了我根据一些博客尝试过的步骤。例1。$hdfsdfsadmin-fetchImage/tmp例2。hdfsoiv-i/tmp/fsimage_0000000000000001386-o/tmp/fsimage.txt没有什么适合我。说明hdfs既不是目录也不

hadoop - HDFS NFS 网关 mount.nfs : Input/output error?

HDFSNFSGateWaymount.nfs:输入/输出错误?1.报错如下:[root@xxsbin]#mount-tnfs-overs=3,proto=tcp,nolock,noacl,synclocalhost://hdfs_ymount.nfs:Input/outputerror2016-03-1015:12:06,350WARNorg.apache.hadoop.hdfs.nfs.nfs3.RpcProgramNfs3:Exception804org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.au

java - 这是否以正确的方式使用 Log4j Hadoop?

我不断收到以下错误:OpcodeCount.java:24:error:expectedLOG.warn("something:)");^OpcodeCount.java:24:error:illegalstartoftype下面这样调用Lo​​g4j不可以吗?publicclassOpcodeCount{//debuggingoutputprivatestaticfinalLoggerLOG=org.apache.log4j.Logger.getLogger(this.getClass());LOG.warn("something:)");这是我的其余代码:importorg.apa

linux - kafka logs + 如何限制日志大小

在我的ambari集群中(版本2.6)我们有master机器和workers机器而kafka安装在master机器上分区/data只有15Gkafka日志文件夹是-/data/var/kafka/kafka-logs/data/var/kafka/kafka-logs下的大部分文件夹大小都是4K-40K但是两个文件夹非常大-5G-7G,这导致/data为100%例子:在/data/var/kafka/kafka-logs/mmno.aso.prpl.proces-90下12K00000000000000000000.index1.0G00000000000000000000.log16

hadoop - 无法为输出方法 'output_xml.properties' 加载属性文件 'xml'(检查 CLASSPATH)

我正在尝试使用Apacheoozie创建一个sqoop工作流,但是当我执行脚本时出现以下错误:Causedby:com.sun.org.apache.xml.internal.serializer.utils.WrappedRuntimeException:Couldnotloadtheproperyfile'output_xml.properties'foroutputmethod'xml'(checkCLASSPATH)当我检查日志时,它说错误是由以下原因引起的:Causedby:com.sun.org.apache.xml.internal.serializer.utils.Wr

java - hadoop flume log4j 配置

如果您运行hadoopflume节点,默认情况下它会使用log4j在/var/log/flume下生成日志。这些文件看起来像/var/log/flume/flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.log根据水槽用户指南here,更改flume日志配置的唯一方法是通过flume-daemon.sh,它使用Flume环境变量运行flume节点,例如:exportFLUME_LOGFILE=flume-$FLUME_IDENT_STRING-$command-$HOSTNAME.logexportFLUME_ROOT_LOGGER="INFO,

java - 借助log4j输出hadoop程序的变量

我用log4j写了hadoop程序(只有Map步骤,操作不符合我的等待)packageorg.myorg;importjava.io.*;importjava.util.*;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.util.*;importorg.apache.log4j.Logger;importorg.apache.log4j.Log