output_logging

logging - 使用 Flume Avro 的日志数据未正确存储在 Hive 中

我使用Flume1.5.0从应用程序服务器收集日志。假设我有三个App服务器，App-A、App-B、App-C。运行配置单元的一个HDFS服务器。现在水槽代理在所有3个应用服务器上运行，并将日志消息从应用服务器传递到Hdfs服务器，其中另一个水槽代理正在运行，最后日志存储在hadoop文件系统中。现在我已经创建了一个外部Hive表来映射这些日志数据。但是除了hive无法正确解析日志数据并存储在表中之外，一切都运行顺利。这是我的Flume和Hive配置:虚拟日志文件格式(|分隔):ClientId|AppRequest|URL应用服务器上的Flumeconf:app-agent.sou

hadoop - 象夫 : output file giving error in Hadoop

在Hadoop上运行Mahout时出现以下错误。命令:mahoutrecommenditembased-sSIMILARITY_LOGLIKELIHOOD-i/user/inp-o/user/op--numRecommendations5错误:Runningonhadoop,using/usr/local/hadoop/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/opt/apache-mahout-distribution-0.11.0/examples/target/mahout-examples-0.11.0-job.jar15/11/0517

hadoop code section mahout

apache - 哈多普 : supporting multiple outputs for Map Reduce jobs

似乎Hadoop(reference)支持它，但我不知道如何使用它。我想:a.)Map-ReadahugeXMLfileandloadtherelevantdataandpassontoreduceb.)Reduce-writetwo.sqlfilesfordifferenttables为什么我选择map/reduce是因为我必须对驻留在磁盘上的超过100k(可能更多)xml文件执行此操作。欢迎大家提出更好的建议感谢任何解释如何使用它的资源/教程。我正在使用Python并且想学习如何使用streaming实现这一点谢谢最佳答案这

supporting multiple section code reduce apache hadoop mapreduce

hadoop - Cloudera CDH 上的 Impala "Could not create logging file: Permission denied"

我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时，它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I

Permission amp cloudera impala section hadoop

windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时

我在Windows上运行来自Cygwin的“MahoutinAction”一书中的“从文档生成向量”样本。Hadoop仅在本地计算机上启动。下面是我的运行命令:$bin/mahoutseq2sparse-ireuters-seqfiles/-oreuters-vectors-ow但是下面显示java.io.IOException，有谁知道这个问题是什么原因造成的？提前致谢!Runningonhadoop,usingHADOOP_HOME=my_hadoop_pathHADOOP_CONF_DIR=my_hadoop_conf_path13/05/1318:38:03WARNdriver

JobClient windows hadoop mapred INFO cygwin mahout

java - Hadoop 文本输出格式 : add headers to CSV output

我正在维护一个简单的hadoop作业，该作业生成CSV文件作为HDFS中的输出。该作业使用TextOutputFormat。我想将前导标题行添加到csv文件(我知道零件文件是由不同的worker创建的，如果他们每个人都获得标题，那不是问题)。如何实现？编辑:级联可以help但乍一看我不想开始使用新框架编辑:所以我想为输出的CSV文件添加标题。列数是确定性的。这是我的Reducer类的骨架:importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;imp

headers Hadoop context IntWritable section java csv mapreduce

logging - Hadoop 守护进程日志

这听起来像是一个非常简单的问题，但是有人知道如何访问hadoop上的守护程序日志吗？我的ResourceManager没有连接，所以我试图找出错误。我在网上做了一些调查，发现hadoop---.log但这对我不起作用。我怀疑我输入的主机名不正确；我的主机名是“Macintosh.local”，但这没有效果。或者我应该在运行此命令时位于特定目录中？感谢您的帮助。最佳答案运行hadoop守护进程时，应设置HADOOP_HOME环境变量。您应该检查$HADOOP_HOME/logs目录中的日志以确定问题。

logging Hadoop section strong daemon

java - MapReduce 作业 : weird output?

我正在编写我的第一个MapReduce作业。事情很简单:只计算文件中的字母数字字符。我已经完成生成我的jar文件并运行它，但除了调试输出之外，我找不到MR作业的输出。你能帮帮我吗？我的应用类:importCharacterCountMapper;importCharacterCountReducer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Int

MapReduce output hadoop import apache java hdfs

java - 如何更改 org.apache.commons.logging.Log.info ("massage") 将写入日志文件

我正在java平台上开发hadoop的开源。我添加了类(在yarntimelineserver中)除了打印信息，还做各种事情，我用两个库写信息importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;示例:privatestaticfinalLogLOG=LogFactory.getLog(IntermediateHistoryStore.class);LOG.info("massage");为了查看我的更改，我通过hadoop的cmd或通过任务管理器运行时间线服务:**C:\hdp

amp commons hadoop INFO 2557 java hadoop-yarn

java - MAP_OUTPUT_RECORDS 值在 reducer 类中不断变化

我正在尝试使用reducer类中的MAP_OUTPUT_RECORDS计数器来计算示例wordcount程序中的单词百分比。这里是reducer中setup()方法的代码:publicstaticclassIntSumReducerextendsReducer{privateFloatWritableresult=newFloatWritable();privatelongtotal=0;@Overridepublicvoidsetup(Contextcontext)throwsIOException,InterruptedException{total=context.getCoun

MAP_OUTPUT_RECORDS RECORDS 射器 section java hadoop mapreduce

201 202 203204205 206 207