草庐IT

output_logging

全部标签

hadoop - 线程 "main"org.apache.hadoop.mapred.InvalidJobConfException : Output directory not set 中的异常

嘿,你能帮我清除以下错误吗?当我运行Mapreduce作业fopr将数据从hdfs文件插入到hbase表中时,我得到了这个。使用HFileOutputFormat.class,之前我使用MultiTableOutputFormat.class运行相同的程序,它工作正常,但是在将数据插入hbase表时花费了很多时间。那么你能帮帮我吗……:)*job.setMapOutputKeyClass(ImmutableBytesWritable.class);job.setMapOutputValueClass(Put.class);job.setInputFormatClass(TextInpu

hadoop - pig : How to load the output of an hdfs ls into an alias?

我正在尝试查看我的hdfs中的文件并评估哪些文件早于特定日期。我想执行一个hdfsls并将它的输出传递给一个pigLOAD命令。在对HowCanILoadEveryFileInaFolderUsingPIG?的回答中@DonaldMiner包含一个输出文件名的shell脚本;我借用它来传递文件名列表。但是,我不想加载文件的内容,我只想加载ls命令的输出并将文件名视为文本。这是myfirstscript.pig:test=LOAD'$files'as(moddate:chararray,modtime:chararray,filename:chararray);illustratetes

hadoop - 在 Spark 中使用哪个设置来指定 `Output` 的压缩?

因此,Spark有文件spark-defaults.xml用于指定哪些设置,包括要使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。编辑:conf=SparkConf()conf.set("spark.hadoop.mapred.output.compress","true")conf.set("spark.hadoop.mapred.output.compression.codec","org.apache.hadoop.io.compress.snappy")如何使用spark-defaults.xml告诉Spark使用特定的编解

scala - log4j:WARN 找不到附加程序

我有一个非常简单的Scala应用程序。它所做的只是初始化一个记录器并执行一个logger.info("Hello")。我在具有以下设置的类路径中有一个log4j.properties文件#Rootloggeroptionlog4j.rootLogger=INFO,stdout#Directlogmessagestostdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.Target=System.outlog4j.appender.stdout.layout=org.apache

hadoop - 亚马逊弹性 MapReduce : Output directory

我正在运行Amazon的运行ElasticMapReduce的示例,并不断遇到以下错误:Errorlaunchingjob,Outputpathalreadyexists.这是运行我正在使用的作业的命令:C:\ruby\elastic-mapreduce-cli>rubyelastic-mapreduce--create--stream\--mappers3://elasticmapreduce/samples/wordcount/wordSplitter.py\--inputs3://elasticmapreduce/samples/wordcount/input\--output[

java - hadoop 覆盖每个作业的 log4j.properties

是否可以覆盖每个作业的log4j属性?我有一个运行一些hadoop作业的多步骤程序(管道)但在它之前和之后还执行一些其他步骤。如果我使用java命令运行我的程序(java-jarmy_program.jar)然后它运行正常但我收到警告:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类如果我使用hadoop命令运行我的程序(hadoopjarmy_program.jar)然后加载默认的hadooplog4j.properties在我的程序中,我将有关步骤执行的信息记录到特定文件中。我不需要来自hadoopmap/reduce任务的日志。我需要来self的

logging - HBase 适合存储和查询日志数据吗?

我正在考虑使用HBase来存储日志(网络日志数据),每个日志将有大约20个不同的值(比方说列),我想运行基于这些列过滤结果的查询。我最初的想法是在每个列下多次保存每个日志(单元格),这是日志中每个字段的值。这将导致数据大小增加约20倍,但我认为这可以很好地提高性能。Row-key将是时间戳,前缀是源ID。每个源将生成大约40-100M日志行(可能有数万个源)。我还需要低延迟,可能低于10秒(因此目前无法选择像Hive这样的解决方案)您认为这是正确的模式设计吗?如果不是,您认为哪个是正确的,或者我应该使用其他东西(什么)?感谢您的所有回答。 最佳答案

logging - 如何在控制台上抑制 Hadoop 日志消息

这些是我试图压制的Hadoop日志消息11/10/1719:42:23INFOmapred.MapTask:(EQUATOR)0kvi26214396(104857584)11/10/1719:42:23INFOmapred.MapTask:mapreduce.task.io.sort.mb:10011/10/1719:42:23INFOmapred.MapTask:softlimitat8388608011/10/1719:42:23INFOmapred.MapTask:bufstart=0;bufvoid=10485760011/10/1719:42:23INFOmapred.Ma

hadoop - 配置单元 : How to execute a query from a file and dump the output in hdfs

我可以从sql文件执行查询并将输出存储在本地文件中使用hive-f/home/Prashasti/test.sql>/home/Prashasti/output.csv此外,我可以使用以下方法将配置单元查询的输出存储在hdfs中:insertoverwritedirectory'user/output'select*fromfolders;有什么方法可以从sql文件运行查询并将输出也存储在hdfs中吗? 最佳答案 只需要修改sql文件,将insertoverwritedirectory'user/output'添加到查询的前面。

java - Log4j 找不到记录器的附加程序 (org.apache.hadoop.util.shell)

我正在为我的项目使用maven。当我运行程序时出现此错误,因此我无法看到我的程序执行进度,尽管该程序正在生成预期的输出。srimanth@srimanth-Inspiron-N5110:~/CCHD&CCHA/mangoes$mvnexec:java-q-Dexec.mainClass=bananas.MapReduceColorCount-Dexec.args="hdfs://localhost:9000/users.avrofilehdfs://localhost:9000/pleaseatleastnow6"log4j:WARNNoappenderscouldbefoundfor