草庐IT

output-directory

全部标签

hadoop - 线程 "main"org.apache.hadoop.mapred.InvalidJobConfException : Output directory not set 中的异常

嘿,你能帮我清除以下错误吗?当我运行Mapreduce作业fopr将数据从hdfs文件插入到hbase表中时,我得到了这个。使用HFileOutputFormat.class,之前我使用MultiTableOutputFormat.class运行相同的程序,它工作正常,但是在将数据插入hbase表时花费了很多时间。那么你能帮帮我吗……:)*job.setMapOutputKeyClass(ImmutableBytesWritable.class);job.setMapOutputValueClass(Put.class);job.setInputFormatClass(TextInpu

hadoop - pig : How to load the output of an hdfs ls into an alias?

我正在尝试查看我的hdfs中的文件并评估哪些文件早于特定日期。我想执行一个hdfsls并将它的输出传递给一个pigLOAD命令。在对HowCanILoadEveryFileInaFolderUsingPIG?的回答中@DonaldMiner包含一个输出文件名的shell脚本;我借用它来传递文件名列表。但是,我不想加载文件的内容,我只想加载ls命令的输出并将文件名视为文本。这是myfirstscript.pig:test=LOAD'$files'as(moddate:chararray,modtime:chararray,filename:chararray);illustratetes

hadoop - 在 Spark 中使用哪个设置来指定 `Output` 的压缩?

因此,Spark有文件spark-defaults.xml用于指定哪些设置,包括要使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。编辑:conf=SparkConf()conf.set("spark.hadoop.mapred.output.compress","true")conf.set("spark.hadoop.mapred.output.compression.codec","org.apache.hadoop.io.compress.snappy")如何使用spark-defaults.xml告诉Spark使用特定的编解

hadoop - 亚马逊弹性 MapReduce : Output directory

我正在运行Amazon的运行ElasticMapReduce的示例,并不断遇到以下错误:Errorlaunchingjob,Outputpathalreadyexists.这是运行我正在使用的作业的命令:C:\ruby\elastic-mapreduce-cli>rubyelastic-mapreduce--create--stream\--mappers3://elasticmapreduce/samples/wordcount/wordSplitter.py\--inputs3://elasticmapreduce/samples/wordcount/input\--output[

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

我在单个节点上运行Hadoop2.2.0.2.0.6.0-101。我正在尝试运行JavaMRD程序,该程序在普通用户下从Eclipse将数据写入现有的Hive表。我得到异常:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=dev,access=WRITE,inode="/apps/hive/warehouse/testids":hdfs:hdfs:drwxr-xr-x发生这种情况是因为普通用户对仓库目录没有写权限,只有hdfs用户有:drwxr-xr-x-hdfshdfs02014-03-0

hadoop - 配置单元 : How to execute a query from a file and dump the output in hdfs

我可以从sql文件执行查询并将输出存储在本地文件中使用hive-f/home/Prashasti/test.sql>/home/Prashasti/output.csv此外,我可以使用以下方法将配置单元查询的输出存储在hdfs中:insertoverwritedirectory'user/output'select*fromfolders;有什么方法可以从sql文件运行查询并将输出也存储在hdfs中吗? 最佳答案 只需要修改sql文件,将insertoverwritedirectory'user/output'添加到查询的前面。

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误,hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

hadoop - "Map output materialized bytes"与 "map output bytes"

在hadoop作业计数器中,“映射输出具体化字节”与“映射输出字节”之间有什么区别?当我禁用映射输出压缩时我没有看到前者所以我猜它是真正的输出字节(压缩)而后者是未压缩的字节? 最佳答案 我认为你是对的。来自http://hadoop.apache.org/docs/r1.0.4/releasenotes.html:MAPREDUCE-2365。FileInputFormat(BYTES_READ)和FileOutputFormat(BYTES_WRITTEN)的新计数器。用于压缩MapOutputSize的新计数器MAP_OUTP

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0,并且正在试用它。我正在尝试伪分布式设置,并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步,即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

java - Hadoop : Provide directory as input to MapReduce job

我正在使用ClouderaHadoop。我能够运行简单的mapreduce程序,我提供一个文件作为MapReduce程序的输入。此文件包含所有其他要由mapper函数处理的文件。但是,我卡在了一点。/folder1-file1.txt-file2.txt-file3.txt如何将MapReduce程序的输入路径指定为"/folder1",以便它可以开始处理该目录中的每个文件?有什么想法吗?编辑:1)首先,我提供了inputFile.txt作为mapreduce程序的输入。它运行良好。>inputFile.txtfile1.txtfile2.txtfile3.txt2)但是现在,我不想提