草庐IT

Hadoop :No space left on device

我在hadoop中遇到以下异常,同时运行一些任务。但是HDFS显示有空间。有关此错误的任何信息都会有所帮助。java.lang.RuntimeException:org.apache.hadoop.fs.FSError:java.io.IOException:Nospaceleftondeviceatorg.apache.hadoop.hive.ql.exec.ExecReducer.reduce(ExecReducer.java:270)atorg.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:506)at

hadoop - 写HDFS的flume agent在哪里运行?

我有25-20个代理将数据发送给几个收集器代理,然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理?在Hadoop集群的Data节点上还是集群外?它们各自的优缺点是什么?人们目前是如何运行它们的? 最佳答案 第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是,Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。 关于hadoop-写HDFS的flumeagent在哪里运行?,我们在StackOverflow上找到一个类似的问题

hadoop - 如何复制到 HDFS 文件并仍然保留权限?

我创建了一个具有特定所有者和权限的零字节文件,权限为600-rw-------3clouderahdfs562014-04-0118:47Data/input/test.datcloudera:/home/cloudera当我尝试通过api运行副本时,我看到它将权限从600翻转为644。如何保留权限?任何帮助将不胜感激。复制前***>hadoopfs-lsData/input/Found1items-rw-------3clouderacloudera102014-04-0119:54Data/input/test.dat复制后***>hadoopfs-lsData/input/Fou

hadoop - 并行化机器学习(推荐)算法与hadoop

我正在研究一种推荐算法:使用随机梯度作为优化器的矩阵分解。我想并行化我的算法。我找到了这篇文章ParallelizedStochasticDescentGradient.他们给出了一个算法(p3):Algorithm3SimuParallelSGD(Examples{c1,...cm},LearningRateη,Machinesk)DefineT=⌊m/k⌋Randomlypartitiontheexamples,givingTexamplestoeachmachine.foralli∈{1,...k}paralleldoRandomlyshufflethedataonmachinei.

java.lang.NoClassDefFoundError : com/google/common when trying to create a Configuration object 错误

我正在尝试从java中与我的HDFS进行交互。当我尝试创建一个新的Configuration对象时配置conf=newConfiguration();我的应用程序抛出这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/base/Preconditionsatorg.apache.hadoop.conf.Configuration$DeprecationDelta.(Configuration.java:306)atorg.apache.hadoop.conf.Configuration$

hadoop单集群用户

我在这里阅读这份文件:http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation它有这个项目:MaketheHDFSdirectoriesrequiredtoexecuteMapReducejobs:$bin/hdfsdfs-mkdir/user$bin/hdfsdfs-mkdir/user/我不清楚是什么应该是这里。这是我为Hadoop或其他东西创建的Linux专用用户吗?我是Hadoop的初学者,今天刚装上

hadoop - 写入路径 HDFS

简介对thisquestion的后续问题.一个文件已经被提供给HDFS并且随后被复制到三个DataNodes。如果要再次提供同一个文件,HDFS会提示该文件已经存在。基于thisanswer一个文件将被分成64MB的block(取决于配置设置)。文件名和block的映射将在NameNode中创建。NameNode知道某个文件的block位于哪个DataNodes中。如果再次提供相同的文件,NameNode知道该文件的block存在于HDFS上,并将指示该文件已经存在。如果文件的内容被更改并再次提供,NameNode是否会更新现有文件,或者检查是否仅限于将文件名映射到block,尤其是文

java - 从 HDFS 读取数据 - 我的程序找不到路径

我正在尝试从HDFS读取文件的内容。我的代码如下-packagegen;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassReadFromHDFS{publicstaticvoidmain(String[]args)th

hadoop - 如何将 -text HDFS 命令的输出复制到另一个文件中?

有什么方法可以使用HDFS命令将hdfs文件的文本内容复制到另一个文件系统中:hadoopfs-text/user/dir1/abc.txt我可以使用-cat或任何方法将-text的输出打印到另一个文件吗?:hadoopfs-cat/user/deepak/dir1/abc.txt 最佳答案 如documentation中所写您可以使用hadoopfs-cp将文件复制到hdfs中。您可以使用hadoopfs-copyToLocal将文件从hdfs复制到本地文件系统。如果你想将文件从一个hdfs复制到另一个然后使用DistCptool

hadoop - 什么元数据存储在 HDFS 的数据节点上?

在阅读有关存储在HDFS数据节点上的元数据时。我通过了这些选项,但不确定是全部正确还是部分正确。它存储一个文件,其中包含它存储的block的校验和。它存储用于创建block的hadoop版本和命名空间ID。它存储有关同一命名空间中其他block的信息。正确答案是什么? 最佳答案 根据权威指南:HDFSblock存储在带有blk_前缀的文件中;它们由正在存储的文件的一部分的原始字节组成。每个block都有一个带有.meta后缀的关联元数据文件。它由带有版本和类型信息的header组成,后跟该block部分的一系列校验和。