草庐IT

hadoop - hdfs - ls : Failed on local exception: com. google.protobuf.InvalidProtocolBufferException:

我正在尝试使用下面的命令在hdfs中列出我的目录:ubuntu@ubuntu:~$hadoopfs-lshdfs://127.0.0.1:50075/ls:Failedonlocalexception:com.google.protobuf.InvalidProtocolBufferException:Protocolmessageend-grouptagdidnotmatchexpectedtag.;HostDetails:localhostis:"ubuntu/127.0.0.1";destinationhostis:"ubuntu":50075;这是我的/etc/hosts文件1

hadoop - 删除 HDFS 上超过 10 天的文件

有没有办法删除HDFS上超过10天的文件?在Linux中我会使用:find/path/to/directory/-typef-mtime+10-name'*.txt'-execdirrm--{}\;有没有办法在HDFS上执行此操作?(根据文件创建日期进行删除) 最佳答案 解决方案1:使用多个命令由daemon12回答hdfsdfs-ls/file/Path|tr-s""|cut-d''-f6-8|grep"^[0-9]"|awk'BEGIN{MIN=14400;LAST=60*MIN;"date+%s"|getlineNOW}{cm

Hadoop - 重启datanode和tasktracker

我想关闭单个数据节点和tasktracker,以便我在mapred-site.xml中所做的一些新更改生效,例如mapred.reduce.child.java.opts等。我该怎么做去做?但是我不想关闭整个集群,因为我有正在运行的作业。另外,如何确保名称节点不会将“暂时关闭”数据节点的相关数据block复制到另一个节点上 最佳答案 停止您可以从NameNode的hadoopbin目录中停止DataNode和TaskTracker。./hadoop-daemon.shstoptasktracker./hadoop-daemon.sh

Hadoop:如何访问(许多)要由 map/reduce 处理的照片图像?

我在本地文件系统上保存了超过1000万张照片。现在我想通过它们中的每一个来分析照片的二进制文件,看看它是否是一只狗。我基本上想在集群hadoop环境中进行分析。问题是,我应该如何设计map方法的输入?比方说,在map方法中,newFaceDetection(photoInputStream).isDog()是分析的所有底层逻辑。具体来说,我应该将所有照片上传到HDFS吗?假设是,如何在map方法中使用它们?是否可以将输入(到map)作为包含所有照片路径(在HDFS中)的文本文件,每行,并在map方法中加载二进制文件,如:photoInputStream=getImageFromHDFS

hadoop - Hadoop 2.2.0 HDFS 的配置文件在哪里?

我正在研究Hadoop,目前正在尝试设置Hadoop2.2.0单节点。我下载了最新的发行版,解压缩了它,现在我正在尝试设置Hadoop分布式文件系统(HDFS)。现在,我正在尝试遵循可用的Hadoop说明here但我迷路了。在左侧栏中,您会看到对以下文件的引用:核心默认.xmlhdfs-default.xmlmapred-default.xmlyarn-default.xml但是这些文件是怎样的?我找到了/etc/hadoop/hdfs-site.xml,但是它是空的!我找到了/share/doc/hadoop/hadoop-project-dist/hadoop-common/cor

hadoop - 无法找到或加载主类 org.apache.hadoop.hdfs.server.namenode.Namenode

我知道之前有人问过这个问题,但我想不出解决方案。当我尝试运行hdfsnamenode-format时出现以下错误:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.server.namenode.NamenodeIfollowedtheinstructionsfromthiswebsitetoinstallonmycentosmachine.唯一的区别是我使用root而不是链接中提到的hadoopuser安装。Bashrc#UserspecificaliasesandfunctionsexportJAVA_HOME=/usr/lib/j

hadoop/hdfs/name 处于不一致状态 : storage directory(hadoop/hdfs/data/) does not exist or is not accessible

我已经尝试了stackoverflow提供的关于这个主题的所有不同解决方案,但没有帮助再次询问具体日志和详细信息感谢任何帮助我的Hadoop集群中有一个主节点和5个从节点。ubuntu用户和ubuntu组是~/Hadoop文件夹的所有者~/hadoop/hdfs/data&~/hadoop/hdfs/name文件夹都存在两个文件夹的权限都设置为755在启动脚本start-all.sh之前成功格式化namenode脚本无法启动“名称节点”这些都在主节点上运行ubuntu@master:~/hadoop/bin$jps7067TaskTracker6914JobTracker7237Jps

compression - Hadoop:在 HDFS 中压缩文件?

我最近在Hadoop中设置了LZO压缩。在HDFS中压缩文件的最简单方法是什么?我想压缩一个文件,然后删除原来的。我应该使用IdentityMapper和使用LZO压缩的IdentityReducer创建MR作业吗? 最佳答案 对我来说,编写HadoopStreaming的开销较低压缩文件的作业。这是我运行的命令:hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\-Dmapred.output.compress=true\-Dmapr

hadoop - 获取几行HDFS数据

我的HDFS中有一个2GB数据。是否可以随机获取该数据。就像我们在Unix命令行中做的那样catiris2.csv|head-n50 最佳答案 本地头hadoopfs-cat/your/file|head在这里是高效的,因为cat会在head读完所有行后立即关闭流。为了得到tail,在hadoop中有一个特别有效的命令:hadoopfs-tail/your/file不幸的是,它返回数据的最后一千字节,而不是给定的行数。 关于hadoop-获取几行HDFS数据,我们在StackOverfl

shell - 检查HDFS中的目录是否已经存在

我在HDFS中有以下目录结构,/analysis/alertData/logs/YEAR/MONTH/DATE/HOURS即数据以年/月/日/小时的格式存储,按小时计算。我写了一个shell脚本,我在其中传递路径直到"/analysis/alertData/logs"(thiswillvarydependingonwhatproductofdataiamhandling)然后shell脚本遍历年/月/日/小时文件夹并返回最新的路径。例如:DirectoriespresentinHDFShasfollowingstructure:/analysis/alertData/logs/2014