草庐IT

HDFS_DATANODE

全部标签

hadoop - hdfs dfs -mkdir,没有那个文件或目录

您好,我是hadoop的新手,正在尝试在hdfs中创建名为twitter_data的目录。我已经在softlayer上设置了我的虚拟机,成功安装并启动了hadoop。这是我要运行的表彰:hdfsdfs-mkdirhdfs://localhost:9000/user/Hadoop/twitter_data它不断返回这个错误信息:/usr/local/hadoop/etc/hadoop/hadoop-env.sh:line2:./hadoop-env.sh:Permissiondenied16/10/1919:07:03WARNutil.NativeCodeLoader:Unabletol

hadoop - Apache Spark 如何知道 HDFS 数据节点?

假设我对托管在HDFS中的文件执行一些Spark操作。像这样:varfile=sc.textFile("hdfs://...")valitems=file.map(_.split('\t'))...因为在Hadoop世界中,代码应该放在数据所在的地方,对吗?所以我的问题是:Sparkworkers如何知道HDFS数据节点?Spark如何知道在哪些数据节点上执行代码? 最佳答案 Spark重用Hadoop类:当您调用textFile时,它会创建一个TextInputFormat它有一个getSplits方法(拆分大致是一个分区或blo

Hadoop框架---HDFS的Shell命令操作

文章目录一、基本语法二、命令大全三、常用命令实操3.1准备工作3.1.1启动Hadoop集群3.1.2-help输出这个命令参数的帮助文档3.1.3创建一个测试文件夹/test3.2上传3.2.1`-moveFromLocal:从本地剪切粘贴到HDFS`3.2.2`-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去`3.2.3`-put:等同于copyFromLocal,生产中更习惯用put`3.2.4`-appendToFile:追加一个文件到已存在的文件末尾`3.3下载3.3.1`-copyToLocal:从HDFS拷贝到本地`3.3.2`-get:等同于copyToL

hadoop - 关于 Hadoop/HDFS 文件分割

只想确认以下内容。请验证这是否正确:1.根据我的理解,当我们将文件复制到HDFS时,这就是文件(假设其大小>64MB=HDFSblock大小)被拆分为多个block并且每个block存储在不同数据节点上的时间点。当文件被复制到HDFS时,文件内容已经被拆分成block,并且文件拆分不会在运行映射作业时发生。Map任务仅以这样的方式进行调度,即它们在max的每个block上工作。大小为64MB,具有数据局部性(即映射任务在包含数据/block的节点上运行)如果文件被压缩(gzipped),文件拆分也会发生,但MR确保每个文件仅由一个映射器处理,即MR将收集位于其他数据节点的所有gzip文

hadoop - HDFS 存储数据的位置

我想了解hadoop在HDFS中的什么地方存储数据。我指的是配置文件即:core-site.xml和hdfs-site.xml我设置的属性是:在core-site.xml中:hadoop.tmp.dir/hadoop/tmp在hdfs-site.xml中:dfs.namenode.name.dirfile:/hadoop/hdfs/namenodedfs.datanode.data.dirfile:/hadoop/hdfs/datanode按照上面的安排,比如dfs.datanode.data.dir,数据block应该存放在这个目录下。这是正确的吗?我提到了apachehadoop链

hadoop - "HDFS lacks random read and write access"是什么意思?

任何文件系统都应该提供一个API来访问它的文件和目录等。那么,“HDFS缺乏随机读写访问”是什么意思?所以,我们应该使用HBase。 最佳答案 默认的HDFSblock大小为128MB。所以你不能在这里读一行,那里读一行。您总是读写128MB的block。当您要处理整个文件时,这很好。但这使得HDFS不适用于某些应用程序,例如您希望使用索引来查找小记录的地方。另一方面,HBase对此非常有用。如果你想读一条小记录,你只会读那条小记录。HBase使用HDFS作为其后备存储。那么它如何提供高效的基于记录的访问呢?HBase将表从HDFS

hadoop - 合并 hdfs 文件

我在HDFS中有1000多个文件可用,命名约定为1_fileName.txt到N_fileName.txt。每个文件的大小为1024MB。我需要将这些文件合并到一个(HDFS)中并保持文件的顺序。说5_FileName.txt应该只追加在4_fileName.txt之后执行此操作的最佳和最快方法是什么。有没有什么方法可以在不复制数据节点之间的实际数据的情况下执行这种合并?例如:获取此文件的block位置并使用这些block位置在名称节点中创建一个新条目(文件名)? 最佳答案 没有有效的方法可以做到这一点,您需要将所有数据移动到一个节

hadoop - Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解,行被插入到HBase表中,并作为区域存储在不同的区域服务器中。因此,区域服务器存储数据与Hadoop类似,数据存储在hadoop集群中的数据节点中。假设我在Hadoop1.1.1之上配置了HBase0.90.6,如​​下所示2个节点-主从主节点充当,Hadoop-Namenode、SecondaryNamenode、作业跟踪器、数据节点、任务跟踪器HBase-Master、RegionServer和zookeeper。从节点充当,Hadoop数据节点和任务跟踪器HBase区域服务器根据我的说法,如果表数据存储在区域服务器中;那么数据节点和区域服务器的作用是什么?

hadoop - 如何在 hdfs 命令上计算文件中的行数?

我在HDFS上有一个文件,我想知道有多少行。(测试文件)在linux中,我可以这样做:wc-l我可以用“hadoopfs”命令做类似的事情吗?我可以打印文件内容:hadoopfs-text/user/mklein/testfile我怎么知道我有多少行?我想避免将文件复制到本地文件系统然后运行​​wc命令。注意:我的文件是使用snappycompression压缩的,这就是为什么我必须使用-text而不是-cat 最佳答案 文件总数:hadoopfs-ls/path/to/hdfs/*|wc-l总行数:hadoopfs-cat/pat

Hadoop:Datanode进程被杀死

我目前正在使用Hadoop-2.0.3-alpha,在我可以完美地使用HDFS后(将文件复制到HDFS,从外部框架获得成功,使用webfrontend),在我的VM重新启动后,数据节点过程在一段时间后停止。namenode进程和所有yarn进程都可以正常工作。我在另一个用户下的文件夹中安装了Hadoop,因为我还安装了Hadoop0.2,它也运行良好。查看所有数据节点进程的日志文件,我得到以下信息:2013-04-1116:23:50,475WARNorg.apache.hadoop.util.NativeCodeLoader:Unabletoloadnative-hadooplibr