草庐IT

HDFS_DATANODE

全部标签

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库,将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入,并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能?这仅取决于程序员的能力,或者是否有任何性能理由这样做?有没有Spark可以做而HBASE不能做的事情?2)源于上一个问题,什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS? 最佳答案 1)Whataretheaddedcapabili

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时,我的所有节点都已启动并正在运行,但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时,我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点,但错误仍然存​​在。谁能帮我解决这个问题。 最佳答案 检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0,并且正在试用它。我正在尝试伪分布式设置,并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步,即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

Hadoop安装错误, "error : cannot execute hdfs-config.sh."

我正在关注this在我的电脑上安装hadoop的教程。据我所知,在source~/.profile之前,我一直完全按照说明操作,但是当我尝试通过输入hdfsnamenode-format来格式化HDFS时,它给了我以下错误:ERROR:Cannotexecute/usr/local/Cellar/hadoop/3.0.0/libexec/hdfs-config.sh我尝试了很多方法在互联网上寻找解决方案,但没有找到解决方案。 最佳答案 @BIKI我刚遇到同样的问题,Hadoop版本3.0.0有一个奇怪的文件结构,不能按照您认为的方式

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

java - 在 Java 中尝试从 HDFS 读取文件时出现 "Wrong FS... expected: file:///"

我无法使用Java从HDFS读取文件:StringhdfsUrl="hdfs://:";Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS",hdfsUrl);FileSystemfs=FileSystem.get(configuration);PathfilePath=newPath(hdfsUrl+"/projects/harmonizome/data/achilles/attribute_list_entries.txt.gz");FSDataInputStreamfsData

hadoop - 如何在 Ubuntu 14.04 上挂载 HDFS

所以,我无法在Ubuntu14.04上挂载HDFS。Mucommander不工作,fuse不工作,有人可以用图像解释我或给我一些教程。谢谢,最好的问候。 最佳答案 我今天使用instructionsonClouderasite成功完成了它wgethttp://archive.cloudera.com/cdh5/one-click-install/trusty/amd64/cdh5-repository_1.0_all.debsudodpkg-icdh5-repository_1.0_all.debsudoapt-getupdates

hadoop - hadoop HDFS中有没有ln

hadoopHDFS中是否有ln-s?例如:我在HDFS中有10个文件/user/hadoop/input,即1.txt,2.txt...10.txtHDFS中的另一个目录是/user/hadoop/test我只想将1个文件从/user/hadoop/input/1.txt复制到/user/hadoop/test/1.txt。最简单的方法是使用hadoopdfs-cp/user/hadoop/1.txt/user/hadoop/test。但它会花费更多的时间和磁盘空间。有没有类似shell的方式比如hadoopdfs-ln/user/hadoop/1.txt/user/hadoop/t

bash - 循环遍历 HDFS 目录中的文件

我需要遍历Hadoop文件系统中的所有csv文件。我可以用列出HDFS目录中的所有文件>hadoopfs-ls/path/to/directoryFound2itemsdrwxr-xr-x-hadoophadoop22016-10-1216:20/path/to/directory/tmp-rwxr-xr-x3hadoophadoop46919459272016-10-1219:37/path/to/directory/myfile.csv并且可以使用遍历标准目录中的所有文件forfilenamein/path/to/another/directory/*.csv;doecho$fil

hadoop - hadoop hdfs中的/tmp目录是什么?

我有4个数据节点的集群,每个节点上的hdfs结构如下我面临磁盘空间问题,您可以看到来自hdfs的/tmp文件夹占用了更多空间(217GB)。所以我试图调查/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些大小为10gb到20gb的部分文件。我想清除这个/tmp目录。谁能告诉我删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗? 最佳答案 HDFS/tmp目录主要用作mapreduce操作时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时,