草庐IT

hdfs_clusters

全部标签

Hadoop安装错误, "error : cannot execute hdfs-config.sh."

我正在关注this在我的电脑上安装hadoop的教程。据我所知,在source~/.profile之前,我一直完全按照说明操作,但是当我尝试通过输入hdfsnamenode-format来格式化HDFS时,它给了我以下错误:ERROR:Cannotexecute/usr/local/Cellar/hadoop/3.0.0/libexec/hdfs-config.sh我尝试了很多方法在互联网上寻找解决方案,但没有找到解决方案。 最佳答案 @BIKI我刚遇到同样的问题,Hadoop版本3.0.0有一个奇怪的文件结构,不能按照您认为的方式

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

java - 在 Java 中尝试从 HDFS 读取文件时出现 "Wrong FS... expected: file:///"

我无法使用Java从HDFS读取文件:StringhdfsUrl="hdfs://:";Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS",hdfsUrl);FileSystemfs=FileSystem.get(configuration);PathfilePath=newPath(hdfsUrl+"/projects/harmonizome/data/achilles/attribute_list_entries.txt.gz");FSDataInputStreamfsData

hadoop - 如何在 Ubuntu 14.04 上挂载 HDFS

所以,我无法在Ubuntu14.04上挂载HDFS。Mucommander不工作,fuse不工作,有人可以用图像解释我或给我一些教程。谢谢,最好的问候。 最佳答案 我今天使用instructionsonClouderasite成功完成了它wgethttp://archive.cloudera.com/cdh5/one-click-install/trusty/amd64/cdh5-repository_1.0_all.debsudodpkg-icdh5-repository_1.0_all.debsudoapt-getupdates

hadoop - hadoop HDFS中有没有ln

hadoopHDFS中是否有ln-s?例如:我在HDFS中有10个文件/user/hadoop/input,即1.txt,2.txt...10.txtHDFS中的另一个目录是/user/hadoop/test我只想将1个文件从/user/hadoop/input/1.txt复制到/user/hadoop/test/1.txt。最简单的方法是使用hadoopdfs-cp/user/hadoop/1.txt/user/hadoop/test。但它会花费更多的时间和磁盘空间。有没有类似shell的方式比如hadoopdfs-ln/user/hadoop/1.txt/user/hadoop/t

bash - 循环遍历 HDFS 目录中的文件

我需要遍历Hadoop文件系统中的所有csv文件。我可以用列出HDFS目录中的所有文件>hadoopfs-ls/path/to/directoryFound2itemsdrwxr-xr-x-hadoophadoop22016-10-1216:20/path/to/directory/tmp-rwxr-xr-x3hadoophadoop46919459272016-10-1219:37/path/to/directory/myfile.csv并且可以使用遍历标准目录中的所有文件forfilenamein/path/to/another/directory/*.csv;doecho$fil

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式,但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs),即使我处于集群模式。我知道我可以使用客户端模式,但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

hadoop - hadoop hdfs中的/tmp目录是什么?

我有4个数据节点的集群,每个节点上的hdfs结构如下我面临磁盘空间问题,您可以看到来自hdfs的/tmp文件夹占用了更多空间(217GB)。所以我试图调查/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些大小为10gb到20gb的部分文件。我想清除这个/tmp目录。谁能告诉我删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗? 最佳答案 HDFS/tmp目录主要用作mapreduce操作时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时,

hadoop - 从 HDFS 导入数据到 HBase (cdh3u2)

我已经安装了hadoop和hbasecdh3u2。在hadoop中,我在路径/home/file.txt中有一个文件。它有这样的数据one,1two,2three,3我想将这个文件导入到hbase中。其中,第一个字段应解析为字符串,第二个字段应解析为整数,然后应将其插入hbase。帮我做这个a提前致谢.... 最佳答案 我喜欢使用ApachePig来摄取HBase,因为它简单、直接且灵活。这是一个Pig脚本,可以在您创建表和列族后为您完成这项工作。要创建表和列族,您需要:$hbaseshell>create'mydata','myc

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务,它在哪个节点上运行?主节点和驱动节点可能是同一台机器吗?我假设某处应该有一条规则说明这两个节点应该不同?如果Driver节点出现故障,谁负责重新启动应用程序?究竟会发生什么?即主节点、集群管理器和工作节点将如何参与(如果他们参与),以及以什么顺序参与?与上一个问题类似:如果主节点发生故障,具体会发生什么情况以及谁负责从故障中恢复? 最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru