草庐IT

hadoop - 从 HDFS 中以 dd-MM-yyyy 格式删除文件夹一年

如何按年删除hadoop中的一堆目录?该文件夹每天创建一次。命名方案是“dd-mm-yyyy”。如何删除特定年份的文件夹?我尝试获取像hadoopfs-find/"*1995"这样的文件夹列表,但我无法通过将它们传送到rm命令来删除它们。 最佳答案 HadoopCLI支持递归rm(需要删除目录)和通配符:hadoopfs-rm-r-f/path/*-1995 关于hadoop-从HDFS中以dd-MM-yyyy格式删除文件夹一年,我们在StackOverflow上找到一个类似的问题:

hadoop - hdfs dfs -put : Exception in createBlockOutputStream and java. io.EOFException:过早的 EOF:没有可用的长度前缀

并且我检查了显示处于不健康状态的数据节点的webUI。我不知道为什么会这样。 最佳答案 这是因为你的配置或datanode的任何异常终止(在那个节点上做任何操作)hdfsdfs-put没有内部问题,只需验证目录中的内容或使用命令hdfsdfs-ls/请说明您的问题,除非您不知道要做什么,否则错误不能成为问题陈述。 关于hadoop-hdfsdfs-put:ExceptionincreateBlockOutputStreamandjava.io.EOFException:过早的EOF:没有

java - Hadoop Java - 将文件从Windows共享文件夹服务器复制到HDFS

我想从Windows共享文件夹服务器上传多个文件(例如//server_name/folder/)使用Java到我的HDFS我尝试过的方法列表org.apache.hadoop.fs.FileUtil设置输入路径=//server_name/folder/它说java.io.FileNotFoundException:文件//server_name/folder/不存在FileSystem.copyFromLocalFile(我认为这是从本地hadoop服务器到hdfs服务器)IOUtils.copyBytes与fileUtil相同>>文件不存在一个简单的File.renameTo与f

hadoop - Apache Drill 无法从 HDFS 读取文件(资源错误 : Failed to create schema tree)

在我们的HDFS集群的一个边缘节点上设置drill后,我无法读取任何hdfs文件。我可以从本地文件查询数据(只要它们位于具有777权限的文件夹中)但是从hdfs查询数据失败并出现以下错误:Error:RESOURCEERROR:Failedtocreateschematree.[ErrorId:d9f7908c-6c3b-49c0-a11e-71c004d27f46onserver-name:31010](state=,code=0)查询:0:jdbc:drill:zk=local>select*fromhdfs.`/names/city.parquet`limit2;从本地文件查询工

xml - Pyspark:hdfs 中没有这样的文件或目录

我正在尝试使用pyspark解析xml文件。我的文件存在于HDFS中。我在下面写了我的代码,但是当我执行它时,它无法识别位置。请帮忙-下面是我的代码代码:importxml.etree.ElementTreeasETfilenme=sc.wholeTextFiles("/user/root/CDs")defadd_hrk(file):tree=ET.parse(file)doc=tree.getroot()filenme.map(lambda(filename,content):filename).foreach(add_hrk)错误:IOError:[Errno2]Nosuchfil

hadoop - Hive 无法在 hdfs 中创建目录并且无法启动?

我正在远程模式下部署hive2.3,在另一台机器上使用mysql数据库作为Metastore。我即将完成整个过程,我正在通过运行bin/hive检查部署是否正常工作然后我得到这个错误:Exceptioninthread"main"java.lang.RuntimeException:Couldn'tcreatedirectory/user/hive/tmp/54de671c-0236-49e2-b967-7c3da8973f3a_resources我知道这是由hive-site.xml中的属性hive.downloaded.resources.dir设置的。我将其设置为/user/hi

scala - Cassandra 全表转储到 HDFS

我正在尝试使用来自Datastax的Spark-Cassandra连接器(v2.0.2,Sparkv2.0.0):valdf=sparkSession.sparkContext.cassandraTable[MyRec](keyspace,tableName).toDF()df.write.format("orc").save(hdfsLocation)它看起来非常简单并且运行了一段时间但我开始遇到这样的异常:Causedby:com.datastax.driver.core.exceptions.ReadFailureException:Cassandrafailureduringr

hadoop - 如何向 Tez 添加额外的库以支持不同的 HDFS 后端?

当我使用MapReduce作为Hive背后的执行引擎时,我可以使用替代后端到我的defaultFS.impl。使用类似于以下的语法:LOCATION'协议(protocol)://地址:端口/目录';我想使用Tez执行引擎而不是MapReduce,但不知道在哪里添加我的shim库(jar文件)以便Tez识别我的新协议(protocol)。这些放在什么目录里?我需要向tez-site.conf添加指令吗?额外输入:Vertexfailed,vertexName=Map6,vertexId=vertex_1504790331090_0003_1_01,diagnostics=[Vertex

scala - 将 DataFrame 作为文本文件加载到 HDFS 和 S3

这个问题在这里已经有了答案:WritesingleCSVfileusingspark-csv(16个答案)关闭5年前。我正在尝试使用以下代码将DataFrame作为文本格式文件加载到HDFS和S3中。DataFrame名称为finalData。valtargetPath="/user/test/File"valnow=Calendar.getInstance().getTime()valformatter=newSimpleDateFormat("yyyyMMddHHmmss")valtimeStampAfterFormatting=formatter.format(now)valta

hadoop - 如何使用 Ambari 通过浏览器访问 hdfs-site.xml 和 core-site.xml?

我需要文件hdfs-site.xml和core-site.xml可以通过url访问,因为我正在安装的服务需要在安装时检索这些文件。我正在使用Ambari来管理我的hdfs和我的hadoop/堆栈。 最佳答案 看起来Ambari本身没有能力直接这样做。下载配置的一种方法是使用“服务操作”下的“下载客户端配置”菜单选项,它会为您提供配置,但在必须解压缩的tar.gz存档中。API调用的例子是:http://c6401:8080/api/v1/clusters/cl1/services/HDFS/components/HDFS_CLIEN