草庐IT

hdfs_clusters

全部标签

hadoop - HDFS 配置容量高于磁盘容量

我在Centos上有一个带有ClouderaExpress5.11的11节点集群。最初它仅由7个节点组成;稍后又添加了4个节点。每个节点的磁盘容量都相同:5.4TB。我遇到的问题是hdfsdfsadmin-report命令显示错误的磁盘使用值,尤其是配置容量。我的值在前7个节点中为6.34TB,在后4个节点中为21.39TB。例如,在一个节点中,我有以下报告:DecommissionStatus:NormalConfiguredCapacity:23515321991168(21.39TB)DFSUsed:4362808995840(3.97TB)NonDFSUsed:14117607

java - 如何在没有 spark 或框架的情况下将 parquet 文件保存在 hdfs 中?

我想使用java将parquet文件直接保存到hdfs。这是我用来生成parquet文件并将它们存储在本地的代码,但现在我想将它们存储在hdfs中。finalStringschemaLocation="/home/javier/FlinkProjects/kafka-flink/src/main/java/com/grallandco/demos/avro.json";finalSchemaavroSchema=newSchema.Parser().parse(newFile(schemaLocation));finalMessageTypeparquetSchema=newAvroS

scala - 使用 Scala 将文件写入 HDFS

我正在尝试使用scalaFileSystemApi将文件写入HDFS,在客户端和hadoop日志上出现以下错误:File/user/testuser/test.txtcouldonlybereplicatedto0nodesinsteadofminReplication(=1).Thereare1datanode(s)runningand1node(s)areexcludedinthisoperation.testuser有读、写、执行权限。我检查了ambari上的hdfs是否已启动并正在运行,不确定为什么会出现此错误在谷歌搜索错误后,我已经尝试停止所有服务,格式化名称节点并启动所有服

java - Hadoop HDFS - 在虚拟机上执行 JAR 文件

我在NetBeans中使用Maven构建了一个Java应用程序。当我构建Main项目(运行->构建Main项目)时,我得到了一个名为ROVKP_3zad-1.0-SNAPSHOT.jar的JAR文件,其中只有一个名为Main的类。然后我将该JAR文件放在虚拟机上,并尝试从命令行,从放置JAR文件的文件夹中执行它:hadoopjarROVKP_3zad-1.0-SNAPSHOT.jarcom.mycompany.rovkp_3zad.Main我收到一条错误消息:Exceptioninthread"main"java.lang.ClassNotFoundException:Mainatja

hadoop - 将数据从 HDFS 复制到 Hive 中的外部表时出错

我正在尝试将数据从hdfs插入到配置单元中的外部表。但低于错误。错误:Usage:javaFsShell[-put...]Commandfailedwithexitcode=255命令hive>!hadoopfs-put/myfolder/logs/pv_ext/2013/08/11/log/data/Sacramentorealestatetransactions.csv>;编辑:filelocation:/yapstone/logs/pv_ext/somedatafor_7_11/Sacramentorealestatetransactions.csvtablelocation:h

r - RHadoop 中的 hdfs.init() 错误

"C:/ProgramFiles/Java/jdk1.8.0_181")library(rJava)library(rhdfs)library(rmr2)hdfs.init()AftersettingupHadoopsinglenodeclusteronmymachine,ItriedtoexecutecommandsusingR-Studioinwindows.However,Iamgettinganerrormessagewithfollowingcode:Sys.setenv(HADOOP_HOME="C:/hadoop-2.7.3")Sys.setenv(HADOOP_CMD=

python - Tensorflow 从 HDFS mac 读取 : java. lang.NoSuchFieldError: LOG

我正在尝试从我的mac上的tensorflow读取外部hadoop。我从源代码构建了具有hadoop支持的tf,还在我的mac上构建了具有本地库支持的hadoop。我收到以下错误,hdfsBuilderConnect(forceNewInstance=0,nn=192.168.60.53:9000,port=0,kerbTicketCachePath=(NULL),userName=(NULL))error:java.lang.NoSuchFieldError:LOGatorg.apache.hadoop.ipc.ClientCache.getClient(ClientCache.ja

python - 如何在python中使用pyarrow连接到hdfs

我已经安装了pyarrow并想连接到Hadoop集群中的hdfs文件。我有以下行,它给了我错误。fs=pa.hdfs.connect(host='...',50057,user='...',kerb_ticket='/tmp/krb5cc_0')这是我收到的错误信息ArrowIOError:Unabletoloadlibhdfs我应该如何安装libhdfs?我还需要做什么其他依赖项/设置? 最佳答案 pyarrow.hdfs.connect(host='default',port=0,user=None,kerb_ticket=No

shell - 将 hdfs 上的脚本文件传递给 impala-shell

我有一个oozie作业,它有一个shell操作。首先,shell操作以编程方式查找存储在hdfs上的某些sql脚本文件。然后尝试在impala上运行每个sql脚本。由于事先不知道我要运行的sql脚本列表,因此不能作为传递给oozie操作参数,有没有办法运行impala-shell并给它一个hdfs路径而不是linux路径? 最佳答案 Impalashell可以接受来自STDIN的查询文本。如所述here,选项-f-fquery_fileor--query_file=query_filequery_file=path_to_query

hadoop - hdfs dfs - 覆盖?

我正在使用hdfsdfs-putmyfilemypath对于我得到的一些文件put:'myfile':FileExists这是否意味着存在同名文件或已经存在完全相同的文件(大小、内容)?如何在此处指定-overwrite选项?谢谢! 最佳答案 put:'myfile':文件存在意思是,名为“myfile”的文件已经存在于hdfs中。hdfs中不能有多个同名文件您可以使用hadoopfs-put-f/path_to_local/path_to_hdfs覆盖它 关于hadoop-hdfsdf