hdfs

hadoop - 至少一个文件系统不支持 ACL : Distcp HDFS

Asperdistcpdocumentation->If-paisspecified,DistCppreservesthepermissionsalsobecauseACLsareasuper-setofpermissions.buthadoopdistcp-pa-delete-update/src/path/dest/path/isfailingwithACLsnotsupportedonatleastonefilesystem.Completelogsbelow上面的命令执行失败。预期是使用ACL将hdfs文件从源复制到目标。org.apache.hadoop.tools.Copy

不支 hadoop DistCp apache hdfs hortonworks-data-platform

hadoop - 将 Hive 表导出到 hdfs 中的 csv/tsv

我使用以下代码以csv/tsv格式将表从配置单元导出到hdfs。INSERTOVERWRITEDIRECTORY'/user/xyz/dem_data/science_data'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASTEXTFILESELECT*FROMscience_data;当我在hdfs中查看复制的文件时，我看到很多这样的字符??=%??0notherepisod?/aAj%?is?a???$ofJhorse!de9?amA?se0(我不确定出了什么问题。我是否需要对此进行某种编码

hadoop Hive section code science_data hdfs

docker - docker 中的 Kafka 连接和 HDFS

我在docker-compose中使用kafkaconnectHDFSsink和Hadoop(用于HDFS)。Hadoop(名称节点和数据节点)似乎工作正常。但是kafkaconnectsink出现错误:ERRORRecoveryfailedatstateRECOVERY_PARTITION_PAUSED(io.confluent.connect.hdfs.TopicPartitionWriter:277)org.apache.kafka.connect.errors.DataException:Errorcreatingwriterforlogfilehdfs://namenode:

docker Kafka code hadoop namenode apache-kafka hdfs apache-kafka-connect

hadoop - 从一个集群到另一个集群的 HDFS 数据传输不适用于 distcp

我需要将HDFS数据从一个集群传输到另一个集群。我看到“distcp”命令对这种情况有帮助。但事实并非如此。两个集群Namenode都与其他数据节点私下互连。所以我有两台代理机器与名称节点公开连接。比如说，我让namenode的8070端口在haproxy中运行在20000以下。现在我可以ping两个集群名称节点了。所以，我选择了distcp选项。mapreduce作业开始执行数据传输，但尚未完成。[hdfs@ip-20-0-42-252~]$hadoopdistcphdfs://YY.YY.YY.YY:20000/user/ce_prasith/filter.txthdfs://xx

hadoop distcp apache java hdfs cloudera

hadoop - 如何使用Flume将数据实时写入HDFS？

我正在使用Flume将传感器数据存储在HDFS中。一旦通过MQTT接收到数据。订阅者将JSON格式的数据发布到FlumeHTTP监听器。它目前工作正常，但问题是水槽在我停止它之前不会写入HDFS文件(或者文件大小达到128MB)。我正在使用Hive在读取时应用模式。不幸的是，生成的配置单元表仅包含1个条目。这是正常的，因为Flume没有将新的数据写入文件(由Hive加载)。有什么方法可以强制Flume以近乎实时的方式将即将到来的新数据写入HDFS？所以，我不需要重新启动它或使用小文件？hereismyflumeconfiguration:#Namethecomponentsonthis

hadoop Flume emsFlumeAgent hdfs hdfs_sink hive bigdata

hadoop - 在Hive更新期间HDFS中发生了什么(真的)？

情况如下：已知hdfs是仅附加的（本身没有更新）。配置单元将数据写入其位于hdfs中的仓库。可以在配置单元中执行更新这意味着写入了新数据，旧数据应该以某种方式标记为已弃用，然后在某个时间将其清除。我搜索了一下，但到目前为止没有找到任何有关这方面的信息。最佳答案表的数据存储在一组基本文件中。新记录、更新和删除存储在增量文件中。为每个更改表的事务创建一组新的增量文件。在读取时，读取器合并基文件和增量文件，在读取时应用任何更新和删除。随后，主压缩按周期性时间间隔将较大的增量文件和/或基文件合并到另一个基文件中，这将加快进一步的表扫描操

hadoop Hive section 配置单 br hdfs

scala - 配置后端状态以使用 hdfs 时出错

我正在尝试将后端状态设置为hdfsvalstateUri="hdfs/path_to_dir"valbackend:RocksDBStateBackend=newRocksDBStateBackend(stateUri,true)env.setStateBackend(backend)我正在运行具有以下依赖项的flink1.7.0(我尝试了所有组合):"org.apache.flink"%%"flink-connector-filesystem"%flinkV"org.apache.flink"%"flink-hadoop-fs"%flinkV"org.apache.hadoop"%"

时出 scala flink code apache hadoop apache-flink

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

apache-spark - 将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错

我正在尝试按照以下步骤将数据框加载到Hive表中:读取源表并将数据帧保存为HDFS上的CSV文件valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable",s"(${execQuery})asyear2016").option("user",devUserName).option("password",devPassword).option("partitionColumn","header_id").option("lowerBound",199199).option("upperB

时出 apache-spark 34 code spark hadoop hive apache-spark-sql

apache-spark - Spark 事件日志 HDFS 一致性

我遇到了一个奇怪的问题，即Spark事件日志的长度没有正确更新。例如，我们将查看文件application_1551818805190_0006_1.inprogress。当我使用hdfsdfs-ls/var/log/spark/apps/时，我看到该文件只有309个字节:[hadoop~]$hdfsdfs-lshdfs:///var/log/spark/apps-rwxrwx---2hadoopspark1381803502019-03-0522:47hdfs:///var/log/spark/apps/application_1551818805190_0004_1-rwxrwx-

apache-spark apache spark code section hadoop hdfs

190 191 192193194 195 196