hdfs_rtp

hadoop - 如何使用Flume将数据实时写入HDFS？

我正在使用Flume将传感器数据存储在HDFS中。一旦通过MQTT接收到数据。订阅者将JSON格式的数据发布到FlumeHTTP监听器。它目前工作正常，但问题是水槽在我停止它之前不会写入HDFS文件(或者文件大小达到128MB)。我正在使用Hive在读取时应用模式。不幸的是，生成的配置单元表仅包含1个条目。这是正常的，因为Flume没有将新的数据写入文件(由Hive加载)。有什么方法可以强制Flume以近乎实时的方式将即将到来的新数据写入HDFS？所以，我不需要重新启动它或使用小文件？hereismyflumeconfiguration:#Namethecomponentsonthis

hadoop - 在Hive更新期间HDFS中发生了什么(真的)？

情况如下：已知hdfs是仅附加的（本身没有更新）。配置单元将数据写入其位于hdfs中的仓库。可以在配置单元中执行更新这意味着写入了新数据，旧数据应该以某种方式标记为已弃用，然后在某个时间将其清除。我搜索了一下，但到目前为止没有找到任何有关这方面的信息。最佳答案表的数据存储在一组基本文件中。新记录、更新和删除存储在增量文件中。为每个更改表的事务创建一组新的增量文件。在读取时，读取器合并基文件和增量文件，在读取时应用任何更新和删除。随后，主压缩按周期性时间间隔将较大的增量文件和/或基文件合并到另一个基文件中，这将加快进一步的表扫描操

hadoop Hive section 配置单 br hdfs

scala - 配置后端状态以使用 hdfs 时出错

我正在尝试将后端状态设置为hdfsvalstateUri="hdfs/path_to_dir"valbackend:RocksDBStateBackend=newRocksDBStateBackend(stateUri,true)env.setStateBackend(backend)我正在运行具有以下依赖项的flink1.7.0(我尝试了所有组合):"org.apache.flink"%%"flink-connector-filesystem"%flinkV"org.apache.flink"%"flink-hadoop-fs"%flinkV"org.apache.hadoop"%"

时出 scala flink code apache hadoop apache-flink

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

apache-spark - 将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错

我正在尝试按照以下步骤将数据框加载到Hive表中:读取源表并将数据帧保存为HDFS上的CSV文件valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable",s"(${execQuery})asyear2016").option("user",devUserName).option("password",devPassword).option("partitionColumn","header_id").option("lowerBound",199199).option("upperB

时出 apache-spark 34 code spark hadoop hive apache-spark-sql

apache-spark - Spark 事件日志 HDFS 一致性

我遇到了一个奇怪的问题，即Spark事件日志的长度没有正确更新。例如，我们将查看文件application_1551818805190_0006_1.inprogress。当我使用hdfsdfs-ls/var/log/spark/apps/时，我看到该文件只有309个字节:[hadoop~]$hdfsdfs-lshdfs:///var/log/spark/apps-rwxrwx---2hadoopspark1381803502019-03-0522:47hdfs:///var/log/spark/apps/application_1551818805190_0004_1-rwxrwx-

apache-spark apache spark code section hadoop hdfs

hadoop - FIWARE Cygnus : File exists in HDFS, 但无法写入数据

我正在使用NGSIHDFSSink通过Cygnus在HDFS上持久化。当收到来自Orion的第一个通知时，它会创建目录和包含数据的正确文件:/user/hdfs/openiot/Lamp_001_Lamp/Lamp_001_Lamp.txt但是，对于收到的下一个通知，它会显示以下错误:Therewassomeproblemwiththecurrentendpoint,tryingotherone.Details:CygnusPersistenceError./user/hdfs/openioLamp/Lamp_001_Lamp.txtfileexistsinHDFS,butcouldn

hadoop FIWARE cygnus-ngsi hdfs-sink hdfs fiware-cygnus

hadoop - “WARN hdfs.DFSUtil: Namenode for null remains unresolved for ID null.”

我想在配置后测试我的hadoop是否运行良好，但是在输入之后，命令start-all.sh在终端中显示如下错误WARNhdfs.DFSUtil:NamenodefornullremainsunresolvedforIDnull.Checkyourhdfs-site.xmlfiletoensurenamenodesareconfiguredproperly.Startingnamenodeson[master]master:ssh:Couldnotresolvehostnamemaster:Nameorservicenotknown我检查了我的hdfs-site.xml文件并像其他人那样

null unresolved strong gt lt hadoop

hadoop - 如何在 HDFS 中查找文件的创建日期

我需要在hdfs目录中找到文件或文件夹的创建日期。例如:hadoopfs-ls/user/myUser/我得到路径/user/myUser/中的文件和目录列表以及修改日期。我想找到每个条目的创建日期。最佳答案不能获取创建时间，但是可以获取修改时间。然而，在HDFS中，文件通常创建一次，因此修改时间可能与创建时间相同。您可以使用-statcommand并运行:hadoopfs-stat"%y"/user/myUser/hadoopfs-stat"%Y"/user/myUser/所有支持的选项都可以在源代码中找到Stat.java:

何在 hadoop section noreferrer hdfs

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化？

为什么HDFS使用ProtocolBuffer而不是Java序列化API？如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办？我已经尝试了几件事，但我收到以下错误:java.io.WriteAbortedException:写入中止；java.io.NotSerializableException:java.lang.Thread 最佳答案因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

Protocol Buffer section java noreferrer hadoop serialization hdfs protocol-buffers

145 146 147148149 150 151