hdfs

hadoop - FIWARE Cygnus : File exists in HDFS, 但无法写入数据

我正在使用NGSIHDFSSink通过Cygnus在HDFS上持久化。当收到来自Orion的第一个通知时，它会创建目录和包含数据的正确文件:/user/hdfs/openiot/Lamp_001_Lamp/Lamp_001_Lamp.txt但是，对于收到的下一个通知，它会显示以下错误:Therewassomeproblemwiththecurrentendpoint,tryingotherone.Details:CygnusPersistenceError./user/hdfs/openioLamp/Lamp_001_Lamp.txtfileexistsinHDFS,butcouldn

hadoop - “WARN hdfs.DFSUtil: Namenode for null remains unresolved for ID null.”

我想在配置后测试我的hadoop是否运行良好，但是在输入之后，命令start-all.sh在终端中显示如下错误WARNhdfs.DFSUtil:NamenodefornullremainsunresolvedforIDnull.Checkyourhdfs-site.xmlfiletoensurenamenodesareconfiguredproperly.Startingnamenodeson[master]master:ssh:Couldnotresolvehostnamemaster:Nameorservicenotknown我检查了我的hdfs-site.xml文件并像其他人那样

null unresolved strong gt lt hadoop

hadoop - 如何在 HDFS 中查找文件的创建日期

我需要在hdfs目录中找到文件或文件夹的创建日期。例如:hadoopfs-ls/user/myUser/我得到路径/user/myUser/中的文件和目录列表以及修改日期。我想找到每个条目的创建日期。最佳答案不能获取创建时间，但是可以获取修改时间。然而，在HDFS中，文件通常创建一次，因此修改时间可能与创建时间相同。您可以使用-statcommand并运行:hadoopfs-stat"%y"/user/myUser/hadoopfs-stat"%Y"/user/myUser/所有支持的选项都可以在源代码中找到Stat.java:

何在 hadoop section noreferrer hdfs

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化？

为什么HDFS使用ProtocolBuffer而不是Java序列化API？如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办？我已经尝试了几件事，但我收到以下错误:java.io.WriteAbortedException:写入中止；java.io.NotSerializableException:java.lang.Thread 最佳答案因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

Protocol Buffer section java noreferrer hadoop serialization hdfs protocol-buffers

scala - 从 scala 脚本中执行 hdfs 命令

我正在尝试从集群模式下由Spark执行的Scala脚本内部执行一个HDFS特定命令。命令下方:valcmd=Seq("hdfs","dfs","-copyToLocal","/tmp/file.dat","/path/to/local")valresult=cmd.!!作业在此阶段失败，错误如下:java.io.FileNotFoundException:/var/run/cloudera-scm-agent/process/2087791-yarn-NODEMANAGER/log4j.properties(Permissiondenied)atjava.io.FileInputStr

scala hdfs apache java FileInputStream apache-spark hadoop

java - 合并 HDFS 中小于 128MB 的压缩 lzo 文件

我正在尝试将Kb大小的小型hdfs文件合并到128MB大小的文件中。所有这些kb大小的文件都是lzo压缩的任何人都可以帮忙吗？这是我到目前为止尝试过的方法。hadoopjar/opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar-Dmapred.reduce.tasks=10-Dmapred.reduce.output.compression.codec=lzo-Dmapred.output.compress=truemapred.output.compression.type=lzo-input"/use

java HDFS hadoop section compression apache-spark

java - Hive:无法为 HDFS 中的现有数据创建外部表

更新1:将hadoop版本修改为2.x，错误依旧。原创:我使用hive-testbench将tpcds测试数据生成到Ceph中。目前数据位于存储系统根目录下，在tpcds文件夹中。例如hdfsdfs-ls/的结果是drwxrwxrwx-rootroot02019-08-0510:44/hivedrwxrwxrwx-rootroot02019-08-0510:44/tmpdrwxrwxrwx-rootroot02019-08-0510:44/tpcdsdrwxrwxrwx-rootroot02019-08-0510:44/userdrwxrwxrwx-rootroot02019-08-0

java Hive code tpcds hadoop bigdata

bash - 删除 HDFS 中在某个日期范围内创建的所有 0 字节文件

如何删除HDFS中某个日期范围内的文件。即删除从昨天到今天后150天之间创建的0字节文件。这将在shell脚本中完成。我正在使用以下命令删除所有0字节文件，但我需要一个可以提供日期范围的文件hdfsdfs-ls-R$directory/*|grep-Ev"txt|xml|csv|mrc"|awk'$1!~/^d/&&$5=="0"{print$8}'|xargs-n100hdfsdfs-rm有什么帮助吗？最佳答案 #Createreferencefilewiththedateoftoday00:00:00.000000am#aso

bash HDFS code tmp section shell hadoop

hadoop - HDFS NFS 位置使用奇怪的数字用户名值作为目录权限

在NFS安装的HDFS位置的文件夹权限中看到用户名的无意义值，而HDFS位置本身(使用HortonworksHDP3.1)看起来很好。例如。➜~ls-lh/nfs_mount_root/usertotal6.5Kdrwx------.3accumulohdfs96Jul1913:53accumulodrwxr-xr-x.392668751hadoop96Jul2515:17admindrwxrwx---.3ambari-qahdfs96Jul1913:54ambari-qadrwxr-xr-x.3druidhadoop96Jul1913:53druiddrwxr-xr-x.2hbase

hadoop HDFS drwxr-xr-x user

hadoop - 在 HDFS 中写入元数据

我们正在使用nutch来抓取我们的内部网站。我们在索引阶段提取xml文件中的元数据(我们修改了indexer.java的代码)，当以本地模式运行时，它为我们提供了所需的元数据。现在，我们想到了在集群模式下使用nutch(使用hadoop)，当我们在集群中爬取nutch时，我们能够获得索引但不能获得我们以前使用的元数据，我们使用的是本地模式(java的IO类将元数据写入文件)。对于hadoop，我们将其更改为hadoop文件系统io类。然而我们无法获得元数据。是否有任何解决方案，或者我们是否遗漏了什么？提前致谢，地理位置最佳答案 W

hadoop HDFS section 的 nutch indexer

191 192 193194195 196 197