草庐IT

hdfs-agent

全部标签

hadoop - 为什么元数据不能存储在HDFS中

为什么元数据不能存储在具有3个复制的HDFS中。为什么存储在本地磁盘? 最佳答案 因为多次I/O操作,在资源分配中命名节点会花费更多的时间。所以最好将元数据存储在名称节点的内存中。 关于hadoop-为什么元数据不能存储在HDFS中,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/47825594/

hadoop - 在具有相同大小但内容不同的 hdfs 上同步文件

我正在尝试使用distcp和airbnbreair实用程序将文件从一个hadoopclutster同步到另一个,但它们都没有按预期工作。如果源和目标上的文件大小相同,即使文件内容已更改(校验和也会变化),除非未使用覆盖选项,否则两者都无法更新它。我需要保持大约30TB的同步数据,所以每次加载完整的数据集是不可行的。如果文件大小相同(源中的计数已更改)并且校验和不同,谁能建议我如何使两个数据集同步。 最佳答案 DistCp处理大小相同但内容不同的文件之间同步的方式是比较其所谓的FileChecksum。FileChecksum首次在H

bash - HDFS 上的 Snappy 压缩文件没有扩展名且不可读

我配置了一个MapReduce作业,将输出保存为用Snappy压缩的序列文件。MR作业成功执行,但在HDFS中输出文件如下所示:我预计该文件将具有.snappy扩展名,并且应该是part-r-00000.snappy。现在我认为这可能是当我尝试使用此模式从本地文件系统读取文件时文件不可读的原因hadoopfs-libjars/path/to/jar/myjar.jar-text/path/in/HDFS/to/my/file所以我在执行命令时得到了–libjars:Unknowncommand:hadoopfs–libjars/root/hd/metrics.jar-text/user

java - KafkaConnect HDFS 连接器与 SchemRegistry

我引用了以下链接来了解HDFSConnectforKafkahttps://docs.confluent.io/2.0.0/connect/connect-hdfs/docs/index.html我能够通过配置单元集成将数据从kafka导出到HDFS。现在我正在尝试借助Java程序将avro记录写入kafkapublicstaticvoidmain(String[]args)throwsInterruptedException,IOException,RestClientException{Propertiesprops=newProperties();props.put("boots

hadoop - HDFS 上的文件权限

我找到了很多指导用户如何在HDFS上“创建用户/组”的教程。我想知道“所有者”或“组”在HDFS上下文中的含义。此外,当文件在HDFS上时,谁是文件的所有者或组用户?Some消息人士称它是hdfs本身,而some说它是客户端进程的用户。我想知道有一个明确的方法来理解和修复permissiondenied错误。 最佳答案 如第一个链接所述AlotoftheadministrativeHDFScommandsneedtoberunasthe“hdfs”OSuser,whichisthedefaultHDFSsuperuser默认的sup

hadoop - 使用 copyToLocal 从 HDFS 复制的路径

我正在尝试从HDFS复制当我运行它时,什么也没有发生。hadoopfs-copyToLocalout1~/datatemp我假设我应该为HDFS文件包含一个更长的路径?out1是存储在HDFS上的目录,~/datatemp是本地磁盘上的目标目录。我做得对吗?为什么~/datatemp中没有任何内容?我怎么知道out1的完整路径我也试过hadoopfs-getout1~/datatemp 最佳答案 将整个out1HDFS目录复制到本地磁盘:hadoopfs-copyToLocal/hdfs/path/to/out1~/datatemp

hadoop - 合流 HDFS 连接器 : How can I read from the latest offset when there are no hdfs files?

我们有一个运行了几天的生产者应用程序,它正在为topicA生产数据。我们想启动hdfs连接器以从topicA读取而不是从偏移量0读取(因为这将导致巨大的滞后)。我们想从最新偏移量开始(一直有新数据进入topicA)。1)由于连接器从hdfs中的主题名称获取偏移量信息,我们如何从最新的偏移量中读取,因为hdfs中不存在任何文件?2)我能想到的一个选项是为每个分区手动创建具有最新偏移量的虚拟文件,但我们在这里讨论的是topicA中的60个分区,所以有没有更优雅的方法来做到这一点? 最佳答案 NoName,最近添加了HDFS连接器在HDF

macos - 无法在 mac os 上的 hdfs 上创建目录

当我尝试在hdfs上创建目录时收到以下错误消息。我安装了所有必需的软件ssh、Java并设置了所有环境变量。不太确定我哪里出错了。有人可以分享您对此的看法吗?谢谢。使用的命令:bin/hdfsdfs-mkdir/Users/ravitejavutukuri/input错误:18/06/3022:56:11WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablemkdir:`/Users/ravitejavutuku

hadoop - 无法在 hdfs 的目录下创建子目录

我可以使用以下命令创建目录,但无法在已创建的目录下创建子目录。我可以知道可能是什么原因。我在我的mac上以伪分布式模式设置了hdfs并尝试创建这些目录。任何帮助,将不胜感激。hadoopfs-mkdir/test/subdir上面的命令没有创建任何子目录,但是下面的命令创建了一个目录。hadoopfs-mkdirtest 最佳答案 要在父目录中递归创建子目录,您必须提供-p选项,否则您可以一次创建一个目录。hdfsdfs-mkdir-p/test/subdir将适用于您的情况。 关于ha

hadoop - 如何在没有 CDH 的情况下安装和配置 Hue 来管理 HDFS

我想安装和配置Hue以使用Web管理我的HDFS文件?我在本地机器上安装了单节点Hadoop集群。我找到了这个HueInstallGuide,它通过Clouderamanager和CDH安装Hue,但我想不使用Clouderamanager和CDH来安装它。我该如何解决这个问题? 最佳答案 关注installationdocumentationonHue'sGithub,或官方documentationpage你会得到最新版本的Hue(而不是依赖CDH拥有的旧版本)能够针对任何Hadoop集群运行它(提供正确的setupofhue.