草庐IT

hdfs-audit

全部标签

hadoop - HDFS如何在VM上查找主机名端口号

这似乎是一个非常简单的问题。但是我在hdfs上有我的文件的路径,比如父文件夹/子文件夹/文件名.txt由于我必须提供此文件的完整路径以及主机和端口详细信息,因此我需要找出这些详细信息。你能帮我吗? 最佳答案 根据配置会是这样的(Ambari中的HDFS配置:fs.defaultFS类似于:hdfs://cluster,默认端口8020):hdfs://localhost:8020/parentfolder/subfolder/filename.txt 关于hadoop-HDFS如何在VM

hadoop - 如何创建 hdfs 数据目录?

每次我的hadoop服务器重新启动时,我都必须格式化namenode才能启动hadoop。这会删除我的hadoop安装中的所有文件。我需要将我的hadoophdfs位置从/tmp文件移动到永久位置,只要服务器重新启动,我就不必格式化名称节点等。我是hadoop的新手。如何在另一个目录中创建hdfs文件?我如何在配置文件中引用这个数据目录,这样我就不必格式化名称节点了? 最佳答案 hdfs-site.xml的这两个属性决定了本地文件的存储位置。默认在/tmp下dfs.namenode.name.dirdfs.datanode.data

hadoop - 编写 Flume 配置,将不断增长的文件上传到 HDFS

我是Flume的新手,在配置方面遇到了一些问题。我在OracleVirtualBox上使用HortonworksSandboxHDP2.6.5(如果这很重要)。我的VM中有一个文本文件input_data.txt:input_data.txt的内容如下所示:我使用以下命令来创建并逐渐增加输入:catinput_data.txt|whilereadline;doecho"$line";sleep0.2;done>output.txt我想要实现的目标:1)编写一个Flume配置,将不断增长的output.txt文件上传到HDFS2)如果可能-HDFS中的目标文件必须在每次源文件(/usr/

hadoop - 如何使用 BDM(Informatica) 将文件从本地文件系统复制到 hdfs 文件系统?

我正在使用Informatica版本10.2.1并使用BDM我想将文件从本地文件系统复制并粘贴到HDFS文件系统。我是BDM的新手,不知道该怎么做。目前我已经创建了一个对象并填充了Read和Write参数。我同时使用InputType和OutputType作为command并发出命令hdfsdfs-copyFromLocal-f/tmp/x。csv/tmp/x非常感谢任何帮助。编辑粘贴错误图片。 最佳答案 Informatica中的Command输入类型用于读取数据。像catfilename.txt流出数据以供Informatica

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询?

我们有100多个HDFS分区,我们每天每小时都会写入这些分区。分区是每天进行的,以便直接加载到Hive中,数据以Parquet格式写入。我们遇到的问题是,因为我们想尽可能快地获取数据可查询,每小时写入导致很多小文件。有很多例子,例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码;我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询? 最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

hadoop - 使用 ambari UI 在 HDP 集群中编辑 hdfs-default.xml

我有一个使用HortonworksDataPlatform2.6.1构建的HBase集群,我想编辑hdfs-default.xml中的一些属性。我们可以使用ambariUI编辑hdfs-default.xml吗?如果我们在所有节点中手动编辑文件,我们需要重新启动哪些服务? 最佳答案 是的,你可以,但Ambari不会编辑默认文件,它会编辑hdfs-site.xml,你至少需要重新启动每个HDFS客户端和服务才能进行更改产生影响。不要手动编辑磁盘上的文件-Ambari会在下次服务重启时覆盖它们

hadoop - 无法以非 sudo 用户身份写入 HDFS

我已经通过更改了hdfs目录的权限hdfsdfs-chmod777/path/to/dir但是,当以非sudo用户身份写入该目录时,出现权限错误Causedby:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=crtemois,access=WRITE,inode="/aggregation/system/data/clean":owners:hdfs:drwxr-xr-x 最佳答案

hadoop - 要求澄清一些 HDFS 概念

我不确定这个问题是否属于这里。如果没有,那我道歉。我正在阅读HDFS论文,发现很难理解一些术语。请在下面找到我的问题。1)根据该论文,“HDFS命名空间是文件和目录的层次结构。文件和目录在NameNode上由inode表示,它记录权限、修改和访问时间、命名空间和磁盘空间配额等属性。“inode中的命名空间信息到底是什么意思?是指文件的完整路径吗?因为,前面的语句说“HDFS命名空间是文件和目录的层次结构”。2)根据论文“NameNode维护命名空间树和文件block到DataNode的映射(文件数据的物理位置)。”namespacetree和namespace一样吗?关于namespa

hadoop - 从 HDFS 加载数据不适用于 Elephantbird

我正在尝试使用elephantbirdinpig处理数据,但我没有成功加载数据。这是我的pig脚本:register'lib/elephant-bird-core-3.0.9.jar';register'lib/elephant-bird-pig-3.0.9.jar';register'lib/google-collections-1.0.jar';register'lib/json-simple-1.1.jar';twitter=LOAD'statuses.log.2013-04-01-00'USINGcom.twitter.elephantbird.pig.load.JsonLoa

hadoop - HDFS 与 NTFS 和 FAT32 有什么区别?

为什么在Hadoop中使用HDFS这个特定的文件系统?HDFS相对于NTFS或FAT的优势是什么?hadoop选择HDFS的原因是什么? 最佳答案 ...因为NTFS和FAT不是分布式的。HDFS的优势在于它。参见HDFSIntroduction. 关于hadoop-HDFS与NTFS和FAT32有什么区别?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/17932374/