草庐IT

hdfs_rtp

全部标签

linux - HDFS文件权限问题

我在HDFS中创建了一个具有访问权限(400)的目录/tmp/ran-test。我试图将文件复制到目录,但出现权限被拒绝的错误。但是,我的同事可以毫无错误地将文件复制到目录中。我现在想知道它是如何工作的。如果有人给出他们的解释,我将不胜感激。谢谢,嘻嘻 最佳答案 有问题的目录设置了HDFSACL权限。请注意hdfsdfs-ls输出的权限字符串中的+字符。dr--------+-jkris03hdfs02017-03-2015:36/tmp/ranger_test这个+确定目录有一个ACL(访问控制列表),这为用户提供了额外的写入权限

hadoop - HDFS 中 Hive 代理用户的最佳解决方案是什么?

我对HDFS和Hive中的代理用户设置感到非常困惑。我在hive-site.xml中启用了doAs选项hive.server2.enable.doAstrue和core-site.xml中的代理用户hadoop.proxyuser.hdfs.hosts*hadoop.proxyuser.hdfs.groups*但这会导致:2017-03-2916:24:59,022INFOorg.apache.hadoop.ipc.Server:Connectionfrom172.16.0.239:60920forprotocolorg.apache.hadoop.hdfs.protocol.Clie

java - 在 Java 中尝试从 HDFS 复制 FromLocalFile 时出现 “Wrong FS… expected: file:///”

我正在尝试将abc.json从port/example_File/2017复制到HDFS中的另一个位置/port/example_File/2018,通过下面的代码StringexampleFile="hdfs://port/example_File/2017/abc.json"StringtargetFile="hdfs://port/example_File/2018"hdfs.copyFromLocalFile(newPath(exampleFile),newPath(targetFile))我正在低于异常org.jboss.resteasy.spi.UnhandledExcep

Hadoop HDFS 数据文件 : Displaying Datanodes & Blocks

我已经将一个文件放入HDFS,我想确切地知道它是如何分散在DFS中的(哪些数据block在哪些数据节点中)。尝试了fsck,但当我指定我放入DFS中的数据文件的名称时,出现“无效路径”错误。有什么想法吗? 最佳答案 尝试hdfsfsck/path/to/file-files-blocks-locations这将打印出文件每个block的位置。NamenodeWebUI也会提供这些信息。在Utilities-->Browsethefilesystem下,选择要查看block信息的文件。 关

hadoop - 将数据上传/插入到 HDFS 时是否涉及映射器 reducer ?

我在这里有一个很大的困惑。当我们将数据上传/插入/放入HADOOPHDFS时,我们知道数据是根据block大小存储在block中的和复制因子。此外,Mapreduce仅在处理数据时起作用。当我在我的一个表中插入任何数据时,我正在使用MRV2,我可以看到有MAPREDUCE进度条。那么这里的确切图片是什么。实际上,插入时涉及映射器和缩减器/正在将数据上传到HDFS? 最佳答案 是否需要MapReduce取决于写入操作的类型。hdfsdfs-put或-copyFromLocal等操作在将数据从LocalFS写入HDFS时不使用MapRe

mysql - 在 hdfs 中进行选择的最佳方法?

我有一个包含1个主节点和4个节点的hadoop环境,我在其中使用sqoop保存mysql应用程序的所有数据我需要通过应用程序的Web访问保存在hadoop中的这些数据,换句话说:如果用户记录的日期早于6个月,我希望应用程序在hadoop数据中进行选择。都是关系型数据,mysql。我不需要做任何大的分析。这可行吗?最好的方法是什么?你使用什么工具?在这种情况下发送hdfs中的数据不可行吗?提前致谢 最佳答案 据我了解您的问题,您正在使用sqoop将数据从MySQL导入HDFS。现在您想对HDFS中的这些数据执行一些查询。您可以使用Hi

hadoop - 无法在本地主机浏览 HDFS 中查看日志文件

我已成功启动flume-agent,但无法查看HDFS中的日志文件。我在twitter.conf中设置的路径是:TwitterAgent.sinks.HDFS.hdfs.path=hdfs://localhost:9000/user/flume/tweets/请帮助我摆脱这个错误并查看我的HDFS中的数据。 最佳答案 如果您在.bashrc中将hadoophome设置为exportHADOOP_HOME=那么下面就不需要localhost:9000TwitterAgent.sinks.HDFS.hdfs.path=hdfs://lo

java - 尝试模拟用户访问 HDFS 时出错

我正在尝试代表另一个用户访问HDFS。我正在尝试使用以下应用程序importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.security.UserGroupInformation;importorg.apache.log4j.Logger;importorg.apache.hadoop.fs.FSDataOutputStream;importjava.security.P

hadoop - 不同磁盘大小节点的HDFS数据写入流程

我们有10个节点的HDFS(Hadoop-2.6,cloudera-5.8)集群,其中4个节点的磁盘大小为10TB,6个节点的磁盘大小为3TB。在这种情况下,磁盘在小型磁盘节点上不断变满,但磁盘在大型磁盘节点上可用。我试图理解名称节点如何将数据/block写入不同磁盘大小的节点。无论是均分还是写入了一定比例的数据。 最佳答案 您应该查看dfs.datanode.fsdataset.volume.choosing.policy。默认情况下,这设置为round-robin但由于您有一个非对称磁盘设置,您应该将其更改为availables

hadoop - 在 Java 中从 HDFS 中删除以特定名称开头的目录

我正在尝试使用以下代码从spark中删除配置单元阶段文件。此代码可以删除目录中的文件,但我想删除所有以“.hive-staging_hive”开头的文件。请问如何删除以某段文字开头的目录Configurationconf=newConfiguration();System.out.println("560");Pathoutput=newPath("hdfs://abcd/apps/hive/warehouse/mytest.db/cdri/.hive-staging_hive_2017-06-08_20-45-20_776_7391890064363958834-1/");FileS