草庐IT

hdfs_clusters

全部标签

hadoop - HBase如何实现对HDFS的随机访问?

鉴于HBase是一个数据库,其文件存储在HDFS中,它如何实现对HDFS中单个数据的随机访问?这是通过什么方法实现的?来自theApacheHBaseReferenceGuide:HBaseinternallyputsyourdatainindexed"StoreFiles"thatexistonHDFSforhigh-speedlookups.SeetheChapter5,DataModelandtherestofthischapterformoreinformationonhowHBaseachievesitsgoals.浏览这两章并没有揭示这个问题的高级答案。那么HBase是如何

java - hdfs中的文件路径

我想从Hadoop文件系统读取文件。为了获得正确的文件路径,我需要hdfs的主机名和端口地址。所以最后我的文件路径看起来像Pathpath=newPath("hdfs://123.23.12.4344:9000/user/filename.txt")现在我想知道如何提取HostName="123.23.12.4344"&port:9000?基本上,我想访问AmazonEMR上的文件系统,但是,当我使用FileSystemfs=FileSystem.get(getConf());我得到YoupossiblycalledFileSystem.get(conf)whenyoushouldha

java - 通过 Java API 从远程主机访问 HDFS,用户身份验证

我需要通过JavaAPI从远程桌面使用HDFS集群。在写访问之前一切正常。如果我尝试创建任何文件,我都会收到访问权限异常。路径看起来不错,但异常指示我的远程桌面用户名,这当然不是我访问所需HDFS目录所需要的。问题是:-有什么方法可以在JavaAPI中使用“简单”身份验证来表示不同的用户名?-您能否用JavaAPI示例对hadoop/HDFS中的身份验证/授权方案进行一些很好的解释?是的,我已经知道在这种情况下使用shell别名可能会使'whoami'过载,但我更愿意避免这样的解决方案。这里还有一些细节是我不喜欢使用一些技巧,比如通过SSH和脚本的管道。我想只使用JavaAPI执行所有

hadoop - 如何在不使用 Hadoop 的情况下读取 HDFS 上的 Snappy 压缩文件?

我将文件以Snappy压缩格式存储在HDFS上。我希望能够在本地Linux文件系统上检查这些文件,以确保创建它们的Hadoop进程已正确执行。当我将它们复制到本地并尝试使用Google标准库解压缩它们时,它告诉我该文件缺少Snappy标识符。当我尝试通过插入一个Snappy标识符来解决这个问题时,它弄乱了校验和。我该怎么做才能读取这些文件而不必编写单独的Hadoop程序或通过Hive之类的程序传递它? 最佳答案 我终于发现我可以使用以下命令来读取HDFS上的Snappy压缩文件的内容:hadoopfs-text/path/filen

hadoop - 在 HDFS 中查找早于 N 天的目录

可以使用hadoopfs-ls查找早于N天(从当前日期算起)的所有目录吗?我正在尝试编写一个清理例程来查找和删除HDFS上所有在当前日期前N天创建的目录(匹配模式)。 最佳答案 此脚本列出所有早于[days]的目录:#!/bin/bashusage="Usage:$0[days]"if[!"$1"]thenecho$usageexit1finow=$(date+%s)hadoopfs-lsr|grep"^d"|whilereadf;dodir_date=`echo$f|awk'{print$6}'`difference=$((($n

hadoop - 有没有办法使用 WebHDFS REST API 下载 HDFS 文件?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion有什么方法可以使用WebHDFSRESTAPI从HDFS下载文件?我最接近的是使用打开操作来读取文件并保存内容。curl-i-L"http://localhost:50075/webhdfs/v1/demofile.txt?op=OPE

scala - 使用 Spark 列出 Hadoop HDFS 目录中的所有文件?

我想遍历Hadoop目录中的所有文本文件并计算单词“error”的所有出现次数。有没有办法通过hadoopfs-ls/users/ubuntu/使用ApacheSparkScalaAPI列出目录中的所有文件?来自给定的firstexample,Spark上下文似乎只能通过类似的方式单独访问文件:valfile=spark.textFile("hdfs://target_load_file.txt")在我的问题中,我事先不知道HDFS文件夹中文件的数量和名称。看着sparkcontextdocs但找不到这种功能。 最佳答案 您可以使用

hadoop - 使用 copyFromLocal 开关将数据移动到 hdfs

我不知道这里发生了什么,但我正在尝试将一个简单文件从本地文件系统中的目录复制到为hdfs指定的目录。在我的hdfs-site.xml中,我使用以下属性指定了hdfs的目录/home/vaibhav/Hadoop/dataNodeHadoopData-dfs.data.dir/home/vaibhav/Hadoop/dataNodeHadoopData/anddfs.name.dir/home/vaibhav/Hadoop/dataNodeHadoopData/我正在使用以下命令-bin/hadoopdfs-copyFromLocal/home/vaibhav/ml-100k/u.dat

hadoop - 如何配置 Tensorflow Serving 以提供来自 HDFS 的模型?

我正在尝试使用TensorflowServing项目从HDFS提供Tensorflow模型。我正在运行tensorflow服务docker容器标签1.10.1https://hub.docker.com/r/tensorflow/serving我可以在以下位置看到引用Hadoop的tensorflow/servingrepohttps://github.com/tensorflow/serving/blob/628702e1de1fa3d679369e9546e7d74fa91154d3/tensorflow_serving/model_servers/BUILD#L341"@org_

hadoop - Pyspark:获取 HDFS 路径上的文件/目录列表

如题。我知道textFile但正如其名称所示,它仅适用于文本文件。我需要访问HDFS或本地路径上路径内的文件/目录。我正在使用pyspark。 最佳答案 使用JVM网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:URI=sc._gateway.jvm.java.net.URIPath=sc._gateway.jvm.org.apache.hadoop.fs.PathFileSystem=sc._gateway.jvm.org.apache.hadoop.fs.FileSystemConfiguration=sc._g