草庐IT

hdfs_clusters

全部标签

java - 获取从 hdfs 到 servlet 的文件/目录列表

我正在尝试用java创建一个web应用程序,它可以列出浏览器上的所有HDFS文件/目录。谁能告诉我这怎么可能?我试图从谷歌获得帮助,但找不到任何方向。 最佳答案 您可以使用HDFSWebUI(在Apachehttp://namenodehost:50070中)。然而,HadoopHDFS也提供了RESTapi,为HDFS提供完整的FileSystem/FileContext接口(interface)支持。举个例子,列出指定HDFS位置的文件/目录请求:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS

hadoop - 用于处理保存在 HDFS 中的小型二进制文件的 Spark 架构

我不知道如何为以下用例构建架构:我有一个Web应用程序,用户可以在其中上传文件(pdf&pptx)和要处理的目录。上传完成后,Web应用程序将此文件和目录放在HDFS中,然后在kafka上发送一条包含此文件路径的消息。Spark应用程序从kafka流中读取消息,将它们收集到master(驱动程序)上,然后进行处理。我首先收集消息,因为我需要将代码移动到数据,而不是将数据移动到接收到消息的地方。我知道spark将作业分配给本地已有文件的执行程序。我对kafka有疑问,因为出于上述原因我被迫首先收集它们,并且当想要创建检查点应用程序崩溃时“因为你试图从广播变量中引用SparkContext

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

hadoop - 启动 Hadoop DFS - $HADOOP_HOME/bin/hdfs 中没有这样的文件或目录?

我正在设置单个Hadoop节点,但是在运行$HADOOP_HOME/sbin/start-dfs.sh时它打印出找不到$HADOOP_HOME/bin/hdfs。虽然那个位置的文件存在,但我可以很好地阅读它。从start-dfs.sh脚本记录:root@hadoop:/opt/hadoop-2.7.3#sbin/start-dfs.shError:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.tools.GetConfStartingnamenodeson[]localhost:startingnamenode,loggingto/

hadoop - HDFS 磁盘已满

在我们的Ambari集群中,HDFS磁盘使用率变为100%。我想删除HBase中的表以释放磁盘,但hbase(master)没有启动。我尝试了Hdfs重新平衡,但失败了。还有一次我手动删除了HDFS文件,但之后HDFS就不再启动了。是否有释放磁盘空间的正确方法?还是我应该重新安装ambari集群?HDP版本为2.4.2,HDFS版本为2.7.1,Hbase为1.1.2 最佳答案 我找到了一个解决方案,它并不完美,但比重新安装所有东西要好!貌似有从hdfs(hadoopfs)中删除文件的命令,所以我们应该用它来删除hbase数据。命令

azure - 如何在 hdfs 中启用校验和值?

如何在hdfs中启用校验和值。在azure的hdinsight集群顶部使用hadoop(Hadoop2.7.3)。我尝试使用此命令检查校验和值:-hadoopfs-checksum/filename.txt然后校验和值为NONE。阅读here“通常的校验和是‘无’。所以我的问题是如何启用校验和值? 最佳答案 请尝试在AzureHDInsight上为HDFS命令。hadoopfs-checksumwasbs://containername@xxxx.blob.core.windows.net/folder/filename.txt

hadoop - 在 HDFS 中递归合并多个文件

我在HDFS中的文件夹路径结构是这样的:/data/topicname/year=2017/month=02/day=28/hour=00/data/topicname/year=2017/month=02/day=28/hour=01/data/topicname/year=2017/month=02/day=28/hour=02/data/topicname/year=2017/month=02/day=28/hour=03在这些路径中,我有许多小的json文件。我正在编写一个shell脚本,它可以根据路径将所有这些单独目录中存在的所有文件合并为一个单独的文件名。例子:/data/

rest - 它是 Hbase REST API `get version/cluster` 中的错误吗?

HbaseRESTAPI,此接口(interface)get'version/cluster',当我使用headerAccept:application/json时,响应不是JSON而是纯文本。curl-XGET\-H"Accept:application/json"\"http://localhost:8888/version/cluster"#"1.2.2"但是当我使用Accept:text/xml时,响应是正确的XML。curl-XGET\-H"Accept:text/xml"\"http://localhost:8888/version/cluster"#1.2.2

java - NiFi - 自定义 orc 处理器为类 org.apache.hadoop.hdfs.DistributedFileSystem 提供 NoClassDefFoundError

我正在尝试在ApacheNiFi中开发一个自定义处理器,它将orc文件直接写入远程hadoop集群。为了编写它们,我正在使用orccoreapi.我尝试在本地FS上写入文件,它们没问题:hive,这是它们的“最终目的地”,读取它们没有问题。问题是,在尝试创建Writer对象时,我得到了org.apache.hadoop.hdfs.DistributedFileSystem类的NoClassDefFoundError。这是使用的代码:Configurationconf=newConfiguration();conf.addResource(newPath(hadoopConfigurat

java - 如何设置 winutils.exe 的确切路径以使用 Java 访问 HDFS?

在我的系统变量中,HADOOP_HOME设置为C:\hadoop-2.7.2\bin我尝试使用以下代码访问HDFS:FileSystemhdfs=FileSystem.get(newConfiguration());PathhomeDir=hdfs.getHomeDirectory();运行时错误:17/03/1310:49:39ERRORutil.Shell:Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:CouldnotlocateexecutableC:\hadoop-2.7.2\bi