hdfs_clusters

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用？

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合，但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中，因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

hadoop - 为什么 hsync() 不刷新我的 hdfs 文件？

尽管有关于这个主题的所有资源，但我在刷新磁盘上的hdfs文件时遇到了问题(hadoop2.6)调用FSDataOutputStream.hsync()应该可以解决问题，但由于未知原因它实际上只工作一次......这是一个失败的简单单元测试:@Testpublicvoidtest()throwsInterruptedException,IOException{finalFileSystemfilesys=HdfsTools.getFileSystem();finalPathfile=newPath("myHdfsFile");try(finalFSDataOutputStreamstre

hadoop hsync code filesys stream hdfs

java - Hadoop 2.6.1 java.lang.NullPointerException 在 org.apache.hadoop.hdfs.DFSOutputStream.isLazyPersist(DFSOutputStream.java :1709)

当我尝试附加到HDFS中的文件时，出现如下异常。请指教file.append(newPath(uri));异常java.lang.NullPointerExceptionatorg.apache.hadoop.hdfs.DFSOutputStream.isLazyPersist(DFSOutputStream.java:1709)atorg.apache.hadoop.hdfs.DFSOutputStream.getChecksum4Compute(DFSOutputStream.java:1550)atorg.apache.hadoop.hdfs.DFSOutputStream.(D

DFSOutputStream java hadoop apache

hadoop - 如何通过命令行在 hdfs 中查找大小大于 100MB 的所有文件？

如何通过命令行在hdfs中找到所有大小大于100MB的文件？最佳答案你可以试试这个:hadoopfsfind/-typef-size100-print\ 关于hadoop-如何通过命令行在hdfs中查找大小大于100MB的所有文件？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/34129962/

hadoop hdfs section stackoverflow questions command-line-interface

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时，我都会在下面遇到异常。作为confdir，我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时，我看到有一个Paths.get方法，它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

zookeeper 送到 code ZkConfigManager apache hadoop solr hdfs apache-zookeeper oozie

hadoop - 使用 hdfs dfs -test 查看目录是否存在

在hadoop文档中:testUsage:hadoopfs-test-[defsz]URIOptions:-d:fthepathisadirectory,return0.-e:ifthepathexists,return0.-f:ifthepathisafile,return0.-s:ifthepathisnotempty,return0.-z:ifthefileiszerolength,return0.Example:hadoopfs-test-efilename如果hdfs目录不存在，我想做点什么。-test选项中的每个参数都返回0。如果目录不存在，我该如何输出？drwx-----

hadoop hdfs bli1 bli

java - 如何在不先复制到本地文件系统的情况下使用 Java 解压缩存储在 HDFS 中的文件？

我们在HDFS中存储包含XML文件的zip文件。我们需要能够使用Java以编程方式解压缩文件并流出包含的XML文件。FileSystem.open返回一个FSDataInputStream，但ZipFile构造函数仅将File或String作为参数。我真的不想使用FileSystem.copyToLocalFile。是否可以在不先将zip文件复制到本地文件系统的情况下流式传输存储在HDFS中的zip文件的内容？如果是怎么办？最佳答案您好，请找到示例代码，publicstaticMaploadZipFileData(Stringh

何在 java zipInputStream section hadoop zip hdfs

scala - Spark 在 hdfs 上写入 Parquet

我安装了3个节点hadoop和spark。我想从rdbms中获取数据到数据帧中，并将这些数据写入HDFS上的Parquet。“dfs.replication”值为1。当我使用以下命令尝试此操作时，我看到所有HDFSblock都位于我执行spark-shell的节点上。scala>xfact.write.parquet("hdfs://sparknode01.localdomain:9000/xfact")这是预期的行为还是应该将所有block分布在整个集群中？谢谢最佳答案由于您正在将数据写入HDFS，因此这不依赖于spark，而

Parquet scala section HDFS the hadoop apache-spark

scala - 将 Spark 流数据写入并附加到 HDFS 中的文本文件

我正在创建一个sparkscala代码，我在其中从MQTT服务器读取连续流。我在yarn集群模式下运行我的工作。我想将此流保存并附加到HDFS中的单个文本文件中。我将每1秒接收一次数据流。所以我需要将这些数据附加到HDFS中的单个文本文件中。谁能帮忙。最佳答案使用数据框和使用模式Append这将在每次新记录出现时追加数据。valsqlContext=neworg.apache.spark.sql.SQLContext(context)importsqlContext.implicits._stream.map(_.value).

本文 scala section spark hadoop hdfs spark-streaming

hadoop - HDFS block 大小及其与底层物理文件系统 block 大小的关系

我试图了解HDFS文件系统block大小与底层物理文件系统block大小之间的关系。根据我的理解，hdfs只是一个虚拟文件系统，它将实际数据存储在底层物理文件系统上。hadoop2中的HDFSblock大小为128MB；然而，在大多数基于Linux的文件系统中，block大小为4KB。我的问题:Q1)当一个HDFSblock被写入实际文件系统时，它会写入底层文件系统的多个block吗？那就是对于单个HDFSblock，它必须写入128*1024KB/4KB-->32,768个block？Q2)如果上面是正确的，那是不是需要在磁头上进行大量寻道？是不是很费时间的过程？Hadoop如何高效

block 底层 section HDFS hadoop

214 215 216217218 219 220