hdfs

azure - HDFS ls 在 Flume 写入文件时显示文件大小为 0

我们目前正在设置一个ApacheFlume系统，该系统收集事件数据并将其写入我们的HDInsightHDFS集群中的文件。在验证初始设置时，hdfsls在Flume写入文件时显示文件大小为0，但是当文件滚动(并且删除了.tmp文件扩展名)时，文件大小突然跳起来。在Flume写入文件时，HDFS或HDInsight(或WASB)是否有某种原因导致文件的文件大小为0。最佳答案这可能是由于HDFS一致性模型。在向HDFS执行写入时，一旦写入了超过一个block的数据，第一个block将对新读者。后续block也是如此:它始终是当前bl

时显 azure section HDFS hadoop azure-hdinsight

java - 如何从 hdfs 上的文件加载类型安全的 configFactory？

我正在使用类型安全的ConfigFactory将配置加载到我的Scala应用程序中。我不想将配置文件包含到我的jar中，而是从外部hdfs文件系统加载它们。但是，我找不到从hadoop获得的fsDataInputStream对象加载配置的简单方法://getHDFSfilevalhadoopConfig:Configuration=sc.hadoopConfigurationvalfs:FileSystem=org.apache.hadoop.fs.FileSystem.get(hadoopConfig)valfile:FSDataInputStream=fs.open(newPath

configFactory java section FSDataInputStream scala hadoop typesafe-config

shell - HDFS 命令行追加

有没有办法像复制文件一样从命令行append到HDFS上的文件:hadoopfs-copyFromLocalURI 最佳答案此功能在Hadoop2.3.0中实现为appendToFile语法如下:hdfsdfs-appendToFilelocalfile/user/hadoop/hadoopfile(在2009年考虑HDFSAppend功能时首次提出:https://issues.apache.org/jira/browse/HADOOP-6239) 关于shell-HDFS命令行追加

shell HDFS section appendToFile hadoop command-line append

csv - 如何从 Hdfs 读取 CSV 文件？

我的数据在CSV文件中。我想读取HDFS中的CSV文件。谁能帮我写代码？？我是hadoop的新手。提前致谢。最佳答案为此所需的类是FileSystem,FSDataInputStream和Path.客户端应该是这样的:publicstaticvoidmain(String[]args)throwsIOException{//TODOAuto-generatedmethodstubConfigurationconf=newConfiguration();conf.addResource(newPath("/hadoop/proje

Hdfs csv hadoop section FSDataInputStream mahout

scala - 使用 scalding 读取多个文件并输出单个文件

这些天我遇到了一个问题，我正在尝试使用scalding从多个文件中读取数据并使用单个文件创建输出。我的代码是这样的:defgetFilesSource(paths:Seq[String])={newMultipleTextLineFiles(paths:_*){overrideprotecteddefcreateHdfsReadTap(hdfsMode:Hdfs):Tap[JobConf,_,_]={valtaps=goodHdfsPaths(hdfsMode).toList.map{path=>CastHfsTap(newHfs(hdfsScheme,path,sinkMode))}

scalding scala section MyScaldingType code hadoop hdfs hadoop2

hadoop - Falcon 在 Hadoop 生态系统中的作用

我应该在集群镜像上工作，我必须在其中设置与现有集群相似的HDFS集群(相同的主从集群)并将数据复制到新集群，然后按原样运行相同的作业。我读过有关falcon的信息，它是一种馈送处理和工作流协调工具，它也用于HDFS集群的镜像。有人能告诉我Falcon在Hadoop生态系统中的作用是什么，它对镜像有何帮助？我在这里查看是为了了解所有facon提供什么，当它是我的Hadoop生态系统(HDP)的一部分时。最佳答案 ApacheFalcon通过以下方式简化了数据移动的配置:生命周期管理；血统和可追溯性。这提供了跨Hadoop组件的数据治

hadoop Falcon section hdfs bigdata hortonworks-data-platform apache-falcon

hadoop - Spark 是否支持静态加密？

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它？我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗？最佳答案是的，Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密，这意味着您的所有JavaAPI和命令行界面都像以前一样工作，无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop Spark section transparent apache-spark hdfs

hadoop - Xargs 命令不支持具有多个输入文件的 hadoop put 命令

hadoop支持使用以下命令将多个本地文件复制到hdfshadoopfs-putlocalfile1localfile2/user/hadoop/hdfsdir我们需要复制数十万个文件，由于内存问题，我们想使用xargs分块复制。但是下面的命令给出了错误。echo"localfile1localfile2"|xargs-t-I{}hadoopfs-put{}/user/hadoop/hdfsdir它给出put:unexpectedURISyntaxExceptionerror。localfile1和localfile2是我当前工作目录中的文件。单个文件命令正在运行，即echo"loca

hadoop 不支 code section hdfs xargs

hadoop - Apache Spark JDBCRDD 使用 HDFS 吗？

ApacheSparkJDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点？我们正在使用JdbcRDD与apachespark上的数据库进行交互。我们想知道ApacheSpark是使用HDFS来分发和存储数据库表记录还是工作节点直接与数据库交互。最佳答案 JdbcRDD不使用HDFS，直接从JDBC连接读取数据到worker内存中的RDD。如果您想要HDFS上的结果，您必须明确地将RDD持久化到HDFS。你可以在这里看到JdbcRDD是如何运作的https://github.com/apache/spark/blob

JDBCRDD hadoop section apache apache-spark hdfs spark-streaming rdd

hadoop - 摄取一组 JSON 对象并转换为表格数据

我有一个这样的JSON对象数组。[和]封装的每个数组都在一行上。[{"事件":0,"属性":{"颜色":"红色","连接类型":2}}{"事件":30,"属性":{"颜色":“蓝色”，“连接类型”:4}}，{“事件”:45，“属性”:{“颜色”:“绿色”，“连接类型”:3}}][{“事件”:0，“属性”:{“颜色”:“红色”，“连接类型”:5}}，{"event":1,"properties":{"color",:"blue","connectionType":6}}]此处采用更易于阅读的格式。[{"event":0,"properties":{"color":"red","conne

并转摄取 34 connectionType properties hadoop hive apache-pig hdfs

78 79 808182 83 84