草庐IT

HDFS-HAWQ

全部标签

hadoop - HDFS - 最后一个预期列之后的额外数据

我们有源系统和目标系统。尝试使用talend工具将数据从SQLserver2012导入到PivotalHadoop(PHD3.0)版本。获取错误:ERROR:extradataafterlastexpectedcolumn(seg0slice1datanode.domain.com:40000pid=15035)Detail:Externaltablepick_report_stg0,line5472ofpxf://masternnode/path/to/hdfs?profile=HdfsTextSimple:"5472;2016-11-2808:39:54.217;;2016-11-

hadoop - Hadoop 中 HDFS 写入的名称节点如何更新数据节点的可用性

我有10个数据节点,复制因子为3,文件大小为150,block大小为64。因此文件将被拆分为三个blockB1、B2、B3。因此,客户端向名称节点询问数据节点是否可用以写入B1block。我的问题是名称节点将向客户端提供多少数据节点用于写入B1block。还有一个问题是B1、B2、B3的写入将如何并行或顺序发生 最佳答案 数据将由客户端仅写入一个数据节点,其余复制由数据节点本身根据名称节点指令处理。Replicaplacement:当一个datanode从客户端接收block的数据时,datanode将数据保存在一个代表block的

hadoop - 从 HDFS 读取并写入 HBASE

Mapper正在从两个地方读取文件1)用户访问过的文章(按国家排序)2)国家统计(countrywise)两个Mapper的输出都是Text,Text我正在运行AmazonCluster的程序我的目标是从两个不同的集合中读取数据并将结果合并并存储在hbase中。HDFS到HDFS正在运行。代码卡在减少67%处并给出错误17/02/2410:45:31INFOmapreduce.Job:map0%reduce0%17/02/2410:45:37INFOmapreduce.Job:map100%reduce0%17/02/2410:45:49INFOmapreduce.Job:map100

hadoop - 来自文件夹(不是 HDFS)的 Apache Spark Streaming

我想知道是否有任何可靠的方法可以从物理位置创建Spark流?我使用的是“textFileStream”,但它似乎主要用于文件位于HDFS中的情况。如果您看到该函数的定义,它会显示“创建一个监视Hadoop兼容文件系统的输入流” 最佳答案 您是在暗示HDFS不是物理位置吗?有物理存在的datanode目录...您应该能够将textFile与file://URI一起使用,但您需要确保集群中的所有节点都可以从该位置读取。来自Hadoop兼容文件系统的定义。Theselectionofwhichfilesystemtousecomesfro

hadoop - hdfs dfs -count 从哪里获取信息?

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量,该集群具有大量数据。所以,我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息?它像hdfsdfs-ls一样工作吗?或者它直接从HDFS中的Namenode获取它的信息?非常感谢! 最佳答案 它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

hadoop - 作业运行期间可以更改 HDFS block 大小吗?自定义拆分和变体大小

我正在使用hadoop1.0.3。是否可以根据某些约束在运行时更改(增加/减少)输入拆分/block。是否有一个类可以重写以实现这种机制,如FileSplit/InputTextFormat?我们能否根据一项作业中的逻辑约束在HDFS中使用不同大小的block? 最佳答案 您不仅限于TextInputFormat...这完全可以根据您正在阅读的数据源进行配置。大多数示例都是以行分隔的明文,但这显然不适用于XML,例如。不,block边界在运行时不能改变,因为你的数据应该已经在磁盘上,并准备好读取。但是InputSplit依赖于给定作

scala - 使用 Scala 将文件从本地移动到 HDFS 时出错

我有一个Scala列表:fileNames,其中包含本地目录中的文件名。例如:fileNames(2)res0:String=file:///tmp/audits/xx_user.log我正在尝试使用Scala将文件从列表:fileNames从本地移动到HDFS。为此,我遵循了以下步骤:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.commons.io.IOUtils;val

hadoop - 为什么元数据不能存储在HDFS中

为什么元数据不能存储在具有3个复制的HDFS中。为什么存储在本地磁盘? 最佳答案 因为多次I/O操作,在资源分配中命名节点会花费更多的时间。所以最好将元数据存储在名称节点的内存中。 关于hadoop-为什么元数据不能存储在HDFS中,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/47825594/

hadoop - 在具有相同大小但内容不同的 hdfs 上同步文件

我正在尝试使用distcp和airbnbreair实用程序将文件从一个hadoopclutster同步到另一个,但它们都没有按预期工作。如果源和目标上的文件大小相同,即使文件内容已更改(校验和也会变化),除非未使用覆盖选项,否则两者都无法更新它。我需要保持大约30TB的同步数据,所以每次加载完整的数据集是不可行的。如果文件大小相同(源中的计数已更改)并且校验和不同,谁能建议我如何使两个数据集同步。 最佳答案 DistCp处理大小相同但内容不同的文件之间同步的方式是比较其所谓的FileChecksum。FileChecksum首次在H

bash - HDFS 上的 Snappy 压缩文件没有扩展名且不可读

我配置了一个MapReduce作业,将输出保存为用Snappy压缩的序列文件。MR作业成功执行,但在HDFS中输出文件如下所示:我预计该文件将具有.snappy扩展名,并且应该是part-r-00000.snappy。现在我认为这可能是当我尝试使用此模式从本地文件系统读取文件时文件不可读的原因hadoopfs-libjars/path/to/jar/myjar.jar-text/path/in/HDFS/to/my/file所以我在执行命令时得到了–libjars:Unknowncommand:hadoopfs–libjars/root/hd/metrics.jar-text/user