草庐IT

hdfs_clusters

全部标签

hadoop - 使用 hdfs 的 Impala 分区表

我将数据以以下格式存储在hdfs中,并使用“altertableaddpartition”命令将这些数据插入到impala分区表中。/user/impala/subscriber_data/year=2013/month=10/day=01/user/impala/subscriber_data/year=2013/month=10/day=02一切正常。现在我有一个新数据,月份和年份分别为10和01。现在我需要处理这些数据并将这些数据附加到现有的hdfs目录中(年=2013/月=10/日=01)。当我尝试处理并插入到hdfs目录时,由于输出目录已经存在而给出错误。有没有办法在不删除现

hadoop - Flume 不将日志写入 Hdfs

所以我配置了flume以将我的apache2访问日志写入hdfs...并且我通过flume的日志发现所有配置都是正确的,但我不知道为什么它仍然不写入hdfs.所以这是我的水槽配置文件#agentandcomponentofagentsearch.sources=sosearch.sinks=sisearch.channels=sc#Configureachannelthatbufferseventsinmemory:search.channels.sc.type=memorysearch.channels.sc.capacity=20000search.channels.sc.tran

java - 无法通过 Java API 访问 HDFS (Cloudera-CDH4.4.0)

我正在尝试使用Java代码访问我的HDFS,但我无法让它工作...经过2天的挣扎,我认为是时候寻求帮助了。这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/HADOOP_HOME/conf/core-site.xml"));conf.addResource(newPath("/HADOOP_HOME/conf/hdfs-site.xml"));FileSystemhdfs=FileSystem.get(conf);booleansuccess=hdfs.mkdirs(newPath("/user

hadoop - 切换一个包含cloudera hadoop/hdfs/hbase数据的磁盘

我们有一个基于单个服务器上的单个节点的Cloudera5安装。在集群上添加2个额外节点之前,我们想使用新磁盘增加分区的大小。我们安装了以下服务:yarn有1个NodeManager、1个JobHistory和1个ResourceManager具有1个数据节点、1个主节点和1个辅助节点的hdfs具有1个主服务器和1个区域服务器的hbase拥有1个服务器的动物园管理员所有数据目前都安装在一个分区上。将收集的数据数量增加了,因此我们需要使用另一个磁盘来存储所有信息。所有数据都在挂载到文件夹/dfs的分区下工作分区是:df-hhadoop-dfs-分区119G9.8G103G9%/dfsdf-

xml - Hadoop:XML文件如何存储到HDFS并被Mappers处理?

我刚刚开始学习Hadoop,我想确认我对“XML文件如何存储在HDFS中并由Mappers处理”相关的理解。我有一个XML格式的XML文件,如下所示。其简单的客户列表XML示例。此文件的大小为1GB。现在,如果我将这个文件移动到HDFS中,它将被分成16个block(如果我们将每个分割的默认block大小保持为64MB)。因此将执行16个映射器来处理此文件,每个block一个。......现在,如果我理解正确的话,MappReduce作业的Mapper会考虑每个完整的用于处理的标记可能会失败,因为使用-put将这种XML文件放入HDFS。或-copyFromLocal不保证HDFS中的

hadoop - HDFS 是否可以部分加密表? (仅限某些栏目)

我找不到任何注意来源。我在ClouderaCDH5.3工作感谢您的帮助。 最佳答案 如果表在Hive,那么cloudera有哨兵,引用this.Sentry目前不支持列级安全,它可以限制用户/组访问/读取特定表的内容。现在以Hbase表为例。可以限制hdfs文件更改访问权限或所有者权限。这也可以用于配置单元表。==更新==目前不支持列级数据加密,jira中的帖子很少关于同样的。作为解决方法,我建议如下:开发一个UDF用于分别使用一些加密和解密算法。在数据插入时使用加密功能,这将加密数据并将其加密存储在hdfs中。在读取数据时使用解密

hadoop - HDFS block 大小和网络复制流量之间有什么关系?

相对于我们认为通过OpenTSDB写入的数据量,我们的HBase集群有大量的网络流量。将字节中继到OpenTSDB:以字节为单位的网络吞吐量(Y轴是SI单位,因此不是base2):我们使用Cloudera,所以block是128MB,将其更改为64MB会减少网络复制流量吗?是否还有其他后果需要考虑? 最佳答案 要清楚地回答降低block大小会减少复制流量的问题,答案是不会。HDFS客户端不会一次写入整个block的数据-它们一次将写入流化为64k-128k字节的小校验和数据包(可配置),在管道中的DataNode(s)上构建整个bl

hadoop - 在 HDFS 中本地化 HFile block

我们使用Mapreduce批量创建HFile,然后将其增量/批量加载到HBase中。我注意到加载只是一个HDFS移动命令(它不会物理移动文件block)。由于我们进行了大量的HBase表扫描并且我们启用了短路读取,因此将这些HFile本地化到它们各自区域的节点将是有益的。我知道主要压缩可以实现这一点,但当HFile与区域大小相比较小时,这些压缩效率很低。 最佳答案 HBase使用HDFS作为文件系统。HBase不控制HDFSblock的数据局部性。当使用HBaseAPI向HBase写入数据时,HBaseRegionServer成为H

hadoop - 让多个 reducer 在 HDFS 中创建多个输出文件

如果我有多个reducer,输出会保存为多个文件吗?如果我有job.setNumReduceTasks(4),输出会写入4个不同的文件吗? 最佳答案 在map-reduce作业中,如果设置4个reducer来实现reducer作业。通过这样做,最终输出将生成4个部分文件。像part-r-00001、part-r-00002、part-r-00003、part-r-00004.希望这能澄清您的疑虑。 关于hadoop-让多个reducer在HDFS中创建多个输出文件,我们在StackOve

hadoop - 如何在以xml为一列的hdfs中查询文件

上下文:我在mysql的表中有数据,其中xml作为一列。例如:表应用程序有3个字段。id(integer),details(xml),address(text)(在实际情况下,我这里有10-12个字段)。现在我们想用pig查询mysql表中所有字段的整个表。使用sqoop将mysql中的数据传输到hdfs中recorddelimiter'\u0005'andcolumndelimiteras"`"to/x.xml.然后使用将数据从x.xml加载到Pig中app=LOAD'/x.xml'USINGPigStorage('\u0005')AS(id:int,details:chararra