草庐IT

hdfs_clusters

全部标签

265. 【数据库运维】hdfs,10T硬盘被撑爆

最近遇到一个很坑,我一个6节点的分布式数据库,一个节点10T的硬盘,经过一层又一层的手动翻hdfs本地目录去找大文件,终于找到源头,一个dncp-block-verification.log.curr占了5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大?image.png今天才假期第二天,客户那边就来催了,“解决方案商量好了吗?”,我赶紧在本地虚拟机上再尝试复现一下——虽然解决方案已经出来了,把那两个文件删了就行了,但毕竟是生产环境,不敢随便删除,还是稳点好。回过头来,这其实是一个老版本hdfs的bug,在新版本之后已经修复了,我们关掉Datanode把这

clickhouse-HDFS

参考文档https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/前言在hdfs格式ck能解析的情况下,比如CSV,TSV等,可以在ck中建立一个映射表。读取hdfs中的数据,使用ck来分析。需要注意的是如果uri路径中包括了Globs模糊匹配符号,那么说明ck只是映射hdfs中的文件,是只读的。如果写入会报DB::Exception:URI'hdfs:xxxxxx/some_file_?'containsglobs,sothetableisinreadonlymode错误。如果不包括Globs模糊匹配符号,

clickhouse-HDFS

参考文档https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/前言在hdfs格式ck能解析的情况下,比如CSV,TSV等,可以在ck中建立一个映射表。读取hdfs中的数据,使用ck来分析。需要注意的是如果uri路径中包括了Globs模糊匹配符号,那么说明ck只是映射hdfs中的文件,是只读的。如果写入会报DB::Exception:URI'hdfs:xxxxxx/some_file_?'containsglobs,sothetableisinreadonlymode错误。如果不包括Globs模糊匹配符号,

如何给 HDFS 「减肥」之数据清理

Hadoop平台运行至今,前期处于放任自由的状态,后期才开始稍加管控,指定相关数据使用规范。日积月累,数据规模越来越大,元数据暴增,Namenoderpc频繁超时告警,NamenodeHA切换也较为频繁。企业的预算不可能无限增加,所以一个良好的平台规范以及定时数据清理机制,对平台的来说至关重要,属于非常实在的降本增效工作。这里记录下我们组的近期制定的HDFS「瘦身计划」。1.HDFS「瘦身计划」通过脚本代码,分析导出以下四类数据,按目录导出成文件联系各个业务,依据我们提供的数据,进行清理工作目录不存在和空表:项目里面有空表和表对应的hdfs路径不存在的情况,需要删除N个月零增长:项目里面有N个

如何给 HDFS 「减肥」之数据清理

Hadoop平台运行至今,前期处于放任自由的状态,后期才开始稍加管控,指定相关数据使用规范。日积月累,数据规模越来越大,元数据暴增,Namenoderpc频繁超时告警,NamenodeHA切换也较为频繁。企业的预算不可能无限增加,所以一个良好的平台规范以及定时数据清理机制,对平台的来说至关重要,属于非常实在的降本增效工作。这里记录下我们组的近期制定的HDFS「瘦身计划」。1.HDFS「瘦身计划」通过脚本代码,分析导出以下四类数据,按目录导出成文件联系各个业务,依据我们提供的数据,进行清理工作目录不存在和空表:项目里面有空表和表对应的hdfs路径不存在的情况,需要删除N个月零增长:项目里面有N个

CDH6.3配置HDFS高可用,多NameNode

概述搭建HDFS的NameNode集群,在单个NameNode宕机或繁忙时,可以做故障转移和压力平摊;配置的过程比较复杂,网上的可查资料也很少步骤1.停止运行中的所有hdfs角色,并删除SecondaryNameNode开启了高可用,不需要SecondaryNameNode,该角色并不具备故障转移的功能,可以理解为一个备份点,解读SecondaryNameNode的功能;在只有一个NameNode的情况下,必须配置SecondaryNameNode;但多个NameNode的时候,如果没删除会报错校验不通过,这里先忽略不理2.新增JournalNode,NameNode和FailoverCont

CDH6.3配置HDFS高可用,多NameNode

概述搭建HDFS的NameNode集群,在单个NameNode宕机或繁忙时,可以做故障转移和压力平摊;配置的过程比较复杂,网上的可查资料也很少步骤1.停止运行中的所有hdfs角色,并删除SecondaryNameNode开启了高可用,不需要SecondaryNameNode,该角色并不具备故障转移的功能,可以理解为一个备份点,解读SecondaryNameNode的功能;在只有一个NameNode的情况下,必须配置SecondaryNameNode;但多个NameNode的时候,如果没删除会报错校验不通过,这里先忽略不理2.新增JournalNode,NameNode和FailoverCont

Hadoop HDFS操作指南

1HDFS组成架构image-20220703192933033.pngNameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求DataNode(DN)存储实际的数据块执行数据块的读写操作Client(客户端)文件切分,文件上传HDFS时,Client将文件切分成一个个Block,然后进行上传与NameNode交互,获取文件的位置信息与DataNode交互,读取或者写入数据Client提供一些命令管理HDFS,比如NameNode格式化Client可以通过一些命令访问HDFS,比如对HDFS增删改查操作SecondaryNameNode(2N

Hadoop HDFS操作指南

1HDFS组成架构image-20220703192933033.pngNameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求DataNode(DN)存储实际的数据块执行数据块的读写操作Client(客户端)文件切分,文件上传HDFS时,Client将文件切分成一个个Block,然后进行上传与NameNode交互,获取文件的位置信息与DataNode交互,读取或者写入数据Client提供一些命令管理HDFS,比如NameNode格式化Client可以通过一些命令访问HDFS,比如对HDFS增删改查操作SecondaryNameNode(2N

关于 java:JBoss Clustering 和 Lighttpd 负载平衡显示不一致的行为

JBossClusteringandLighttpdLoadBalancingdisplayinginconsistentbehaviour问题我们在不同的机器上安装了两个JBossAS4.2.3,它们是集群的。我们还使用Lighttpd作为负载平衡器,并放置在我们的Tomcat服务器(Tomcat服务器没有集群)和JBoss服务器之间。一旦所有服务器都启动并运行,应用程序就会完美运行。如果我关闭了一台JBoss服务器,请求将按预期重定向到另一台服务器。注销应用程序后,我的问题就开始了。在尝试重新登录应用程序时,我收到一个异常,提示Tomcat无法连接到已关闭的服务器。服务器设置Machine