hdfs_clusters_草庐IT

Hadoop集群！将HDFS副本数设置为3；可以正常提交MapReduce运行！

目录一、将HDFS副本数设置为31、什么是HDFS副本数？2.将副本数设置为3二、基于MapReduce框架开发wordcount程序1、什么是MapReduce框架？2、启动idea，新建一个maven项目3、将HDFS相关的jar包引入到项目中 4、代码开发5、本地环境搭建三、打包项目四、在ssh运行MapReduce提供的wordcount例子五、总结一、将HDFS副本数设置为31、什么是HDFS副本数？HDFS数据副本概念：HDFS数据副本存放策略，副本的存放是HDFS可靠性和高性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调

【运维】hadoop 集群安装（三）hdfs、yarn集群配置、nodemanager健康管理讲解

文章目录一.配置说明1.hadoop各进程环境配置2.hadoop各进程配置2.1.etc/hadoop/core-site.xml2.2.etc/hadoop/hdfs-site.xml2.2.1.NameNode2.2.2.datanode2.3.etc/hadoop/yarn-site.xml2.3.1.ResourceManagerandNodeManager2.3.2.ResourceManager2.3.3.NodeManager2.3.4.HistoryServer2.4.etc/hadoop/mapred-site.xml2.4.1.MapReduceApplications2

图论中的聚类系数(Clustering coefficient)简单介绍

目录前言介绍局部聚类系数全局聚类系数前言在GraphSage论文的理论分析部分，涉及到一个概念叫做“Clusteringcoefficient”，直译过来就是聚类系数，解释为“节点的一跳邻域内封闭的三角形的比例”，本文对其做一个简单的介绍。本文参考了Wiki百科-Clusteringcoefficient。更：关于GraphSage论文详解，请参见博文《GraphSage-《InductiveRepresentationLearningonLargeGraphs》论文详解》介绍在图论中，聚类系数是图中节点倾向于聚类在一起的程度的度量。相关论文表明12，在大多数现实世界的网络中，尤其是社交网络中

hdfs删除后空间不是释放，trash回收机制

一、现象hdfs删除后，3天了还不删除，故排查排查问题二、排查过程及原理Trash机制，叫做回收站或者垃圾桶，默认情况下是不开启的。启用Trash功能后，从HDFS中删除某些内容时，文件或目录不会立即被清除，它们将被移动到回收站Current目录中(/user/{username}/.Trash/current)。TrashCheckpoint检查点仅仅是用户回收站下的一个目录，用于存储在创建检查点之前删除的所有文件或目录。如果你想查看回收站目录，可以在/user/{username}/.Trash/{timestamp_of_checkpoint_creation}处看到:最近删除的文件被移

大数据上课笔记之使用Java API操作HDFS

目录一、HDFSJavaAPI的了解1、HDFS常见类与接口二、编写Java程序访问HDFS1、在IEDA上创建Maven项目2、添加相关依赖3、创建日志属性文件4、启动集群HDFS服务5、在HDFS上创建文件 6、写入HDFS文件 7、读取HDFS文件 8、重命名目录或文件9、显示文件列表 9.1、显示指定目录下文件全部信息9.2、显示指定目录下文件路径和长度信息10、获取文件块信息11、创建目录12、判断目录或文件是否存在13、判断Path指向目录还是文件14、删除目录或文件 14.1、删除文件14.2、删除目录 14.3、删除目录或文件三、课后复习一、HDFSJavaAPI的了解HD

修炼k8s+flink+hdfs+dlink（四：k8s（二）组件）

一：控制平面组件。控制平面组件会为集群做出全局决策，比如资源的调度。以及检测和响应集群事件，例如当不满足部署的replicas字段时，要启动新的pod）。1.kube-apiserver。该组件负责公开了KubernetesAPI，负责处理接受请求的工作。API服务器是Kubernetes控制平面的前端。2.kube-controller-manager。负责运行控制器进程。从逻辑上讲，每个控制器都是一个单独的进程，但是为了降低复杂性，它们都被编译到同一个可执行文件，并在同一个进程中运行。3.cloud-controller-manager。嵌入了特定于云平台的控制逻辑。云控制器管理器（Clo

2.2 如何使用FlinkSQL读取&写入到文件系统(HDFS\Local\Hive)

目录1、文件系统SQL连接器2、如何指定文件系统类型3、如何指定文件格式4、读取文件系统4.1开启目录监控 4.2 可用的Metadata5、写出文件系统5.1创建分区表5.2滚动策略、文件合并、分区提交5.3指定SinkParallelism6、示例_通过FlinkSQL读取kafka在写入hive表6.1、创建kafkasource表用于读取kafka6.2、创建hdfssink表用于写出到hdfs6.3、insertinto写入到 hdfs_sink_table6.4、查询 hdfs_sink_table6.5、创建hive表，指定local1、文件系统SQL连接器文件系统连接器允许从

Hadoop HDFS分布式文件系统（介绍以及基础操作命令）

目录一、为什么需要分布式存储？二、分布式的基础架构分析三、HDFS基础架构1.HDFS简介四、HDFS集群启停命令1.一键启停脚本2.单进程启停五、HDFS基本操作命令1.创建文件夹 2.查看指定目录下内容 3.上传文件到HDFS指定目录下 4.查看HDFS文件内容5.下载HDFS文件 6.拷贝HDFS文件 7.追加数据到HDFS文件中8.HDFS数据移动操作 9.HDFS数据删除操作六、HDFS权限不足解决方法1.超级用户2.修改权限(和Linu一致)一、为什么需要分布式存储？ ①数据量太大，单机存储能力有上限，需要靠数量来解决问题。 ②数量的提升带来的是网络传输、磁盘读写、

HDFS分布式文件系统（2）Java API操作HDFS

文章目录1.创建Maven项目2.添加相关依赖3.创建日志属性文件4.启动集群HDFS服务5.在HDFS上创建文件6.写入HDFS文件6.1将数据直接写入HDFS文件6.2将本地文件写入HDFS文件7.读取HDFS文件7.1读取HDFS文件直接在控制台显示7.2读取HDFS文件，保存为本地文件8.重命名目录或文件8.1重命名目录8.2重命名文件9.显示文件列表9.1显示指定目录下文件全部信息9.2显示指定目录下文件路径和长度信息10.获取文件块信息11.创建目录12.判断目录或文件是否存在13.判断Path指向目录还是文件14.删除目录或文件14.1删除文件14.2删除目录14.3删除目录或文

一百一十七、Hadoop——GZIP压缩并解压HDFS中的文件

一、解压HDFS中的gzip压缩文件首先，先把HDFS中的gzip压缩文件下载到本地[root@hurys22~]#hdfsdfs-get /rtp/statistics/statistics2023-05-17.csv.gz /opt/hdfs_rtp/然后，在/opt/hdfs_rtp/目录下查看文件[root@hurys22~]#cd/opt/hdfs_rtp/[root@hurys22hdfs_rtp]#lsevaluation2023-05-09.csv evaluation2023-05-10.csv evaluation2023-05-11.csv statistics2023