草庐IT

大数据Hadoop之——部署hadoop+hive环境(window10)

目录一、安装JDK81)JDK下载地址2)设置环境变量3)验证二、Hadoop安装(window10环境)1)下载Hadoop3.1.32)Hadoop配置环境变量3)在hadoop解压目录下创建相关目录4)修改Hadoop配置文件1、core-site.xml文件:添加以下配置2、hdfs-site.xml文件:添加以下配置,路径改成自己的安装路径3、mapred-site.xml文件:添加以下配置4、yarn-site.xml文件:添加以下配置5)格式化节点6)替换文件1、替换bin目录下文件(winutils)2、按照路径找到图中该文件7)运行8)验证三、Hive安装(window10环

大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)

目录一、概述二、Flink工作原理三、Flink核心概念1)Time(时间语义)2)Window(窗口)3)Trigger1、自定义触发器2、预定义触发器4)State5)状态存储1、MemoryStateBackend2、FsStateBackend3、RocksDBStateBackend6)Checkpoint1、AsynchronousBarrierSnapshots(ABS)2、Exactly-OncevsAt-Least-Once7)Watermark1、自定义数据源设置Timestamp/Watermark2、在数据流中设置Timestamp/Watermark8)广播状态(Br

大数据Hadoop之——部署hadoop+hive环境(window10)

目录一、安装JDK81)JDK下载地址2)设置环境变量3)验证二、Hadoop安装(window10环境)1)下载Hadoop3.1.32)Hadoop配置环境变量3)在hadoop解压目录下创建相关目录4)修改Hadoop配置文件1、core-site.xml文件:添加以下配置2、hdfs-site.xml文件:添加以下配置,路径改成自己的安装路径3、mapred-site.xml文件:添加以下配置4、yarn-site.xml文件:添加以下配置5)格式化节点6)替换文件1、替换bin目录下文件(winutils)2、按照路径找到图中该文件7)运行8)验证三、Hive安装(window10环

大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)

目录一、概述二、Flink工作原理三、Flink核心概念1)Time(时间语义)2)Window(窗口)3)Trigger1、自定义触发器2、预定义触发器4)State5)状态存储1、MemoryStateBackend2、FsStateBackend3、RocksDBStateBackend6)Checkpoint1、AsynchronousBarrierSnapshots(ABS)2、Exactly-OncevsAt-Least-Once7)Watermark1、自定义数据源设置Timestamp/Watermark2、在数据流中设置Timestamp/Watermark8)广播状态(Br

Git常用操作(Gitlab)

目录一、git概述二、Git与SVN区别三、Git下载安装四、Git工作流程五、Git工作区、暂存区和版本库六、Git创建仓库配置1、查看配置2、编辑git配置文件3、设置提交代码时的用户信息七、Git基本操作1)不同区说明2)一个简单的操作步骤3)创建仓库命令4)提交与修改操作1、gitadd2、gitstatus3、gitdiff4、gitcommit5、gitreset6、gitrm7、gitmv5)查看提交日志6)远程操作1、gitremote2、gitpush1)生成Token2)设置token3)配置github的ssh密钥--Windows(推荐)3、gitpull4、gitpu

Git常用操作(Gitlab)

目录一、git概述二、Git与SVN区别三、Git下载安装四、Git工作流程五、Git工作区、暂存区和版本库六、Git创建仓库配置1、查看配置2、编辑git配置文件3、设置提交代码时的用户信息七、Git基本操作1)不同区说明2)一个简单的操作步骤3)创建仓库命令4)提交与修改操作1、gitadd2、gitstatus3、gitdiff4、gitcommit5、gitreset6、gitrm7、gitmv5)查看提交日志6)远程操作1、gitremote2、gitpush1)生成Token2)设置token3)配置github的ssh密钥--Windows(推荐)3、gitpull4、gitpu

大数据Hadoop之——计算引擎Spark

目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)ClusterManager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskScheduler:任务调度器12)Job:作业13)Stage:调度阶段14)TaskSet:任务集15)Task:任务四、Spark运行基本流程七,Spark支持的资源管理器七、Spark环境搭

大数据Hadoop之——数据仓库Hive

目录一、概述二、Hive优点与使用场景1)优点2)使用场景三、Hive架构1)服务端组件1、Driver组件2、Metastore组件3、Thrift服务2)客户端组件1、CLI2、Thrift客户端3、WEBGUI3)Metastore详解四、Hive的工作原理五、安装1)local模式(内嵌derby)1、下载hive2、配置环境变量3、启动验证2)单用户模式(mysql)1、安装mysql数据库2、解决Hive与Hadoop之间guava版本的差异3、下载对应版本的mysql驱动包4、配置5、初始化元数据6、启动验证3)多用户模式(mysql)在hadoop-node2部署客户端五、Hi

大数据Hadoop之——计算引擎Spark

目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)ClusterManager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskScheduler:任务调度器12)Job:作业13)Stage:调度阶段14)TaskSet:任务集15)Task:任务四、Spark运行基本流程七,Spark支持的资源管理器七、Spark环境搭

大数据Hadoop之——数据仓库Hive

目录一、概述二、Hive优点与使用场景1)优点2)使用场景三、Hive架构1)服务端组件1、Driver组件2、Metastore组件3、Thrift服务2)客户端组件1、CLI2、Thrift客户端3、WEBGUI3)Metastore详解四、Hive的工作原理五、安装1)local模式(内嵌derby)1、下载hive2、配置环境变量3、启动验证2)单用户模式(mysql)1、安装mysql数据库2、解决Hive与Hadoop之间guava版本的差异3、下载对应版本的mysql驱动包4、配置5、初始化元数据6、启动验证3)多用户模式(mysql)在hadoop-node2部署客户端五、Hi