草庐IT

配置Kettle连接大数据HDFS

需求:配置Kettle连接大数据HDFSKettle对接大数据平台的配置一.软件环境1.Hadoop集群,版本:Hadoop3.3.02.ETL工具Kettle,版本:pdi-ce-7.0.0.0-25(解压命令:*.zip用unzip解压)3.MySQL服务器,版本:mysql5.7.37二.修改Kettle配置文件1.文件名称:/home/hadoop/software\data-integration\plugins\pentaho-big-data-plugin\plugin.properties2.修改参数:active.hadoop.configuration=hdp243.Ket

hdfs --daemon start datanode指令介绍

hdfs--daemonstartdatanode是Hadoop分布式文件系统(HDFS)命令之一,用于启动一个数据节点(Datanode)守护进程。在HDFS中,数据节点是存储HDFS数据块的物理节点。数据节点存储和管理数据块,并向客户端和其他数据节点提供读写操作。通过启动hdfs--daemonstartdatanode命令,可以启动一个数据节点守护进程,以便在HDFS集群中加入一个新的数据节点。运行hdfs--daemonstartdatanode命令时,必须确保HDFS环境已正确配置,并且当前用户具有足够的权限以启动HDFS守护进程。同时,需要注意在启动数据节点之前,必须先启动HDFS

Couldn‘t create proxy provider class org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverPro

问题1:Couldn’tcreateproxyproviderclassorg.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProhadoop处于ha高可用模式了需要将高可用环境下的hdfs-site.xml文件复制到idea的resource下,特别是其中的dfs.client.failover.proxy.provider.myclusterorg.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider问题2:Classorg.apache

一百零八、Kettle采集Kafka数据到HDFS(踩坑,亲测有效)

Kafka到HDFS,除了用KafkaAPI和flume之外,还可以用kettle,最大优点是不用写代码!版本:Kettle版本:8.2、Hadoop版本:3.1.3前提:  详情请看鄙人的一百零一、Kettle8.2.0连接Hive3.1.2(踩坑,亲测有效)http://t.csdn.cn/mWfOChttp://t.csdn.cn/mWfOC前提一、Hadoop系列配置文件已复制到kettle路径下   路径为:D:\java\kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop

HDFS常用命令操作时

1、创建目录创建单层目录执行命令:hdfsdfs-mkdir/ied利用HadoopWebUI查看创建的目录 创建多层目录,执行命令:hdfsdfs-mkdir/luzhou/lzy,会报错,因为/luzhou目录不存在 可以先创建/luzhou目录,然后在里面再创建lzy子目录,但是也可以一步到位,需要一个-p参数执行命令:hdfsdfs-mkdir-p/luzhou/lzy 利用HadoopWebUI查看创建的多层目录 2、查看目录执行命令:hdfsdfs-ls/,查看根目录  执行命令:hdfsdfs-ls/luzhou 查看根目录里全部的资源,要用到地柜参数-R(必须大写),执行命令:

HDFS常用命令操作时

1、创建目录创建单层目录执行命令:hdfsdfs-mkdir/ied利用HadoopWebUI查看创建的目录 创建多层目录,执行命令:hdfsdfs-mkdir/luzhou/lzy,会报错,因为/luzhou目录不存在 可以先创建/luzhou目录,然后在里面再创建lzy子目录,但是也可以一步到位,需要一个-p参数执行命令:hdfsdfs-mkdir-p/luzhou/lzy 利用HadoopWebUI查看创建的多层目录 2、查看目录执行命令:hdfsdfs-ls/,查看根目录  执行命令:hdfsdfs-ls/luzhou 查看根目录里全部的资源,要用到地柜参数-R(必须大写),执行命令:

本地上传文件到hadoop的hdfs文件系统里

引言:通过Java本地把windows里的文件资源上传到centOs环境下的hdfs文件系统里,中间遇到了很多问题,不过最终还是把文件上传到了hdfs里了环境:centos-7.0,hadoop.2.8.5.gz,jdk1.8,eclipse1、下载hadoop.2.8.5.tar.gz和jdk1.8的linux版本安装包,上传到linux的根目录下并配置环境变量,useraddhadoop一个用户,这点就不再详细说了,自己百度一下,随便把hadoop.tar.gz解压到一目录里,比如/opt/hadoop/hadoop.2.8.5,配置好以后可以看到版本。2、我们进入到/opt/hadoop

本地上传文件到hadoop的hdfs文件系统里

引言:通过Java本地把windows里的文件资源上传到centOs环境下的hdfs文件系统里,中间遇到了很多问题,不过最终还是把文件上传到了hdfs里了环境:centos-7.0,hadoop.2.8.5.gz,jdk1.8,eclipse1、下载hadoop.2.8.5.tar.gz和jdk1.8的linux版本安装包,上传到linux的根目录下并配置环境变量,useraddhadoop一个用户,这点就不再详细说了,自己百度一下,随便把hadoop.tar.gz解压到一目录里,比如/opt/hadoop/hadoop.2.8.5,配置好以后可以看到版本。2、我们进入到/opt/hadoop

HDFS文件系统创建目录和删除目录

查看文件系统的文件,执行:hdfsdfs-ls/文件路径2.创建目录,执行:hdfs-dfs-mkdir/文件名3.删除目录,执行:hdfs-rm-r/文件名

hadoop生态圈-- 个人笔记学习05 HDFS优化

DFSClient和DN在一个节点——localreads,远程阅读Remotereads。处理方式是一样的DN读数据通过RPC(TCP协议)把数据给DFSClient。DN在中间会做中转,处理简单但是性能收影响(Localread的情况下,会希望绕过DN直接读取Data,这就是短路短路本地读取DFSClient自行打开文件读取数据,需要配置白名单定义可读取数据的User——安全漏洞,不建议使用两个进程socket方式通讯,普通数据甚至是文件描述符传递给B,B读取文件内容({即使B没有权限)3.A为DN,B为DFSClient,读取文件安全性稍微好点负载平衡器Balancer让block放信息