草庐IT

clickhouse-HDFS

全部标签

云计算系列(2)初识HDFS与MapReduce

云计算系列(2)初始HDFS与MapReduce前言上节课主要是完成了Hadoop的安装,这次主要完成以下内容配置HDFSweb端查看HDFS文件系统配置yarnweb端查看yarn系统配置mapreduce运行MapReduce的WordCount程序上次课完成到如下图的状态还需要改善一下,就是我们在root用户下解压安装他的拥有者是数字不是root通过chown命令更改一下拥有者chown-Rroot:root/opt/wdp运行一下hadoop命令有如下提示说明hadoop可以用Hadoop运行模式(1)本地模式(默认模式):是否启动进程----没有,在几台机器上安装的—1台,不需要启用

Sqoop数据导入 第2关:Mysql导入数据至HDFS上

为了完成本关任务,你需要掌握:1、数据库(MySQL)建表。2、Mysql数据导入至HDFS中。数据库(MySQL)建表用命令进入MySQL客户端。mysql-uroot-p123123-h127.0.0.1创建数据库hdfsdb(格式默认为utf8),并在数据库内建立表student,其表结构如下:mysql>createdatabasehdfsdb;createtablestudent(stu_nointprimarykey,stu_namevarchar(20),stu_ageint);insertintostudentvalues(202001,"zhangsan",18);inser

HDFS Java API操作(IDEA版)

目标通过JavaAPI来操作HDFS,完成的操作有:文件上传、文件下载、新建文件夹、查看文件、删除文件。前提条件1.Windows下安装好jdk1.82.Windows下安装好maven,这里使用Maven3.6.33.Windows下安装好IDEA,这里使用IDEA20214.Linux下安装好hadoop2,这里使用hadoop2.7.3操作步骤1.新建一个Maven工程打开IDEA-->File-->New-->Project选择Maven-->点击Next 选择工程代码存放目录,这个目录需要为一个空目录,目录名称就是工程名称,可以点击ArtifactCoordinates左侧的三角形展

HDFS常用的操作命令

一、显示目录信息(-ls)hadoop fs -ls /二、在hdfs上创建目录(-mkdir)普通创建:hadoop fs -mkdir /xiaolin递归创建:hadoop fs -mkdir -p /xiaolin/xiaoyin三、从本地剪切文件粘贴到hdfs上(-moveFromLocal)mkdirxuan.txthadoop fs -moveFromLocal xuan.txt /xiaolin四、把本地文件复制到hdfs上(-copyFromLocal或者-put)hadoop fs -copyFromLocal xuan.txt /hadoop fs -put xuan.t

hadoop源码解析-HDFS通讯协议(上- ClientProtocol 和 ClientDataNodeProtocol)

HDFS通讯协议及主要流程HDFS的通讯协议HDFS架构HDFS架构HDFS基本概念HDFS通讯协议HDFSRPC接口HDFS的通讯协议HDFS架构HDFS(Hadoop分布式文件系统)是ApacheHadoopCore项目的一部分,被设计为可运行在通用硬件上、能处理超大文件的分布式文件系统,其具有高容错、高吞吐、易扩展、高可靠等特性。HDFS架构HDFS是一个主/从体系结构的分布式系统,在HDFS集群中,有一个NameNode和一组DataNode,用户可以通过HDFS客户端同NameNode和DataNode交互访问数据。其中NameNode是主,DataNode是从。NameNode负责

java - 从 HDFS 读取一个简单的 Avro 文件

我正在尝试简单读取存储在HDFS中的Avro文件。当它在本地文件系统上时,我发现了如何读取它....FileReaderreader=DataFileReader.openReader(newFile(filename),newGenericDatumReader());for(GenericRecorddatum:fileReader){Stringvalue=datum.get(1).toString();System.out.println("value="value);}reader.close();但是,我的文件在HDFS中。我无法为openReader提供路径或FSData

Hadoop、HDFS、Hive、Hbase之间的关系

Hadoop:是一个分布式计算的开源框架HDFS:是Hadoop的三大核心组件之一Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等Hive与HBase的区别与联系1、区别Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive

大数据小白初探HDFS从零到入门(一)

目录1.前言2.大数据的诞生3.发展趋势及应用4.离线计算和实时计算5.大数据的特性1.前言    前两天把Hbase的初级入门知识整理了下,在文章中提到了“HDFS”这个大数据的基础,有同事小伙伴想要了解下这方面的知识,今天我把之前整理的内容也给同事讲了下,顺便我把他又整理了下放了出来给大家,希望对大数据概念这块一知半解的小伙伴,能够对大数据整体这块有一个清晰的认识,好了废话不多说,进入正题。2.大数据的诞生   对于大数据这块的概念,有很多官方的定义,不过理解上来说,每个人都有不通的理解,我就先说下我的理解,说这个之前我们先说下之前的情况,在大数据诞生之前,我们是如何处理各种情况的,按照场

Vector + ClickHouse 收集日志

目前业界的日志生态,最常用的是ELK,其次就是ClickHouse,本文会演示如何使用Vector+ClickHouse来采集Nginx日志并做清洗,最终写入ClickHouse。至于日志的可视化,后面再单独介绍,后面夜莺会把日志可视化能力下放到开源版本,之前跟映客的兄弟们交流准备一起搞,可惜迟迟没有抽出时间。别急,会有的,本文先把前半段完成,即日志的收集+传输+清洗+存储。存储显然是ClickHouse,前面三个环节,使用Vector来完成。之前有一篇文章对Vector做过简单介绍,大家可以参考:《可观测性数据收集集大成者:Vector》。配置Nginxlog我们可以直接采集默认的Nginx

数据库不应放在容器中?- B站Kubernetes有状态服务实践(Elasticsearch/Clickhouse)

本期作者前言云原生时代下,Kubernetes已成为容器技术的事实标准, 使得基础设施领域应用下自动化运维管理与编排成为可能。对于无状态服务而言, 业界早已落地数套成熟且较完美的解决方案。可对于有状态的服务, 方案的复杂度就以几何倍数增长, 例如分布式应用多个实例间的依赖关系(主从/主备),数据库应用的实例依赖本地盘中存储的数据(实例被干掉, 丢失实例与本地盘中数据的关联关系也会导致实例重建失败)。多种原因导致有状态的应用一度成为了容器技术圈子的禁忌话题, 直到目前, 有状态的服务是否适合放置在容器中并交由K8s编排托管(例如生产环境的数据库)的话题依然争论不止。本文基于Elasticsear