草庐IT

hive-hbase

全部标签

分布式数据库·Hive和MySQL的安装与配置

一、版本要求:Hadoop:hadoop-2.10.1、MySQL:mysql-8.0.35、HIVE:apache-hive-3.1.2、MySQL驱动:mysql-connector-java-5.1.49安装包网盘链接:阿里云盘分享安装位置 Hive:master、MySQL:slave1二、卸载已安装的MySQL(如果不符合需求)1.关闭MySQL服务systemctlstopmysqld2.Yum检查yumlistinstalled| grep mysql3.安装则直接删除yumremovemysqlmysql-servermysql-libscompat-mysqlyumremov

Hive 表 DML 操作——Hive 表 DML 操作——第1关:将文件中的数据导入(Load)到 Hive 表中

第1关:将文件中的数据导入(Load)到Hive表中任务描述本关任务:将文档中的数据导入到数据库的表中。相关知识之前系列实训中我们接触过导入本地文件到Hive表中,本关就进行导入的详细讲解。为了完成本关任务,你需要掌握:1.导入命令语法,2.如何将本地txt文件导入到分区表中。导入命令语法Load操作执行copy/move命令把数据文件copy/move到Hive表位于HDFS上的目录位置,并不会对数据内容执行格式检查或格式转换操作。Load命令语法为:LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename[PARTITION(

记录「 Hbase的数据迁移与bulkload流程与实践」

目录项目场景:数据迁移方案hbase和hadoop相关命令方案介绍DistCp分布式拷贝方案实施迁移过程中遇到的一些问题1.我在原集群先拷贝协处理器到目标新节点过程中出现了如下的情况,hdfs的map任务一直处于卡住状态,通过页面前两行看到hadoop集群没有资源,有3个节点处于不健康的状态2.因为准备的目标新节点磁盘远小于原集群,所以需要先将原集群数据进行合并major合并(大合并)大合并自动执行:默认7天来一次hbase.hregion.majorcompaction 默认7天3. HDFS问题,OperationcategoryREADisnotsupportedinstatestand

华为云耀云服务器L实例-大数据学习-Hive的部署-2

华为云耀云服务器L实例--Hive的部署-2产品官网:云耀云服务器L实例_【最新】_轻量云服务器_轻量服务器_轻量应用服务器-华为云今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,继续Hive的部署Hive 是建立在 Hadoop 上的一个数据仓库和查询系统。它提供了类似 SQL 的查询语言(称为 HiveQL)来查询和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据。Hive 的设计目标是使非技术用户能够通过类似于 SQL 的语言来查询和分析大规模数据集,而无需深入了解复杂的编程模型。以下是 Hive 的一些主要特点和概念

大数据 Hive - 实现SQL执行

文章目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce程序,成本也确实太高了。那么有没有更简单的办法,可以直接将SQL运行在大数据平台上呢?一项技术如果不能普及大多数人就不能真正地投入使用,这业务Hive出现

大数据开发之Hive(详细版,最后有实战训练)

第1章:Hive基本概念1.1Hive1.1.1Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。1.1.2hive简介Hive是基于hadoop的一个数据仓库工具,将结构化的数据文件映射成一张表,并提供类SQL(HQL)查询功能。1.1.3Hive本质:将HQL(hiveSQL)转化成MapReduce程序1、Hive处理的数据

Hive基础知识(九):Hive对数据库表的增删改查操作

1.创建表1)建表语法CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name#EXTERNAL:外部的[(col_namedata_type[COMMENTcol_comment],...)][COMMENTtable_comment][PARTITIONEDBY(col_namedata_type[COMMENTcol_comment],...)]#PARTITIONEDBY:分区表[CLUSTEREDBY(col_name,col_name,...)#CLUSTEREDBY:分桶表[SORTEDBY(col_name[ASC|DESC],...)]INTO

sqoop(DataX)-MySQL导入HIVE时间格问题

这里写自定义目录标题问题1:测试MySQL数据信息HIVE数据信息hive中用parquet(orc)列式文件格式存储解决方法问题2:解决方法问题1:用公司的大数据平台(DataX)导数,已经开发上线一个多月的一批报表,突然有同事说有个报表数据不准。出在时间字段上。分析:1、先看了原数据MySQL字段类型为datetime,目标字段为timestamp类型;2、经发现所有时间的差距都是8小时,怀疑是因为时区转换的原因;3、对比其他表,看看是大范围现象还是特殊情况,发现其他的同样情况字段的一样没有问题,也有改变为string字段类型的也没有问题;测试MySQL数据信息MySQL表名:testMy

二百一十九、Hive——HQL报错:Caused by: java.util.regex.PatternSyntaxException: Illegal repetition near index 1

一、目的在海豚调度HQL的脚本任务时报错,Causedby:java.util.regex.PatternSyntaxException:Illegalrepetitionnearindex1二、原本HiveSQLwitht1as(select    get_json_object(queue_json,'$.deviceNo') device_no,    get_json_object(queue_json,'$.createTime')create_time,    get_json_object(queue_json,'$.laneNum')  lane_num,    get_jso

使用Java操作HBase(增,删,改,查操作)

目录在这里我用的是idea操作的一、配置1.首先确保HBase集群已经开启2.配置hosts文件 3、创建maven项目,在pom.xml文件中添加如下依赖项4.配置log4j.properties文件二、连接增删改查1.连接测试类 2.创建表3.添加数据4.查询指定行键数据5.查询指定行键范围6.查询表的行数7.查询表中数据  8.查询已存在表9.删除指定行数据10.删除表在这里我用的是idea操作的一、配置1.首先确保HBase集群已经开启[root@hadoop~]#jps2761HQuorumPeer2137ResourceManager7114Jps2858HMaster1691Na