草庐IT

hive-overwrite

全部标签

FlinkSQL消费Kafka写入Hive表

环境版本:hadoop-3.1.0hive-3.1.2flink-1.13.2一、开发Maven引入依赖项:org.apache.flinkflink-java${flink.version}org.apache.flinkflink-streaming-java_${scala.binary.version}${flink.version}org.apache.flinkflink-table-planner-blink_${scala.binary.version}${flink.version}org.apache.flinkflink-table-api-java-bridge_2.1

FlinkSQL消费Kafka写入Hive表

环境版本:hadoop-3.1.0hive-3.1.2flink-1.13.2一、开发Maven引入依赖项:org.apache.flinkflink-java${flink.version}org.apache.flinkflink-streaming-java_${scala.binary.version}${flink.version}org.apache.flinkflink-table-planner-blink_${scala.binary.version}${flink.version}org.apache.flinkflink-table-api-java-bridge_2.1

使用DataX实现mysql与hive数据互相导入导出

一、概论1.1什么是DataX        DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。1.2DataX的设计        为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。1.3框架设计Reader:数据采集模块,负责采集数据源的数据,将数据发给Frame

Hive数据仓库

数据仓库概念与起源发展由来数仓概念数据仓库(英语:DataWarehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面相分析的集成化数据环境,分析结果为企业提供决策支持(DecisionSupport)。数仓专注分析数据仓库本身并不“产生”任何数据,其数据来源不同外部系统;同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用;这也是为什么叫“仓库”,而不叫“工厂”的原因。数据仓库面世当分析所涉及数据规模较小时,在业务低峰期可以在OLTP系统上开展直接分析。但为了更好的进行各种规模的数据分析,同时也不影响OLTP系统运行,此时需要构建一个

【Hive实战】Hive的压缩池与锁

文章目录Hive的压缩池池的分配策略自动分配手动分配隐式分配池的等待超时Labeledworkerpools标记的工作线程(自定义线程池)Defaultpool默认池Workerallocation工作线程的分配锁TurnOffConcurrencyDebuggingConfigurationhive.support.concurrencyhive.lock.managerhive.lock.mapred.only.operationhive.lock.query.string.max.lengthhive.lock.numretrieshive.unlock.numretrieshive.l

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

目录一、集群部署规划二、部署前准备1、安装JDK(五台)1.1在hadoop101的/opt目录下创建module1.2上传oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安装1.3分发2、安装MySQL2.1安装包准备2.2安装MySQL服务器2.3安装MySQL客户端2.4MySQL中user表中主机配置3、CM安装部署3.1MySQL中建库3.2CM安装4、CM的集群部署4.1ClouderaManagerweb地址4.2接受条款和协议4.3集群安装4.4指定主机4.5选择CDH版本6.3.24.6等待下载安装4.7检查网络性能,检查主机4.8群

Hadoop集成Hive

一、环境与软件准备说明:服务器已用主机名代替,可根据自己的需求,改为IP地址环境服务器组件masterNameNode、DataNode、Nodemanager、ResourceManager、Hive、Hive的metastore、Hive的hiveserver2、mysqlSecondarySecondaryNameNode、DataNode、NodeManagerDatanodeDataNode、NodeManager、Hive的beeline访问方式1、java版本1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloa

hive的数据导入

1数据导入1.1向表中装载数据(Load)1)语法hive>loaddata[local]inpath'数据的path'[overwrite]intotabletable_name[partition(partcol1=val1,…)];(1)loaddata:表示加载数据。(2)local:表示从本地加载数据到Hive表;否则从HDFS加载数据到Hive表。(3)inpath:表示加载数据的路径。(4)overwrite:表示覆盖表中已有数据,否则表示追加。(5)intotable:表示加载到哪张表。(6)student:表示具体的表。(7)partition:表示上传到指定分区。2)实操案

hive报错信息不明确的情况汇总

hive报错信息不明确的情况汇总code1code[2]exit(2)code1MoveTaskEnsurecalledonanunitializedcode1Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask.Exceptionwhenloading1intableuniaction1withloadPath=*********************************这种报错可能出现在insertselect中,

spark-sql: insert overwrite分区表问题

1.问题背景用spark-sql,insertoverwrite分区表时发现两个比较麻烦的问题:从目标表select出来再insertoverwrite目标表时报错:Errorinquery:Cannotoverwriteapaththatisalsobeingreadfrom.从其他表select出来再insertoverwrite目标表时,其他分区都被删除了.2.问题描述2.1代码示例droptablept_table_test1;createtablept_table_test1(idint,regionstring,dtstring)usingparquetpartitionedby(