草庐IT

spark-hive

全部标签

Hive04_DDL操作

HiveDDL操作1DDL数据定义1.1创建数据库CREATEDATABASE[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATIONhdfs_path][WITHDBPROPERTIES(property_name=property_value,...)];[IFNOTEXISTS]:判断是否存在[COMMENTdatabase_comment]:注释[LOCATIONhdfs_path]:指定数据库的创建位置1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive(de

主节点连接hiveserver2报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:

错误:Error:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://hadoop01:10000:java.net.ConnectException:拒绝连接(state=08S01,code=0) 先进入hive的安装路径通过bin/hiveserver2启动hive2servicemysqlstart启动mysql服务然后再打开一个新的终端,进去到hive的安装路径输入命令:bin/beeline连接hive2报错信息如图所示: 原因:hadoop集群没有启动,或者防火墙,selinux没关,集群处于安全模式解决方法:关闭防火墙seli

Spark相关知识点(期末复习集锦)

嗨喽,最近小伙伴们快要期末考试了吧,下面是我对《Spark零基础实战》的总结,希望能帮助到你们。一、Spark简介Spark,拥有hadoopMR所具有的优点,但不同于MR的是job中监测结果可以保存在内存中,从而不再需要读写HDFS,因此spark能够更好的适用于数据挖掘与机器学习等需要迭代的mr的算法。1.Spark,使用scala语言实现,这是一种面向对象函数式编程语言,能够像操作本地集合对象一样轻松的操作分布式数据集Spark,适用于多种分布式平台,如批处理,迭代算法,交互式查询流处理等Spark,提供了丰富的接口,除了基于scalapythonJava和SQL等API外还内建了丰富的

Spark-05:Spark 共享变量

目录1.广播变量(broadcastvariables)2.累加器(accumulators)   在分布式计算中,当在集群的多个节点上并行运行函数时,默认情况下,每个任务都会获得函数中使用到的变量的一个副本。如果变量很大,这会导致网络传输占用大量带宽,并且在每个节点上都占用大量内存空间。为了解决这个问题,Spark引入了共享变量的概念。        共享变量允许在多个任务之间共享数据,而不是为每个任务分别复制一份变量。这样可以显著降低网络传输的开销和内存占用。Spark提供了两种类型的共享变量:广播变量(broadcastvariables)和累加器(accumulators)。1.广播变

spark读sqlserver出现的异常

前言Spark通过JDBC读取数据之前很早写过一篇博客,本以为所有通过jdbc读取的方式都一样,谁知道这次读sqlserver的时候竟然出现的很多异常,这里把异常的问题进行记录。测试代码importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;publicclassTest{publicstaticvoidmain(String[]args){SparkSessionspark=SparkSession.builder().appName("

Spark

1.请解释Spark的工作原理。Spark是一种通用的大数据计算框架,其设计目标是提供快速、通用和易于使用的数据处理平台。在核心上,Spark是基于内存计算的,这使得它比基于磁盘计算的HadoopMapReduce更快。Spark的基本工作原理可以分为以下几个方面:分布式数据集:Spark将数据分成多个分区,每个分区都运行在一个Executor上,这样可以实现数据的并行处理。弹性:如果某个任务失败,Spark会尝试重新执行该任务,而不是从头开始。这种机制使得Spark具有很好的容错性。迭代式处理:与传统的批处理不同,Spark支持迭代式处理,这意味着它可以多次处理数据,直到满足用户的要求。容错

Hive

一、Hive1.1Hive作用及优缺点1、前端采集数据2、然后对数据进行预处理,将其变为结构化数据。MR和Spark可以做3、拿到海量数据,对于海量数据的分析,SQL可以多维度查询,但对海量数据没办法; MR可以做分析,但可惜没有丰富的查询能力,于是Hive诞生,它提供SQl语句,然后拿到客户端的Sql语句进行解析转为MR程序,输出结果。 MySQl中记录着元数据信息:表的位置信息和表结构信息 Hdfs记录着:原数据信息和分析结果数据1、什么是hive? Hive是用于解决海量结构化数据分析的一种数仓工具。 本质是将sql语句解析成MR程序,并计算出结果。 hive是一个工具,不是数据库,

惊!-hive on spark(hive任务)任务慢---竟然有这些原因!

项目场景:项目组中有很多hiveonspark任务,每个小时调度一次。要求每次调度任务执行不能超过一个小时,只要超过一个小时就会影响下一个任务调度!问题描述问题嘛:自然是调度,任务执行超过了一个小时,还很多,中台没有报错,任务能执行完但是很慢,性能很差!如图所示:从图中我们可以看出实际正常情况下任务执行是30分钟左右,不正常的很多超过了1个小时,但这个是业务不能容忍的。接下来,跟着我troubleshooting吧!go!原因分析:1.找出哪些hive-sql脚本的流程跑的慢。test1_bms2023-07-2210:05:292023-07-2210:45:10成功40分钟查看test2_

Hive之函数篇(使用函数看这篇足够了)

目录查询函数相关信息:(1)查看系统所有的内置函数(2)查看string相关的所有函数(3)查询某个函数的详细信息单行函数:(1)算数运算函数:(2)数值函数:(3)字符串函数: (4)日期函数:(年月日)(5)流程控制函数(6)集合函数:(7)高级聚合函数炸裂函数:(一)explode:(炸裂函数---最常用)(二)posexplode:(三)inline函数: (四)LateralView: 窗口函数:语法-----窗口----基于行语法-----窗口----基于值:语法-----窗口----分区: 语法-----窗口----缺省: 窗口函数--跨行取值函数:(一)lead和lag: (二

【大数据之Hive】十二、Hive-HQL查询之分组、join、排序

一、分组1groupby语句  groupby通常和聚合函数一起使用,按照一个或多个列的结果进行分组,任何对每个租执行聚合操作。  用groupby时,select中只能用在groupby中的字段和聚合函数。--计算emp每个部门中每个岗位的最高薪水:selectt.deptnum,t.job,max(t.sal)max_salfromemptgroupbyt.deptnum,t.job;hivesql执行过程:2having语句having对分组聚合后的组进行过滤,针对一组数据。having和where不同点:(1)where后不能用分组聚合函数,having可以。(2)having只用于g