草庐IT

spark-hive

全部标签

分布式数据库·Hive和MySQL的安装与配置

一、版本要求:Hadoop:hadoop-2.10.1、MySQL:mysql-8.0.35、HIVE:apache-hive-3.1.2、MySQL驱动:mysql-connector-java-5.1.49安装包网盘链接:阿里云盘分享安装位置 Hive:master、MySQL:slave1二、卸载已安装的MySQL(如果不符合需求)1.关闭MySQL服务systemctlstopmysqld2.Yum检查yumlistinstalled| grep mysql3.安装则直接删除yumremovemysqlmysql-servermysql-libscompat-mysqlyumremov

Hive 表 DML 操作——Hive 表 DML 操作——第1关:将文件中的数据导入(Load)到 Hive 表中

第1关:将文件中的数据导入(Load)到Hive表中任务描述本关任务:将文档中的数据导入到数据库的表中。相关知识之前系列实训中我们接触过导入本地文件到Hive表中,本关就进行导入的详细讲解。为了完成本关任务,你需要掌握:1.导入命令语法,2.如何将本地txt文件导入到分区表中。导入命令语法Load操作执行copy/move命令把数据文件copy/move到Hive表位于HDFS上的目录位置,并不会对数据内容执行格式检查或格式转换操作。Load命令语法为:LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename[PARTITION(

Spark Local环境部署

目录1:规划:1:想法:      2: 版本2:spark配置文件部署1:上传Spark安装包到/export下面2:解压下载的Spark安装包并且改名3:spark部署环境变量1: /etc/profile环境2:/root/.bashrc4:测试 1:bin/pyspark    1:进入pyspark环境2:代码测试   ​编辑3:web页面访问master:4040,​编辑2:./spark-shell 1:进入./spark-shell环境2:代码测试3:web访问master:40403:bin/spark-submit(PI)1:作用2:语法3:web访问(master:404

Spark概述

Spark概述Spark是什么ApacheSpark是一个快速的,多用途的集群计算系统,相对于HadoopMapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行运算Spark只是一个计算框架,不像Hadoop一样包含了分布式文件系统和完备的调度系统,如果要使用Spark,需要搭载其它的文件系统和更成熟的调度系统Spark特点速度快Spark的在内存时的运行速度是HadoopMapReduce的100倍基于硬盘的运算速度大概是HadoopMapReduce的10倍Spark实现了一种叫做RDDs的DAG执行引擎,其数据缓存在内存中可以进行迭

华为云耀云服务器L实例-大数据学习-Hive的部署-2

华为云耀云服务器L实例--Hive的部署-2产品官网:云耀云服务器L实例_【最新】_轻量云服务器_轻量服务器_轻量应用服务器-华为云今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,继续Hive的部署Hive 是建立在 Hadoop 上的一个数据仓库和查询系统。它提供了类似 SQL 的查询语言(称为 HiveQL)来查询和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据。Hive 的设计目标是使非技术用户能够通过类似于 SQL 的语言来查询和分析大规模数据集,而无需深入了解复杂的编程模型。以下是 Hive 的一些主要特点和概念

大数据 Hive - 实现SQL执行

文章目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce程序,成本也确实太高了。那么有没有更简单的办法,可以直接将SQL运行在大数据平台上呢?一项技术如果不能普及大多数人就不能真正地投入使用,这业务Hive出现

Linux系统下Spark的下载与安装(pyspark运行示例)

最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark1、版本要求由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本Spark和Hadoop版本对应关系如下:Spark版本Hadoop版本2.4.x2.7.x3.0.x3.2.x可进入终端查看Hadoop版本hadoopversion我这里的版本是2.7.1,因此选择下载2.4版本的sparkSpark历史版本下载地址:Indexof/dist/spark  找到适合自己的版本进行下载,这里我选择带有Hadoopscala的版本进行下载2、Spark安装Spark部署模式主要有四种:Local模式(单机模

Spark搭建

Spark搭建(三种模式)Local模式主要用于本地开发测试本文档主要介绍如何在IDEA中配置Spark开发环境打开IDEA,创建Maven项目在IDEA设置中安装Scala插件在pom.xml文件中添加Scala依赖dependency>groupId>org.scala-langgroupId>artifactId>scala-libraryartifactId>version>2.12.10version>dependency>dependency>groupId>org.scala-langgroupId>artifactId>scala-compilerartifactId>vers

大数据开发之Hive(详细版,最后有实战训练)

第1章:Hive基本概念1.1Hive1.1.1Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。1.1.2hive简介Hive是基于hadoop的一个数据仓库工具,将结构化的数据文件映射成一张表,并提供类SQL(HQL)查询功能。1.1.3Hive本质:将HQL(hiveSQL)转化成MapReduce程序1、Hive处理的数据

给ChuanhuChatGPT 配上讯飞星火spark大模型V2.0(一)

ChuanhuChatGPT拥有多端、比较好看的Gradio界面,开发比较完整;刚好讯飞星火非常大气,免费可以领取大概20w(!!!)的token,这波必须不亏,整上。重要参考:川虎Chat🐯ChuanhuChat讯飞星火认知大模型文章目录1讯飞星火大模型1.1webapi申请1.2webapi调用1.3webapi的参数1.4一些报错2川虎Chat🐯ChuanhuChat2.1川虎Chatdocker部署2.2常规本地部署2.3config.json详解2.4页面基础配置项:presets.py1讯飞星火大模型1.1webapi申请基本上实名认证后,可以申请个人免费包,然后来到控制台开启应用