文章目录准备工作安装Hive、MySQL和SqoopHive预操作启动MySQL、hadoop、hive创建临时表inner_user_log和inner_user_info使用Sqoop将数据从Hive导入MySQL启动hadoop集群、MySQL服务将前面生成的临时表数据从Hive导入到MySQL中查看MySQL中user_log或user_info表中的数据准备工作安装Hive、MySQL和SqoopHive预操作启动MySQL、hadoop、hive#启动MySQLservicemysqlstart#启动hadoopcd/usr/local/hadoop./sbin/start-all
Centos7安装配置一、安装安装就不多做详述,选择好自己的镜像设置好路径即可二、配置2.1网络配置桌面右键进入cmd命令编辑窗口,在Linux中设置网络的相关配置都需要管理员权限,需要先切换到root用户。vim/etc/sysconfig/network-scripts/ifcfg-ens33配静态IP地址的实例如下:BOOTPROTO="static"ONBOOT="yes"IPADDR=192.168.164.132NETMASK=255.255.255.0GATEWAY=192.168.164.2DNS1=8.8.8.8DNS2=144.144.144.144插入IP地址、掩码和网关
如下两种的表达效果是一样方法一:selecttm,count(tm)astimesfrom(selectcasewhensingle_times='1'then'one_time'whensingle_times='2'then'two_time'whensingle_times='3'then'three_time'whensingle_times='4'then'four_time'whensingle_times='5'then'five_time'else'more_five'endastmfrom(selectcount(userid)single_timesfromtestwher
如下两种的表达效果是一样方法一:selecttm,count(tm)astimesfrom(selectcasewhensingle_times='1'then'one_time'whensingle_times='2'then'two_time'whensingle_times='3'then'three_time'whensingle_times='4'then'four_time'whensingle_times='5'then'five_time'else'more_five'endastmfrom(selectcount(userid)single_timesfromtestwher
第1章环境准备1.1用户信息表1)表结构user_id(用户id)gender(性别)birthday(生日)101男1990-01-01102女1991-02-01103女1992-03-01104男1993-04-012)建表语句hive>DROPTABLEIFEXISTSuser_info;CREATEtableuser_info(user_idstringcomment'用户id',genderstringcomment'性别',birthdaystringcomment'生日')comment'用户信息表'rowformatdelimitedfieldsterminatedby'\t
思路,hive导入分区表,只能通过临时表导入。固建立临时表(不分区),导入数据到临时表,创建分区表,通过【insert分区表select临时表】导入分区表打开hue或者直接hive-----------------------------创建分区表-----------------------------外部表external以日期进行分区partitioned数据是以,切分的rowformat存储格式用parquet,压缩数据,比orc差,查询一致,但是插入快(数据是textfile格式,需要通过insertparquet格式的表select*textfile格式的表)CREATEexter
写这篇文章之前,先吐槽吐槽我的心情。这个bug真的是折磨了我整整3天啊。第一天安装hive的时候,遇到了bug,然后修了修,未果。第二、三。。。继续修,虽然每天可能就2h在搞这个bug,但也让我很头疼,hive安装不好,后面的HQL无法运行。我在三台虚拟机上反复安装了三遍,前面两台一直在寻找解决bug的方法,都没有结果。后面在第三台虚拟机上安装的时候,一道道命令测试是否成功。hive安装好了就试试hive,mysql安装好了就试试mysql。发现都没问题,那就是在Metastore上面,结果是Metastore未开启服务。参考了其他的博客文章,跟我的bug不匹配,大家如果发现我的bug跟大家不
这篇文章记录一下我之前做过的通过Spark与Hive实现的基于协调过滤的电影推荐。这篇文章只能提供算法、思路和过程记录,并没有完整的代码,仅尽量全面地记录过程细节方便参考。一、数据获取 数据集是从下面这个地址下载的,数据集主要内容是关于用户对电影的评分、评价等。免费数据集下载(很全面)_浅笑古今的博客-CSDN博客_数据集下载网站图1.1数据获取我选取的几个数据集表格如下:图1.2数据表格图1.3rating表图1.4movies表图1.5tags表图1.6genome-tags表图1.7genome-scores表‘ratings’表是关于用户对电影的评分24404096条‘movies’
目录 前言本题来源于全国职业技能大赛之大数据技术赛项工业数据处理赛题- 离线数据处理-指标计算注:由于个人设备问题,代码执行结果以及最后数据显示结果将不会给出。题目: 提示:以下是本篇文章正文内容,下面案例可供参考(使用Scala语言编写) 一、读题分析涉及组件:Hive涉及知识点:HiveSQL语法的使用...二、处理过程 本题给出两种参考方法一种是编写HiveSQL代码,另外一种是编写Scala代码使用spark处理框架去写,本质上差不多,调用的是SparkSQL。但需注意的是:本题两种代码,作者均为测试证实,仅供参考。 1.HiveSQL--在mysql端建表createt
静态分区与动态分区的区别:1、静态分区2、动态分区静态分区与动态分区的区别:静态分区是先把分区表创好,然后手动把数据导入到对应的分区里面去。静态分区实在编译期间指定分区名。静态分区支持load、insert两种插入方式。静态分区是用于分区少,分区名可以明确的数据。动态分区是有一份数据集(2015-2022年的),按照数据集的字段给动态的生成分区。动态分区实在SQL执行的时候确定的。动态分区前需打开:sethive.exec.dynamic.partition.mode=nonstrict;动态分区只能用insert方式。动态分区通过普通表选出的字段包含分区字段,分区字段放在最后,多个分区字段按