Hadoop

hive数据仓库--Hive介绍

1什么是HiveHive是基于Hadoop的⼀个数据仓库⼯具，⽤来进⾏数据提取、转化、加载，这是⼀种可以存储、查询和分析存储在Hadoop中的⼤规模数据的机制。Hive数据仓库⼯具能将结构化的数据⽂件映射为⼀张数据库表，并提供类SQL的查询功能，能将SQL语句转变成MapReduce任务来执⾏。它是由Facebook开发，⽤于解决海量结构化⽇志的数据统计⼯具。2Hive的本质Hive通过HQL语⾔进⾏数据查询，本质上是将HQL语句转化为MapReduce任务。下图展示HQL的查询过程。Hive中的数据存储在HDFS上Hive分析数据是通过MapReduce实现的Hive是运⾏在Yarn上的所以

外网SSH远程连接linux服务器，看这一篇就够了

文章目录视频教程1.LinuxCentOS安装cpolar2.创建TCP隧道3.随机地址公网远程连接4.固定TCP地址5.使用固定公网TCP地址SSH远程转载自内网穿透工具的文章：无公网IP，SSH远程连接LinuxCentOS服务器【内网穿透】本次教程我们来实现如何在外公网环境下，SSH远程连接家里/公司的LinuxCentOS服务器，无需公网IP，也不需要设置路由器。视频教程公网SSH远程LinuxCentOS服务器【内网穿透】1.LinuxCentOS安装cpolarcpolar官网：https://www.cpolar.com/cpolar支持一键自动安装脚本cpolar安装（国内使用

linux SSH 公网 xff0c xff 服务器 hadoop storm

windows - win7 pyspark sql 实用程序 IllegalArgumentException

我正在尝试在pycharm上运行pyspark。我已经连接了所有东西并设置了环境变量。我可以读取sc.textFile，但是当我尝试从pyspark.sql读取csv文件时，出现了错误。代码如下:importosimportsysfrompysparkimportSparkContextfrompysparkimportSparkConffrompyspark.sqlimportSQLContextfrompyspark.sqlimportSparkSession#Pathforsparksourcefolderos.environ['SPARK_HOME']="E:/spark-2.

IllegalArgumentException windows spark bin-hadoop hadoop apache-spark pyspark pyspark-sql

Linux下安装VMware-Tools

Linux系统版本：Ubuntu18我是根据这篇博客https://blog.csdn.net/blessed_sy/article/details/81173746做的，然后自己实践了一下，写一下安装好Linux系统之后就可以安装vmware-tools了点击下方的提示或者点击这里虚拟机名称之后右键，点击安装VMware-Tools系统桌面会出现一个文件点进去之后有一个压缩包，压缩包的后缀是tar.gz,将压缩包复制到桌面，在桌面上选择此文件之后右键选择提取到此处。之后用Ctrl+Alt+t打开终端，打开终端之后用root账户登录，输入的命令是：sudosu，之后按照提示输入密码切换到桌面的

VMware-Tools VMware xff0c xff img linux 运维 ubuntu hadoop

MapReduce概述及工作流程

内容mapreduce原语（独创）mapreduce工作流程（重点）MR作业提交流程（重点）YARNRM-HA搭建（熟练）运行自带的wordcount（了解）动手写wordcount（熟练）MapReduce原语hadoopMapReduce框架可以让你的应用在集群中可靠地容错地并行处理TB级别的数据1024TB=1PB 1024PB=1EB 1024EB=1ZBMapReduce原语 “相同”key的键值对为一组调用一次reduce方法，方法内迭代这一组数据进行计算分组比较器YARN:资源管理框架 ResourceManager：一个主 NodeManager

工作流程概述 margin-left text-align style mapreduce hadoop 大数据

安装和配置HBase

一、下载阿里云镜像下载比较快。https://mirrors.aliyun.com/apache/hbase/2.4.12/二、安装1、解压解压安装包hbase-2.4.12-bin.tar.gz至路径/usr/local2、把hbase目录权限赋予给hadoop用户3、配置环境变量将hbase下的bin目录添加到path中，这样，启动hbase就无需到/usr/local/hbase目录下，大大的方便了hbase的使用。教程下面的部分还是切换到了/usr/local/hbase目录操作，有助于初学者理解运行过程，熟练之后可以不必切换。编辑~/.bashrc文件命令：vim~/.bashrc4

HBase 安装 xff xff0c hadoop big data

Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)

下载安装配置spark:官网地址：https://archive.apache.org/dist/spark/上传spark-2.4.8-bin-hadoop2.7.tgz 解压tar-zxvfspark-2.4.8-bin-hadoop2.7.tgz-C/opt/moudel/重命名mvspark-2.4.8-bin-hadoop2.7spark-2.4.8配置环境变量vim/etc/profile#SPARK_HOMEexportSPARK_HOME=/opt/moudel/spark-2.4.8exportPATH=$PATH:$SPARK_HOME/bin执行source/etc/pr

详解 bin-hadoop spark br 大数据 hadoop

windows - 带有 Hadoop 发行版的 Apache Spark 无法在 Windows 上运行

我尝试使用Cygwin在Windows上运行spark-1.5.1-bin-hadoop2.6发行版(以及具有相同结果的较新版本的Spark)。尝试在bin文件夹中执行spark-shell脚本时，我得到以下输出:错误:无法找到或加载主类org.apache.spark.launcher.Main我尝试将CLASSPATH设置为lib/spark-assembly-1.5.1-hadoop2.6.0.jar的位置，但无济于事。(仅供引用:我可以在我的MAC上运行相同的发行版，无需额外的设置步骤)请协助寻找在Windows上执行Cygwin的解决方案。最佳答

windows section spark apache-spark cygwin

五万字，57道hadoop大厂高频面试题，每一字都细心打磨，强烈建议收藏！

博主闭关两个多月，查阅了数百万字的大数据资料，结合自身的学习和工作经历，总结了大厂高频面试题，里面涵盖几乎所有我见到的大数据面试题目。《大厂高频面试题系列》目前已总结4篇文章，且在持续更新中✍。文中用最直白的语言解释了Hadoop、Hive、Kafka、Flume、Spark等大数据技术和原理，细节也总结的很到位，是不可多得的大数据面试宝典，强烈建议收藏，祝大家都能拿到心仪的大厂offer🏆。下面是相关的系列文章：Kafka：40道Kafka大厂高频面试题Hive：31道Hive大厂高频面试题Flume：15道Flume大厂高频面试题文章目录1.简述hadoop1与hadoop2的架构异同2.

一字打磨 xff xff0c xff0 hadoop big data 大数据面试

docker搭建hadoop和hive集群

一、安装docker并生成相关的镜像（1）安装docker安装docker教程https://www.runoob.com/docker/centos-docker-install.html只要在终端输入：sudodockerrunhello-world后出现如下图的内容就证明安装docker成功了（2）拉取CentOS镜像（Ubuntu镜像也行）在终端输入：sudodockerpullcentos在终端输入：sudodockerimages，可以看到刚刚拉取的两个镜像每次执行docker语句都要在前面加sudo，比较麻烦，直接将hadoop用户加入docker用户组，就不用再输入sudo了。

docker hadoop style xff section

1 2 345 6 7