草庐IT

spark-hive

全部标签

windows - winutils spark windows 安装 env_variable

我正在尝试在Windows10上安装Spark1.6.1,到目前为止我已经完成了以下操作......下载spark1.6.1,解压到某个目录,然后设置SPARK_HOME下载scala2.11.8,解压到某个目录,然后设置SCALA_HOME设置_JAVA_OPTION环境变量从https://github.com/steveloughran/winutils.git下载了winutils只需下载zip目录,然后设置HADOOP_HOME环境变量。(不确定这是否不正确,因为权限被拒绝,我无法克隆该目录)。当我回到sparkhome并运行bin\spark-shell时,我得到了'C:\

Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)

下载安装配置spark:官网地址:https://archive.apache.org/dist/spark/上传spark-2.4.8-bin-hadoop2.7.tgz 解压tar-zxvfspark-2.4.8-bin-hadoop2.7.tgz-C/opt/moudel/重命名mvspark-2.4.8-bin-hadoop2.7spark-2.4.8配置环境变量vim/etc/profile#SPARK_HOMEexportSPARK_HOME=/opt/moudel/spark-2.4.8exportPATH=$PATH:$SPARK_HOME/bin执行source/etc/pr

windows - 带有 Hadoop 发行版的 Apache Spark 无法在 Windows 上运行

我尝试使用Cygwin在Windows上运行spark-1.5.1-bin-hadoop2.6发行版(以及具有相同结果的较新版本的Spark)。尝试在bin文件夹中执行spark-shell脚本时,我得到以下输出:错误:无法找到或加载主类org.apache.spark.launcher.Main我尝试将CLASSPATH设置为lib/spark-assembly-1.5.1-hadoop2.6.0.jar的位置,但无济于事。(仅供引用:我可以在我的MAC上运行相同的发行版,无需额外的设置步骤)请协助寻找在Windows上执行Cygwin的解决方案。 最佳答

python - 如何将 spark 与 python 或 jupyter 笔记本一起使用

我正在尝试在python中处理12GB的数据,我迫切需要使用Spark,但我想我太愚蠢了,不能自己使用命令行或使用互联网,这就是为什么我想我必须转向SO,所以到目前为止,我已经下载了spark并解压缩了tar文件或其他任何东西(对语言感到抱歉,但我觉得自己很愚蠢而且出局)但现在我无处可去。我在spark网站文档中看到了说明,上面写着:Spark还提供了一个PythonAPI。要在Python解释器中以交互方式运行Spark,请使用bin/pyspark但在哪里执行此操作?请帮忙。编辑:我正在使用Windows10注意::我在尝试安装某些东西时总是遇到问题,主要是因为我似乎无法理解命令提

windows - 为什么 Zeppelin 0.6.2 笔记本在 Windows 上使用 Spark 2.0 失败并显示 "The input line is too long"?

我在带有Spark2.0的Windows中运行Zeppelin0.6.2SPARK_HOME=C:\Users\anbarasu.r\Desktop\Archive\spark-2.0.0-bin-hadoop2.6JavaHotSpot(TM)64-BitServerVMwarning:ignoringoptionMaxPermSize=512m;supportwasremovedin8.0SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/C:/Users/anbarasu.r/De

小文件治理之hive文件合并:hive小文件合并的三种方法

文章目录前言一、concatenate方法二、insertoverwrite方法三、insertoverwriteselect*用法总结前言hive分区下,有很多小文件,例如一个分区有1000个文件,但每个文件大小是10k,数仓大量这种小文件。小文件太多,需要消耗hdfs存储资源,mr,spark计算的任务数。为了处理小文件,需要对它们进行合并。一、concatenate方法#对于非分区表altertabletablenameconcatenate;#对于分区表altertabletablenamepartition(dt=20201224)concatenate;优点:使用方便缺点:conc

docker搭建hadoop和hive集群

一、安装docker并生成相关的镜像(1)安装docker安装docker教程https://www.runoob.com/docker/centos-docker-install.html只要在终端输入:sudodockerrunhello-world后出现如下图的内容就证明安装docker成功了(2)拉取CentOS镜像(Ubuntu镜像也行)在终端输入:sudodockerpullcentos在终端输入:sudodockerimages,可以看到刚刚拉取的两个镜像每次执行docker语句都要在前面加sudo,比较麻烦,直接将hadoop用户加入docker用户组,就不用再输入sudo了。

Hive数据类型

Hive数据类型支持的类型原始数据类型各类型详解DATE类型整数类型小数、Boolean、二进制文本类型时间类型类型转换隐式转换显示转换(CAST函数)复杂数据类型详解ARRAY和MAPSTRUCTUNION实例支持的类型hive支持两种数据类型:原始数据类型、复杂数据类型原始数据类型原始数据类型包括数据型,布尔型,字符串型,具体如下表:类型描述示例TINYINT(tinyint)一个字节(8位)有符号整数,-128~1271SMALLINT(smallint)2字节(16位)有符号整数,-32768~327671INT(int)4字节(32位)有符号整数1BIGINT(bigint)8字节(

c# - 如何在 C# 中运行 Apache Spark 源代码

我想通过将sparkjava/scalaapi转换为dll文件来从C#运行apachespark源代码。我已经提到ikvm/ikvmc将sparkjar文件转换为dll文件,但无法获得正确的结果。有没有办法在C#中运行spark源?请指导我解决这个问题?ApacheSpark已经支持Java、Scala、R、Python语言运行spark。future是否会提供对C#的支持? 最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过Mobius获得。参见https://github.com/Microsoft/Mobiu

Spark搭建/Hadoop集群

一、Spark概述.Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了SparkSQL、SparkStreaming、GraphX、MLlib等组件。 图1-1