草庐IT

windows10搭建spark本地开发环境

Idea King 2023-08-06 原文

windows10搭建spark本地开发环境

1. spark概述

注意:Spark3.0、Spark3.1是由Scala2.12预编译,但是Spark 3.2+是采用Scala 2.13预编译。

2. 安装spark

2.1 Windows10 安装Spark本地开发环境

2.1.1 版本说明

  • JDK 1.8
  • Scala 2.12.x,具体版本为2.12.17
  • Hadoop 3.2.2
  • IntelliJ IDEA 2019.3.3 (Ultimate Edition)
  • Spark 3.0.2

Spark版本和Hadoop的版本关系并没有明确的限制,但是Spark官方已经预编译好了几个版本的spark包,我们可以直接下载使用,如果预编译好的spark包中没有合适,则需要自己来通过spark的源码进行编译了。

Spark 3.0.2的官方下载地址:https://archive.apache.org/dist/spark/spark-3.0.2/

当下载spark-3.0.2时发现,有如下几种spark包:

  • SparkR_3.0.2.tar.gz:SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。包括SparkR 的交互式命令行窗口。
  • pyspark-3.0.2.tar.gz:PySpark简单来说就是Spark提供的Python编程API,包括交互式的PySpark shell和非交互式的Python程序。参考:https://blog.csdn.net/qq_40856560/article/details/116027896
  • spark-3.0.2-bin-hadoop2.7-hive1.2.tgz: 预编译好的支持Hadoop 2.7.x,Hive 1.2.x的spark 3.0.2的包
  • spark-3.0.2-bin-hadoop2.7.tgz: 预编译好的支持Hadoop 2.7.x 的spark 3.0.2的包
  • spark-3.0.2-bin-hadoop3.2.tgz: 预编译好的支持Hadoop 3.2.x 的spark 3.0.2的包
  • spark-3.0.2-bin-without-hadoop.tgz: spark中没有关联Hadoop的包,当运行此版本的spark时,需要用户手动将spark和hadoop关联上,参考:https://blog.csdn.net/yoshubom/article/details/104598483
  • spark-3.0.2.tgz: spark源码包,可以根据需要自己编译出指定Hadoop版本,Hive版本的spark包

2.1.2 环境准备

2.1.2.1 JDK 安装和配置

2.1.2.1.1 JDK下载

JDK下载地址:https://www.oracle.com/java/technologies/downloads/

目前最新的稳定版为JDK 17

但是,我们要下载JDK8。单击页面中的Java archive

单击Java SE 8,进入JDK 8 下载页面。

单击下载jdk-8u271-windows-x64.exe

2.1.2.1.2 JDK安装

双击jdk-8u271-windows-x64.exe进行JDK8的安装。

2.1.2.1.3 JDK配置

在系统环境变量中添加JAVA_HOME,并将JAVA_HOME添加到系统环境变量的Path中。

增加 JAVA_HOME:D:\services\Java\jdk1.8.0_261

Path中新增:%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

CLASSPATH中新增:%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

验证JDK是否安装正确了

说明JDK已经安装好了。

2.1.2.2 Scala 安装和配置

Scala官网

2.1.2.2.1Scala下载

Scala下载地址:https://www.scala-lang.org/download/all.html

下载scala-2.12.17.zip,,然后在手动配置系统环境变量即可。当然也可以下载scala 2.12.17.msi,然后根据提示进行安装


2.1.2.2.2 Scala安装

解压scala-2.12.17.zipD:\services\scala-2.12.17

2.1.2.2.3 Scala配置

在系统环境变量中添加SCALA_HOME,并将SCALA_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

进入环境变量

新建SCALA_HOME环境变量

SCALA_HOME 添加到系统环境变量Path中


验证下scala是否安装和配置正确了

上图说明scala安装好了。

2.1.2.3 Hadoop 安装和配置

2.1.2.3.1 Hadoop下载

浏览器打开https://hadoop.apache.org/releases.html 页面,点击图中的连接(https://archive.apache.org/dist/hadoop/common),跳转到历史版本的hadoop的下载页面。

找到hadoop-3.2.2,点击进入。

可以看到,有好几种hadoop的tar包。

  • hadoop-3.2.2-rat.txt:
  • hadoop-3.2.2-site.tar.gz:
  • hadoop-3.2.2-src.tar.gz:
  • hadoop-3.2.2.tar.gz:

这里选择下载hadoop-3.2.2.tar.gz,但是从官网下载十分慢,所以在华为云镜像网站进行下载,网址如下:https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.2.2/

下载完毕。

2.1.2.3.2 Hadoop安装

解压Hadoop安装包,解压到D:\services\

2.1.2.3.3 Hadoop配置

在系统环境变量中添加HADOOP_HOME,并将HADOOP_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

进入环境变量

新建HADOOP_HOME环境变量

HADOOP_HOME 添加到系统环境变量Path中



验证Hadoop的环境变量是否配置好了。

执行hadoop version命令是正常的。

2.1.2.4 Spark 安装和配置

2.1.2.4.1 Spark下载

Spark官方网站下载地址

注意:Spark 3是由Scala 2.12构建的,Spark 3.2+是由Scala 2.13构建的,在安装Spark时需要安装对应版本的Scala。

由于当前Spark最新的稳定版为spark-3.3.1-bin-hadoop3.tgz,因此我们需要找到之前版本的spark。

单击archived releases中的网址,如下所示:

找到spark-3.0.2的目录,进去之后单击下载spark-3.0.2-bin-hadoop3.2.tgz

2.1.2.4.2 Spark安装

解压spark安装包,解压到D:\services\spark-3.0.2-bin-hadoop3.2

2.1.2.4.3 Spark配置

在系统环境变量中添加SPARK_HOME,并将SPARK_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

进入环境变量

新建SPARK_HOME环境变量

SPARK_HOME 添加到系统环境变量Path中


验证Spark的环境变量是否配置好了。

如果出现如上图的提示HADOOP_HOME没有配置,说明HADOOP_HOME的环境变量配置有问题,需要正确配置HADOOP_HOME

正确配置好HADOOP_HOME之后,执行spark-shell命令。

虽然最终进入到了spark shell中,但是中间报了一个错误,提示找不到D:\services\hadoop-3.2.2\bin\winutils.exe文件,通过查看发现确实不存在该文件,此时我们需要从https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin此处下载winutils.exe文件,并保存到本地D:\services\hadoop-3.2.2\bin\目录下。然后再次运行spark-shell,结果如下:

spark-shell启动正常了。

浏览器访问 http://127.0.0.1:4041/jobs 可以打开spark web ui。如下图所示:

参考文档

[1] Spark在Win10下的环境搭建

[2] 【Spark笔记】Windows10 本地搭建单机版Spark开发环境

有关windows10搭建spark本地开发环境的更多相关文章

  1. ruby - 在 Ruby 程序执行时阻止 Windows 7 PC 进入休眠状态 - 2

    我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep,它会中断应用程序。否则,计算机将持续运行数周,直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗?欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数,使应用程序能够通知系统它正在使用中,从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0

  2. ruby - 使用 C 扩展开发 ruby​​gem 时,如何使用 Rspec 在本地进行测试? - 2

    我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当

  3. Ruby Sinatra 配置用于生产和开发 - 2

    我已经在Sinatra上创建了应用程序,它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择,是开发还是生产,一些方法的逻辑应该改变,这取决于部署类型。是否有任何想法,如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现? 最佳答案 根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm

  4. ruby - 是否可以覆盖 gemfile 进行本地开发? - 2

    我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI

  5. ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反? - 2

    这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby​​-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub

  6. ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2

    我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器,但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型,并且只返回text/plain,如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain

  7. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  8. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  9. Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2

    之前在培训新生的时候,windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表,但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题),加之暑假之后对cmake实在是爱不释手,且这样配置确实十分简单(其实都不需要配置),故斗胆妄言vscode下配置CV之法。其实极为简单,图比较多所以很长。如果你看此文还配不好,你应该思考一下是不是自己的问题。闲话少说,直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么,我不说是谁。CMake是一个开源免费并且跨平台的构建工具,可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m

  10. 深度学习部署:Windows安装pycocotools报错解决方法 - 2

    深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal

随机推荐