草庐IT

Spark 安装与启动

@SmartSi 2023-09-05 原文

版本:

  • Scala 版本:2.12.15
  • Spark 版本:3.1.3
  • Hadoop 版本:2.7.7

1. Scala 安装

我们从官网 https://www.scala-lang.org/download/all.html 下载 2.12.15 版本:

解压到 /opt 目录:

tar -zxvf scala-2.12.15.tgz -C /opt

创建软连接便于升级:

ln -s scala-2.12.15/ scala

修改 /etc/profile 文件设置环境变量,便于后续操作:

# scala
export SCALA_HOME=/opt/scala
export PATH=${SCALA_HOME}/bin:$PATH

可以与 scala 进行交互来验证安装是否成功:

2. Hadoop 安装

如果没有安装 Hadoop,可以参考:Hadoop 安装与启动。在这我们 Hadoop 版本为 2.7.7 版本。

3. Spark 安装

第一步是选择 Spark 版本,在这我们选择的是 3.1.3 (Feb 18 2022) 版本。第二步是选择 Package 类型,官方目前提供了四种类型:

  • Pre-built for Apache Hadoop 3.2 and later:基于 Hadoop 3.2 的预先编译版,可以支持 Hadoop 3.2+版本。
  • Pre-built for Apache Hadoop 2.7:基于 Hadoop 2.7 的预先编译版,需要与本机安装的 Hadoop 版本对应。
  • Pre-built with user-provided Apache Hadoop:‘Hadoop free’ 版,可使用任意 Hadoop 版本;
  • Source Code:Spark 源码,需要编译才能使用;

Spark 版本选择的不同,提供的 Package 类型也会不一样。

Spark 与 Hadoop 需要配合使用,所以 Spark 必须按照我们目前安装的 Hadoop 版本来选择 Package 类型。如果你事先安装了 Spark 对应版本的 Hadoop,那么可以选择 for Hadoop x.x 类型,如果你安装的 Hadoop 版本没有对应的 Spark,可以选择 Pre-built with user-provided Apache Hadoop 类型。由于我们使用的 Hadoop 版本为 2.7.7 版本,所以可以选择 Pre-built for Apache Hadoop 2.7 类型。

选择 Spark 版本和 Package 类型之后,自动会为你生成 spark-3.1.3-bin-hadoop2.7.tgz 包地址,直接点击下载即可。

Spark 3 通常是使用 Scala 2.12 预先构建,从 Spark 3.2+ 版本开始提供了基于 Scala 2.13 预先构建的发行版。

从官网上下载 spark-3.1.3-bin-hadoop2.7.tgz 后解压到 /opt 目录下:

tar -zxvf spark-3.1.3-bin-hadoop2.7.tgz -C /opt

为了升级方便,创建软连接:

ln -s spark-3.1.3-bin-hadoop2.7/ spark

设置环境变量,指向 Spark 目录,便于后续操作:

# spark
export SPARK_HOME=/opt/spark
export PATH=${SPARK_HOME}/bin:$PATH

需要在 spark-env.sh 中修改 Spark 的 Classpath,执行如下命令拷贝一个配置文件:

cd /opt/spark
cp spark-env.sh.template spark-env.sh

编辑 spark-env.sh ,在最后面加上如下一行:

export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)

替换为你的 Hadoop 安装路径

保存后,Spark 就可以启动、运行了。

4. 运行示例和 Shell

在 examples/src/main 目录下有一些 Spark 的示例程序,有 Scala、Java、Python 以及 R 等语言的版本。如果要运行 Java 或 Scala 示例程序,可以使用 bin/run-example [params] 命令。在内部会调用更通用的 spark-submit 脚本来启动应用程序。如下所示我们运行一个计算 π 的近似值的示例程序 SparkPi:

cd /opt/spark
bin/run-example SparkPi

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤:

localhost:spark wy$ ./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
Pi is roughly 3.135835679178396

你还可以通过 Scala shell 以交互方式运行 Spark:

cd /opt/spark
./bin/spark-shell --master local[2]

–master 选项可以指定:

  • 分布式集群的 master URL,
  • local:使用一个线程在本地运行
  • local[N]:使用 N 个线程在本地运行

有关Spark 安装与启动的更多相关文章

  1. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  2. ruby - 完全离线安装RVM - 2

    我打算为ruby​​脚本创建一个安装程序,但我希望能够确保机器安装了RVM。有没有一种方法可以完全离线安装RVM并且不引人注目(通过不引人注目,就像创建一个可以做所有事情的脚本而不是要求用户向他们的bash_profile或bashrc添加一些东西)我不是要脚本本身,只是一个关于如何走这条路的快速指针(如果可能的话)。我们还研究了这个很有帮助的问题:RVM-isthereawayforsimpleofflineinstall?但有点误导,因为答案只向我们展示了如何离线在RVM中安装ruby。我们需要能够离线安装RVM本身,并查看脚本https://raw.github.com/wayn

  3. ruby-on-rails - rails 目前在重启后没有安装 - 2

    我有一个奇怪的问题:我在rvm上安装了ruby​​onrails。一切正常,我可以创建项目。但是在我输入“railsnew”时重新启动后,我有“程序'rails'当前未安装。”。SystemUbuntu12.04ruby-v"1.9.3p194"gemlistactionmailer(3.2.5)actionpack(3.2.5)activemodel(3.2.5)activerecord(3.2.5)activeresource(3.2.5)activesupport(3.2.5)arel(3.0.2)builder(3.0.0)bundler(1.1.4)coffee-rails(

  4. ruby - 如何为 emacs 安装 ruby​​-mode - 2

    我刚刚为fedora安装了emacs。我想用emacs编写ruby。为ruby​​提供代码提示、代码完成类型功能所需的工具、扩展是什么? 最佳答案 ruby-mode已经包含在Emacs23之后的版本中。不过,它也可以通过ELPA获得。您可能感兴趣的其他一些事情是集成RVM、feature-mode(Cucumber)、rspec-mode、ruby-electric、inf-ruby、rinari(用于Rails)等。这是我当前用于Ruby开发的Emacs配置:https://github.com/citizen428/emacs

  5. ruby-on-rails - 无法在centos上安装therubyracer(V8和GCC出错) - 2

    我正在尝试在我的centos服务器上安装therubyracer,但遇到了麻烦。$geminstalltherubyracerBuildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingtherubyracer:ERROR:Failedtobuildgemnativeextension./usr/local/rvm/rubies/ruby-1.9.3-p125/bin/rubyextconf.rbcheckingformain()in-lpthread...yescheckingforv8.h...no***e

  6. ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2

    我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止,这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search

  7. ruby - 如何在 Lion 上安装 Xcode 4.6,需要用 RVM 升级 ruby - 2

    我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121

  8. ruby - Fast-stemmer 安装问题 - 2

    由于fast-stemmer的问题,我很难安装我想要的任何ruby​​gem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=

  9. ruby-on-rails - 启动 Rails 服务器时 ImageMagick 的警告 - 2

    最近,当我启动我的Rails服务器时,我收到了一长串警告。虽然它不影响我的应用程序,但我想知道如何解决这些警告。我的估计是imagemagick以某种方式被调用了两次?当我在警告前后检查我的git日志时。我想知道如何解决这个问题。-bcrypt-ruby(3.1.2)-better_errors(1.0.1)+bcrypt(3.1.7)+bcrypt-ruby(3.1.5)-bcrypt(>=3.1.3)+better_errors(1.1.0)bcrypt和imagemagick有关系吗?/Users/rbchris/.rbenv/versions/2.0.0-p247/lib/ru

  10. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

随机推荐