Spark大数据处理讲课笔记2.2 搭建Spark开发环境

howard2005 2023-10-12 原文

文章目录

零、本节学习目标

Spark开发环境准备工作
了解Spark的三种部署方式
搭建Spark单机版环境
搭建Spark Standalone集群
体验第一个Spark程序
在Spark Shell里基本操作
初识弹性分布式数据集RDD

一、Spark开发环境准备工作

由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。
安装Spark集群前，需要安装Hadoop环境

软件	版本
Linux系统	CentOS7.9版本
Hadoop	3.3.4版本
JDK	1.8版本 (jdk8u231)
Spark	3.3.2版本

二、了解Spark的部署模式

（一）Standalone模式

Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。

（二）Mesos模式

Mesos模式被称为Spark on Mesos模式。Mesos是一款资源调度管理系统，为Spark提供服务，由于Spark与Mesos存在密切的关系，因此在设计Spark框架时充分考虑到对Mesos的集成。

（三）Yarn模式

Yarn模式被称为Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务。由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以提高资源利用率。

三、搭建Spark单机版环境

（一）前提是安装配置好了JDK

查看JDK版本

（二）下载、安装与配置Spark

1、下载Spark安装包

官网下载页面：https://spark.apache.org/downloads.html
下载链接：https://www.apache.org/dyn/closer.lua/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
下载到本地

2、将Spark安装包上传到虚拟机

将Spark安装包上传到ied虚拟机/opt目录

3、将Spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local
查看解压之后的spark目录

4、配置Spark环境变量

执行vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出，执行命令：source /etc/profile，让环境配置生效

（三）使用Spark单机版环境

1、使用SparkPi来计算Pi的值

执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）
查看计算结果：Pi is roughly 3.1412357061785308

2、使用Scala版本Spark-Shell

Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
命令格式：spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式

参数名称	相关说明
local	使用一个Worker线程本地化运行Spark
*local[]**	本地运行Spark，工作线程数量与本机CPU逻辑核心数量相同
local[N]	使用N个Worker线程本地化运行Spark
spark://host:port	Standalone模式下，连接到指定的Spark集群，默认端口7077
yarn-client	以客户端模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR环境变量中配置
yarn-cluster	以集群模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR 环境变量中配置
mesos://host:port	连接到指定的Mesos集群。默认接口是5050

执行spark-shell命令，相当于执行spark-shell --master local[*]命令，启动Scala版的Spark-Shell
访问Spark的Web UI界面 - http://ied:4040
注意：Spark 3.3.2使用的Scala版本其实是2.12.15
利用print函数输出了一条信息
计算1 + 2 + 3 + …… + 100
输出字符直角三角形
打印九九表
执行:quit命令，退出Spark Shell交互式环境

3、使用Python版本Spark-Shell

执行pyspark命令启动Python版的Spark-Shell
执行命令：yum -y install python3
执行命令：pyspark
输出一条信息，进行加法运算，然后退出交互式环境

4、初识弹性分布式数据集RDD

Spark 中的RDD (Resilient Distributed Dataset) 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序中的对象集合（比如list 和set）。
演示利用集合创建RDD
在/home目录下创建test.txt文件

例1、创建一个RDD

在pyspark命令行，执行命令：lines = sc.textFile('/home/test.txt')
创建出来后，RDD 支持两种类型的操作：转化操作（transformation）和行动操作（action）。转化操作会由一个RDD 生成一个新的RDD。另一方面，行动操作会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如HDFS）中。

例2、调用转化操作filter()

执行命令：sparkLines = lines.filter(lambda line: 'spark' in line)

例3、调用行动操作first()

执行命令：sparkLines.first()
转化操作和行动操作的区别在于Spark 计算RDD 的方式不同。虽然你可以在任何时候定义新的RDD，但Spark 只会惰性计算这些RDD。它们只有第一次在一个行动操作中用到时，才会真正计算。这种策略刚开始看起来可能会显得有些奇怪，不过在大数据领域是很有道理的。比如，看看例2 和例3，我们以一个文本文件定义了数据，然后把其中包含spark的行筛选出来。如果Spark 在我们运行lines = sc.textFile(...) 时就把文件中所有的行都读取并存储起来，就会消耗很多存储空间，而我们马上就要筛选掉其中的很多数据。相反，一旦Spark 了解了完整的转化操作链之后，它就可以只计算求结果时真正需要的数据。事实上，在行动操作first() 中，Spark 只需要扫描文件直到找到第一个匹配的行为止，而不需要读取整个文件。
如果要显示全部包含spark的行，执行命令：sparkLines.collect()
同样的任务，在Scala的Spark Shell里完成

补充练习：利用Spark RDD实现词频统计

在spark-shell里完成
在pyspark里完成
但是执行wc1.collect()就会报错，目前没有解决问题。

四、搭建Spark Standalone集群

（一）Spark Standalone架构

Spark Standalone模式为经典的Master/Slave（主/从）架构，资源调度是Spark自己实现的。在Standalone模式中，根据应用程序提交的方式不同，Driver（主控进程）在集群中的位置也有所不同。应用程序的提交方式主要有两种：client和cluster，默认是client。可以在向Spark集群提交应用程序时使用--deploy-mode参数指定提交方式。

1、client提交方式

当提交方式为client时，运行架构如下图所示
集群的主节点称为Master节点，在集群启动时会在主节点启动一个名为Master的守护进程，类似YARN集群的ResourceManager；从节点称为Worker节点，在集群启动时会在各个从节点上启动一个名为Worker的守护进程，类似YARN集群的NodeManager。
Spark在执行应用程序的过程中会启动Driver和Executor两种JVM进程。
Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。在上图的架构中，Spark会在客户端启动一个名为SparkSubmit的进程，Driver程序则运行于该进程。
Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。每个应用程序都有各自独立的一个或多个Executor进程。在Spark Standalone模式和Spark on YARN模式中，Executor进程的名称为CoarseGrainedExecutorBackend，类似运行MapReduce程序所产生的YarnChild进程，并且同时与Worker、Driver都有通信。

2、cluster提交方式

当提交方式为cluster时，运行架构如下图所示
Standalone cluster提交方式提交应用程序后，客户端仍然会产生一个名为SparkSubmit的进程，但是该进程会在应用程序提交给集群之后就立即退出。当应用程序运行时，Master会在集群中选择一个Worker进程启动一个名为DriverWrapper的子进程，该子进程即为Driver进程，所起的作用相当于YARN集群的ApplicationMaster角色，类似MapReduce程序运行时所产生的MRAppMaster进程。

（二）Spark集群拓扑

1、集群拓扑

一个主节点，两个从节点

2、集群角色分配

Spark Standalone模式的集群搭建需要在集群的每个节点都安装Spark，集群角色分配如下表所示。

节点	角色
master	Master
slave1	Worker
slave2	Worker

（三）前提条件：安装配置了分布式Hadoop环境

启动hadoop集群
访问Hadoop WebUI界面

（四）在master虚拟机上安装配置Spark

1、将spark安装包上传到master虚拟机

进入/opt目录，查看上传的spark安装包

2、将spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local

3、配置spark环境变量

执行命令：vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出后，执行命令：source /etc/profile，让配置生效
查看spark安装目录（bin、sbin和conf三个目录很重要）

4、编辑spark环境配置文件

进入spark配置目录后，执行命令：cp spark-env.sh.template spark-env.sh与vim spark-env.sh
添加三行语句

export JAVA_HOME=/usr/local/jdk1.8.0_231
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

JAVA_HOME：指定JAVA_HOME的路径。若集群中每个节点在/etc/profile文件中都配置了JAVA_HOME，则该选项可以省略，Spark集群启动时会自动读取。为了防止出错，建议此处将该选项配置上。
SPARK_MASTER_HOST：指定集群主节点（master）的主机名，此处为master。
SPARK_MASTER_PORT：指定Master节点的访问端口，默认为7077。
存盘退出，执行命令：source spark-env.sh，让配置生效

5、创建slaves文件，添加从节点

执行命令：vim slaves，添加两个从节点主机名

（五）在slave1虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave1虚拟机

执行命令：scp -r $SPARK_HOME root@slave1:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave1:/etc/profile
在slave1虚拟机上，执行命令：source /etc/profile，让环境配置生效

3、在slave1虚拟机上让spark环境配置文件生效

在slave1虚拟机上，进入spark配置目录，执行命令：source spark-env.sh

（六）在slave2虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave2虚拟机

执行命令：scp -r $SPARK_HOME root@slave2:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave2:/etc/profile
在slave2虚拟机上，执行命令：source /etc/profile，让环境配置生效

3、在slave2虚拟机上让spark环境配置文件生效

在slave2虚拟机上，进入spark配置目录，执行命令：source spark-env.sh

（七）启动Spark Standalone集群

Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。启动Spark Standalone集群，不需要启动YARN服务，因为Spark会使用自带的资源调度框架。

1、启动hadoop的dfs服务

在master虚拟机上执行命令：start-dfs.sh

2、启动Spark集群

执行命令：start-all.sh
查看start-all.sh的源码启动Master与Worker的命令

# Start Master
"${SPARK_HOME}/sbin"/start-master.sh
# Start Worker
s"${SPARK_HOME}/sbin"/start-slaves.sh

可以看到，当执行start-all.sh命令时，会分别执行start-master.sh命令启动Master，执行start-slaves.sh命令启动Worker。
注意，若spark-evn.sh中配置了SPARK_MASTER_HOST属性，则必须在该属性指定的主机上启动Spark集群，否则会启动不成功；若没有配置SPARK_MASTER_HOST属性，则可以在任意节点上启动Spark集群，当前执行启动命令的节点即为Master节点。
启动完毕后，分别在各节点执行jps命令，查看启动的进程。若在master节点存在Master进程，slave1节点存在Worker进程，slave2节点存在Worker进程，则说明集群启动成功。
查看master节点进程
查看slave1节点进程
查看slave2节点进程

（八）访问Spark的WebUI

在浏览器里访问http://master:8080
在浏览器访问http://slave1:8081
在浏览器访问http://slave2:8081
如果要用IP地址来访问，得用浮动IP地址，不能用私有IP地址
用私有IP地址访问是不行的 - http://192.168.1.101:8080/
用浮动IP地址来访问才可以 - 192.168.218.181
查看私有云上虚拟机的配置

（九）启动Scala版Spark Shell

执行命令：spark-shell --master spark://master:7077 （注意--master，两个-不能少）
在/opt目录里执行命令：vim test.txt
在HDFS上创建park目录，将test.txt上传到HDFS的/park目录
读取HDFS上的文件，创建RDD，执行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")（说明：val rdd = sc.textFile("/park/test.txt")读取的依然是HDFS上的文件，绝对不是本地文件）
收集rdd的数据，执行命令：rdd.collect
进行词频统计，按单词个数降序排列，执行命令：val wordcount = rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false)与`wordcount.collect.foreach(println)

（十）提交Spark应用程序

1、提交语法格式

Spark提供了一个客户端应用程序提交工具spark-submit，使用该工具可以将编写好的Spark应用程序提交到Spark集群。
spark-submit的使用格式如下：$ bin/spark-submit [options] <app jar> [app options]
options表示传递给spark-submit的控制参数；
app jar表示提交的程序JAR包（或Python脚本文件）所在位置；
app options表示jar程序需要传递的参数，例如main()方法中需要传递的参数。

2、spark-submit常用参数

除了--master参数外，spark-submit还提供了一些控制资源使用和运行时环境的参数。

参数	描述
–master	Master节点的连接地址，取值为spark://host:port、mesos://host:port、yarn、k8s://https://host:port 或 local（默认为local[*]）
–deploy-mode	提交方式，取值为client或cluster。client表示在本地客户端启动Driver程序，cluster表示在集群内部的工作节点上启动Driver程序，默认为client
–class	应用程序的主类（Java或Scala程序）
–name	应用程序名称，会在Spark Web UI中显示
–jars	应用依赖的第三方JAR包列表，以逗号分隔
–files	需要放到应用工作目录中的文件列表，以逗号分隔。此参数一般用来放需要分发到各节点的数据文件
–conf	设置任意的SparkConf配置属性，格式为“属性名=属性值”
–properties-file	加载外部包含键值对的属性文件。如果不指定，就默认读取Spark安装目录下的`conf/spark-defaults.conf` 文件中的配置
–driver-memory	Driver进程使用的内存量，例如512MB或1GB，单位不区分大小写，默认为1GB
–executor-memory	每个Executor进程所使用的内存量。例如512MB或1GB，单位不区分大小写，默认为1GB
–driver-cores	Driver进程使用的CPU核心数，仅在集群模式中使用，默认为1
-executor-cores	每个Executor进程所使用的CPU核心数，默认为1
num-executors	Executor进程数量，默认为2。如果开启动态分配，那么初始Executor的数量至少是此参数配置的数量。需要注意的是，此参数仅在`Spark On YARN`模式中使用

3、案例演示 - 提交Spark自带的圆周率计算程序

（1）Standalone模式，采用client提交方式

执行下述命令，将Spark自带的求圆周率的程序提交到集群

bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master spark://master:7077 \
 ./examples/jars/spark-examples_2.12-3.3.2.jar

提交Spark作业后，观察Spark集群管理界面，其中“Running Applications”列表表示当前Spark集群正在计算的作业，执行几秒后，刷新界面，在Completed Applications表单下，可以看到当前应用执行完毕，返回控制台查看输出信息，出现了“Pi is roughly 3.1424157120785603”，说明Pi值已经被计算完毕。
上述命令中的–master参数指定了Master节点的连接地址。该参数根据不同的Spark集群模式，其取值也有所不同，常用取值如下表所示。

取值	描述
spark://host:port	Standalone模式下的Master节点的连接地址，默认端口为7077
yarn	连接到YARN集群。若YARN中没有指定ResourceManager的启动地址，则需要在ResourceManager所在的节点上进行应用程序的提交，否则将因找不到ResourceManager而提交失败
local	运行本地模式，使用1个CPU核心
local [N]	运行本地模式，使用N个CPU核心。例如，local[2]表示使用两个CPU核心运行程序
local[*]	运行本地模式，尽可能使用最多的CPU核心

若不添加–master参数，则默认使用本地模式local[*]运行。

（2）Standalone模式，采用cluster提交方式

在Standalone模式下，将Spark自带的圆周率计算程序提交到集群，并且设置Driver进程使用内存为512MB，每个Executor进程使用内存为1GB，每个Executor进程所使用的CPU核心数为2，提交方式为cluster（Driver进程运行在集群的工作节点中），执行命令如下：

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode cluster \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.12-3.3.2.jar

当然可以写成一行

bin/spark-submit --master spark://master:7077 --deploy-mode cluster --class org.apache.spark.SparkPi --driver-memory 512m --executor-memory 1g --executor-cores 2 ./examples/jars/spark-examples_2.12-3.3.2.jar

执行命令后，看到State of driver-20230406114733-0000 is RUNNING，就表明运行成功~，否则会显示State of driver-20230406114733-0000 is FAILED
在Spark WebUI界面上查看运行结果，访问http://master:8080
单击圈红的Worker超链接 - worker-20230406114652-192.168.1.102-36708
注意：必须把私有IP地址改成主机名slave1或者对应的浮动IP地址
单击stdout超链接，可以查看到Pi的计算结果

（十一）停止Spark集群服务

在master节点执行命令：stop-all.sh

五、搭建Spark On Yarn集群

Spark基础学习笔记06：搭建Spark On YARN集群

六、搭建Spark HA集群

Spark基础学习笔记07：搭建Spark HA集群

大数 Spark xff code xff0c standalone

有关Spark大数据处理讲课笔记2.2 搭建Spark开发环境的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称

Spark大数据处理讲课笔记2.2 搭建Spark开发环境

文章目录

零、本节学习目标

一、Spark开发环境准备工作

二、了解Spark的部署模式

（一）Standalone模式

（二）Mesos模式

（三）Yarn模式

三、搭建Spark单机版环境

（一）前提是安装配置好了JDK

（二）下载、安装与配置Spark

1、下载Spark安装包

2、将Spark安装包上传到虚拟机

3、将Spark安装包解压到指定目录

4、配置Spark环境变量

（三）使用Spark单机版环境

1、使用SparkPi来计算Pi的值

2、使用Scala版本Spark-Shell

3、使用Python版本Spark-Shell

4、初识弹性分布式数据集RDD

例1、创建一个RDD

例2、调用转化操作filter()

例3、调用行动操作first()

补充练习：利用Spark RDD实现词频统计

四、搭建Spark Standalone集群

（一）Spark Standalone架构

1、client提交方式

2、cluster提交方式

（二）Spark集群拓扑

1、集群拓扑

2、集群角色分配

（三）前提条件：安装配置了分布式Hadoop环境

（四）在master虚拟机上安装配置Spark

1、将spark安装包上传到master虚拟机

2、将spark安装包解压到指定目录

3、配置spark环境变量

4、编辑spark环境配置文件

5、创建slaves文件，添加从节点

（五）在slave1虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave1虚拟机

2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

3、在slave1虚拟机上让spark环境配置文件生效

（六）在slave2虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave2虚拟机

2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

3、在slave2虚拟机上让spark环境配置文件生效

（七）启动Spark Standalone集群

1、启动hadoop的dfs服务

2、启动Spark集群

（八）访问Spark的WebUI

（九）启动Scala版Spark Shell

（十）提交Spark应用程序

1、提交语法格式

2、spark-submit常用参数

3、案例演示 - 提交Spark自带的圆周率计算程序

（1）Standalone模式，采用client提交方式

（2）Standalone模式，采用cluster提交方式

（十一）停止Spark集群服务

五、搭建Spark On Yarn集群

六、搭建Spark HA集群

有关Spark大数据处理讲课笔记2.2 搭建Spark开发环境的更多相关文章

随机推荐