草庐IT

java - 如何找到Spark的安装目录?

我想更改spark-env.sh。如何在ubuntu中找到安装目录??我查看了UI,但没有找到任何东西。whereisspark结果:Spark:这是定位命令的日志定位Spark/home/sys6002/.netbeans/8.0.2/apache-tomcat-8.0.15.0_base/temp/spark-ba1ea995-b959-43f4-ab6c-7d9f1ee5fcc1/blockmgr-db3a931b-7f1a-423e-b5da-b75a958a1909/11/home/sys6002/.netbeans/8.0.2/apache-tomcat-8.0.15.0_

PySpark任务提交spark-submit参数设置一文详解

目录前言一、PySpark集群运行原理二、spark-submit参数详解1.指定运行目录2.--deploy-mode 3.--master 4.驱动程序和执行器资源 5.--files和--verbose 6.Spark提交配置三.PySpark程序提交配置选项1.构建一套虚拟环境2.模块依赖问题原因参阅前言之前我们已经进行了pyspark环境的搭建以及经过jupyternotebook进行过开发以及实现了一系列的函数功能.PySpark数据分析基础:Spark本地环境部署搭建 但是一般我们跑spark都是在集群上面跑,只有测试一般在本地上测试,而且每个公司配置的spark集群的端口和设置

Spark Streaming基本概念

SparkStreaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互式查询,因此,可以适用于一些需要对历史数据和实时数据进行结合分析的应用场景。流计算是一种典型的大数据计算模式,可以实现对源源不断到达的流数据的实时处理分析。一、静态数据和流数据1,静态数据如果把数据存储系统比作一个“水库”,那么,存储在数据存储系统中的静态数据就像水库中的水一样,是静止不动的。很多企业为了支持决策分析而构建的数据仓库系统(见图6-1),其中存放的大量历史数据就是静态数据,这些数据来自不同的数据源,利用ETL(Extract-T

scala - 使用 apache spark 自动运行任务

我是apachespark的新手,我正在尝试使用spark运行测试应用程序。我面临的问题是,当我使用要处理的数据集合创建RDD时,它会被创建但它不会开始处理它,除非我调用RDD类中存在的.collect方法.这样,我必须等待spark来处理RDD。有什么方法可以让spark在我形成RDD后立即自动处理集合,然后我可以随时调用.collect方法来获取处理后的数据,而不必等待spark?还有什么方法可以使用spark将处理后的数据放入数据库而不是返回给我?我使用的代码如下:objectappMainextendsApp{valspark=newSparkContext("local","

java - Spark 与 Hadoop 集成 InputFormat 混淆

我目前正在尝试将自定义InputSplit和RecordReader与ApacheSpark的SparkContexthadoopRDD()函数结合使用。我的问题如下:InpuSplit.getLenght()和/或RecordReader.getProgress()返回的值是否会影响map()的执行SparkRuntime中的函数?我问是因为我在ApacheHadoop上使用了这两个自定义类,它们按预期工作。但是,在Spark中,我看到在运行时生成了新的InputSplit对象,这是我不希望我的代码执行的操作。更准确地说:在执行开始时,我在我的日志文件中看到生成了正确数量的Input

python - 在 apache spark/Storm 中运行 python 脚本

我有一个用python编写的算法(不兼容hadoop,即不是mapper.py和reducer.py),它在本地系统(不是hadoop)中运行完美。我的目标是在hadoop中运行它。选项1:Hadoop流式处理。但是,我需要将这个python脚本转换为mapper和reducer。还有其他办法吗?选项2:通过Storm运行此python脚本。但是,我使用的是没有Storm的cloudera。我需要在cloudera中安装storm或需要使用Spark。如果我在cloudera中安装storm。这是更好的选择吗?选项3:通过Spark(Cloudera)运行此python脚本。可能吗。此

hadoop - Spark : Avro RDD to csv

我能够将arvo文件读入avroRDD并尝试转换为csvRDD,其中包含以逗号分隔的所有值。使用以下代码,我可以将特定字段读入csvRDD。valcsvRDD=avroRDD.map({case(u,_)=>u.datum.get("empname")})如何将所有值读入csvRDD而不是指定字段名称。我的结果csvRDD应该包含如下记录(100,John,25,IN)(101,Ricky,38,AUS)(102,Chris,68,US) 最佳答案 将Spark1.2+与Spark-Avrointegrationlibrary结合使

hadoop - 如何在 Cloudera 中配置 Yarn 以在所有集群节点上运行 Spark 执行程序?

我们有一个Cloudera集群,其中包含3个数据节点和相应的yarn节点管理器。然而,当我们以yarn-client模式向集群提交一个spark脚本时,其中一个节点被处理为applicationmaster,只有另外两个节点被处理为Sparkexecutor。这显示在下面的spark日志中,其中只有节点2和节点3被设置为执行者:Usingpropertiesfile:/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/conf/spark-defaults.confAddingdefaultproperty:spark.

azure - hdinsight actionscript 安装 spark 1.2

有谁知道如何为hdisights创建ActionScript?我现在正在使用actoinscript安装spark1.0.2,但希望集群上的spark1.2.x获得更多的配置单元支持。我读过ScriptActionDevelopmentwithHDInsight当我尝试通过修改Microsoft提供的actionscript使用1.2创建spark集群时。这样做之后我得到一个错误,spark不理解文件url'wasb://'并且它需要采用'hdfs://'格式。在文章中它谈到了ConfigurethecustomcomponentstouseWASB它说:Thecustomcompon

scala - 来自 Spark 的 Hive 查询 - 解析失败

我正在尝试在spark-shell中执行此操作:valhiveCtx=neworg.apache.spark.sql.hive.HiveContext(sc)vallistTables=hiveCtx.hql("showtables")第二行执行失败并显示此消息:warning:therewere1deprecationwarning(s);re-runwith-deprecationfordetailsorg.apache.spark.sql.hive.HiveQl$ParseException:Failedtoparse:showtablesatorg.apache.spark.s