spark_libs_草庐IT

hadoop - spark.dynamicAllocation 的 EMR 配置与 Spark 官方文档不匹配

根据官方Spark文档(http://spark.apache.org/docs/latest/job-scheduling.html#configuration-and-setup)，在YARN中使用“spark.dynamicAllocation”选项时，您需要:Intheyarn-site.xmloneachnode,addspark_shuffletoyarn.nodemanager.aux-services...setyarn.nodemanager.aux-services.spark_shuffle.classtoorg.apache.spark.network.yarn

spark 使用python语言操作（基于pycharm的安装使用）

本文是关于如何使用pycharm下面执行spark相关操作，spark搭建的是单机模式。1.安装单机模式的spark1.1下载spark下载地址：https://archive.apache.org/dist/spark/我选取的是spark-3.1.2-bin-hadoop3.2.tgz1.2上传压缩包将下载好的spark压缩包通过xftp传输到hadoop102的/opt/module（集群节点）目录下面直接拖到过去就行了1.3解压缩包tar-zxvfspark压缩包-C解压路径我使用的是tar-zxvfspark-3.1.2-bin-hadoop3.2.tgz-C/opt/softwar

使用基于 strong xff img spark python pycharm

hadoop - Spark 是否支持静态加密？

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它？我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗？最佳答案是的，Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密，这意味着您的所有JavaAPI和命令行界面都像以前一样工作，无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop Spark section transparent apache-spark hdfs

hadoop - 如何将 spark rdd 保存到 avro 文件

我正在尝试将rdd保存到avro格式的文件中。这是我的代码的样子:valoutput=s"/test/avro/${date.toString(dayFormat)}"rmr(output)//deleteingthepathrdd.coalesce(64).saveAsNewAPIHadoopFile(output,classOf[org.apache.hadoop.io.NullWritable],classOf[PageViewEvent],classOf[AvroKeyValueOutputFormat[org.apache.hadoop.io.NullWritable,Pag

hadoop spark PageViewEvent section classOf apache-spark avro

hadoop - 将 Spark 添加到 Oozie 共享库

默认情况下，Oozie共享库目录提供了Hive、Pig和Map-Reduce的库。如果我想在Oozie上运行Spark作业，最好将Sparklibjar添加到Oozie的共享库而不是将它们复制到应用程序的lib目录。如何将Sparklibjar(包括spark-core及其依赖项)添加到Oozie的共享库中？任何评论/回答表示赞赏。最佳答案 Sparkaction计划与Oozie4.2.0一起发布，尽管文档似乎有点落后。在此处查看相关的JIRA:OozieJIRA-AddsparkactionexecutorCloudera的CD

hadoop Spark blockquote Oozie workflow apache-spark

hadoop - Apache Spark JDBCRDD 使用 HDFS 吗？

ApacheSparkJDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点？我们正在使用JdbcRDD与apachespark上的数据库进行交互。我们想知道ApacheSpark是使用HDFS来分发和存储数据库表记录还是工作节点直接与数据库交互。最佳答案 JdbcRDD不使用HDFS，直接从JDBC连接读取数据到worker内存中的RDD。如果您想要HDFS上的结果，您必须明确地将RDD持久化到HDFS。你可以在这里看到JdbcRDD是如何运作的https://github.com/apache/spark/blob

JDBCRDD hadoop section apache apache-spark hdfs spark-streaming rdd

python - Apache Spark Python 到 Scala 的翻译

如果我做对了，ApacheYARN将ApplicationMaster和NodeManager作为JAR文件接收。它们作为Java进程在YARN集群的节点上执行。当我使用Python编写Spark程序时，它是否以某种方式编译成JAR？如果不是，为什么Spark能够在YARN集群节点上执行Python逻辑？最佳答案 PySpark驱动程序使用Py4J(http://py4j.sourceforge.net/)启动JVM并创建Spark上下文。用Python编写的SparkRDD操作映射到PythonRDD上的操作。在远程worker

python Apache section Spark hadoop apache-spark hadoop-yarn pyspark

r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src

最近我发现了很棒的dplyr.spark.hive启用dplyr的软件包前端操作spark或hive后端。在包的README中有关于如何安装此包的信息:options(repos=c("http://r.piccolboni.info",unlist(options("repos"))))install.packages("dplyr.spark.hive")还有很多关于如何使用dplyr.spark.hive的例子当一个已经连接到hiveServer-checkthis.但我无法连接到hiveServer,所以我无法从这个包的强大功能中受益...我试过这样的命令，但没有成功。有没有人

中创 dplyr spark code r hadoop apache-spark hive

performance - Spark 本地 vs hdfs 性能

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3GB的文本文件。我有一个简单的字数统计pyspark程序。如果我提交从本地文件系统读取文件的程序，它会持续大约33秒。如果我提交从hdfs读取文件的程序，它会持续大约46秒。为什么？我期望完全相反的结果。根据sgvd的要求添加:16从1主没有特殊设置的SparkStandalone(复制因子3)版本1.5.2importsyssys.path.insert(0,'/usr/local/spark/python/')sys.path.insert(0,'/usr/l

performance Spark 39 section code hadoop apache-spark

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下，我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓

spark-submit proxy-user section hadoop apache-spark hadoop-yarn