docker-spark

hadoop - Spark 是否支持静态加密？

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它？我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗？最佳答案是的，Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密，这意味着您的所有JavaAPI和命令行界面都像以前一样工作，无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop - 如何将 spark rdd 保存到 avro 文件

我正在尝试将rdd保存到avro格式的文件中。这是我的代码的样子:valoutput=s"/test/avro/${date.toString(dayFormat)}"rmr(output)//deleteingthepathrdd.coalesce(64).saveAsNewAPIHadoopFile(output,classOf[org.apache.hadoop.io.NullWritable],classOf[PageViewEvent],classOf[AvroKeyValueOutputFormat[org.apache.hadoop.io.NullWritable,Pag

hadoop spark PageViewEvent section classOf apache-spark avro

hadoop - 将 Spark 添加到 Oozie 共享库

默认情况下，Oozie共享库目录提供了Hive、Pig和Map-Reduce的库。如果我想在Oozie上运行Spark作业，最好将Sparklibjar添加到Oozie的共享库而不是将它们复制到应用程序的lib目录。如何将Sparklibjar(包括spark-core及其依赖项)添加到Oozie的共享库中？任何评论/回答表示赞赏。最佳答案 Sparkaction计划与Oozie4.2.0一起发布，尽管文档似乎有点落后。在此处查看相关的JIRA:OozieJIRA-AddsparkactionexecutorCloudera的CD

hadoop Spark blockquote Oozie workflow apache-spark

hadoop - Apache Spark JDBCRDD 使用 HDFS 吗？

ApacheSparkJDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点？我们正在使用JdbcRDD与apachespark上的数据库进行交互。我们想知道ApacheSpark是使用HDFS来分发和存储数据库表记录还是工作节点直接与数据库交互。最佳答案 JdbcRDD不使用HDFS，直接从JDBC连接读取数据到worker内存中的RDD。如果您想要HDFS上的结果，您必须明确地将RDD持久化到HDFS。你可以在这里看到JdbcRDD是如何运作的https://github.com/apache/spark/blob

JDBCRDD hadoop section apache apache-spark hdfs spark-streaming rdd

python - Apache Spark Python 到 Scala 的翻译

如果我做对了，ApacheYARN将ApplicationMaster和NodeManager作为JAR文件接收。它们作为Java进程在YARN集群的节点上执行。当我使用Python编写Spark程序时，它是否以某种方式编译成JAR？如果不是，为什么Spark能够在YARN集群节点上执行Python逻辑？最佳答案 PySpark驱动程序使用Py4J(http://py4j.sourceforge.net/)启动JVM并创建Spark上下文。用Python编写的SparkRDD操作映射到PythonRDD上的操作。在远程worker

python Apache section Spark hadoop apache-spark hadoop-yarn pyspark

【物联网】EMQX(二)——docker快速搭建EMQX 和 MQTTX客户端使用

一、前言在上一篇文章中，小编向大家介绍了物联网必然会用到的消息服务器EMQ，相信大家也对EMQ有了一定的了解，那么接下来，小编从这篇文章正式开始展开对EMQ的学习教程，本章节来记录一下如何对EMQ进行安装。二、使用Docker快速安装EMQEMQ作为第三方中间件，可以安装到很多种平台上，比如macOS、windows、Centos、Ubuntu等等。安装部署非常的简单，下面小编亿在mac上进行docker安装为例，展示一下安装过程。当然在生产环境，最好还是使用物理机部署emq，保证emq的稳定。Docker容器开发，相信大家应该或多或少有所了解，了解的同学可以直接跳过docker的安装过程，如

mdash EMQX xff span xff0c 物联网 docker 容器

r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src

最近我发现了很棒的dplyr.spark.hive启用dplyr的软件包前端操作spark或hive后端。在包的README中有关于如何安装此包的信息:options(repos=c("http://r.piccolboni.info",unlist(options("repos"))))install.packages("dplyr.spark.hive")还有很多关于如何使用dplyr.spark.hive的例子当一个已经连接到hiveServer-checkthis.但我无法连接到hiveServer,所以我无法从这个包的强大功能中受益...我试过这样的命令，但没有成功。有没有人

中创 dplyr spark code r hadoop apache-spark hive

performance - Spark 本地 vs hdfs 性能

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3GB的文本文件。我有一个简单的字数统计pyspark程序。如果我提交从本地文件系统读取文件的程序，它会持续大约33秒。如果我提交从hdfs读取文件的程序，它会持续大约46秒。为什么？我期望完全相反的结果。根据sgvd的要求添加:16从1主没有特殊设置的SparkStandalone(复制因子3)版本1.5.2importsyssys.path.insert(0,'/usr/local/spark/python/')sys.path.insert(0,'/usr/l

performance Spark 39 section code hadoop apache-spark

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下，我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓

spark-submit proxy-user section hadoop apache-spark hadoop-yarn

web-services - 将 Spark RDD 上传到 REST webservice POST 方法

坦率地说，我不确定这个功能是否存在？抱歉我的要求是每天将spark分析数据发送到文件服务器，文件服务器支持通过SFTP和RESTWebservicepost调用进行文件传输。最初的想法是将SparkRDD保存到HDFS，通过SFTP传输到文件服务器。我想知道是否可以通过从spark驱动程序类调用REST服务直接上传RDD而无需保存到HDFS。数据大小小于2MB抱歉我的英语不好! 最佳答案 Spark没有特定的方法来做到这一点。对于这种数据大小，通过HDFS或其他类型的存储是不值得的。您可以在驱动程序的内存中收集该数据并直接发送。对于

传到 web-services section http noreferrer scala rest hadoop apache-spark

235 236 237238239 240 241