草庐IT

apache-spark-1.3

全部标签

apache - 使用反射将 pojo 写入 parquet 文件

HI正在寻找API来使用我拥有的Pojos编写parquest。我能够使用反射生成avro模式,然后使用AvroSchemaConverter创建Parquet模式。此外,我无法找到将Pojos转换为GenericRecords(avro)的方法,否则我本可以使用AvroParquetWriter将Pojos写入Parquet文件。有什么建议吗? 最佳答案 如果你想通过avro,你有两个选择:1)让avro生成您的pojo(参见教程here)。生成的pojo扩展了SpecificRecord,然后可以将其与AvroParquetWr

hadoop - Spark 是否支持静态加密?

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它?我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗? 最佳答案 是的,Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密,这意味着您的所有JavaAPI和命令行界面都像以前一样工作,无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop - 如何将 spark rdd 保存到 avro 文件

我正在尝试将rdd保存到avro格式的文件中。这是我的代码的样子:valoutput=s"/test/avro/${date.toString(dayFormat)}"rmr(output)//deleteingthepathrdd.coalesce(64).saveAsNewAPIHadoopFile(output,classOf[org.apache.hadoop.io.NullWritable],classOf[PageViewEvent],classOf[AvroKeyValueOutputFormat[org.apache.hadoop.io.NullWritable,Pag

scala - 使用 org.apache.hadoop/* dependencies 离线编译 sbt 的问题

使用依赖于org.apache.hadoop包的sbt进行离线编译时遇到了很多麻烦。一个简单的build.sbt:name:="Test"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.hadoop"%"hadoop-yarn-api"%"2.2.0"在线时工作正常但离线运行时出现以下错误,而包存在于ivy缓存中(在~/ivy2/cache/org.apache.hadoop/...下):[info]Loadingprojectdefinitionfrom/home/martin/Dev/S/pr

hadoop - 将 Spark 添加到 Oozie 共享库

默认情况下,Oozie共享库目录提供了Hive、Pig和Map-Reduce的库。如果我想在Oozie上运行Spark作业,最好将Sparklibjar添加到Oozie的共享库而不是将它们复制到应用程序的lib目录。如何将Sparklibjar(包括spark-core及其依赖项)添加到Oozie的共享库中?任何评论/回答表示赞赏。 最佳答案 Sparkaction计划与Oozie4.2.0一起发布,尽管文档似乎有点落后。在此处查看相关的JIRA:OozieJIRA-AddsparkactionexecutorCloudera的CD

hadoop - Apache Spark JDBCRDD 使用 HDFS 吗?

ApacheSparkJDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点?我们正在使用JdbcRDD与apachespark上的数据库进行交互。我们想知道ApacheSpark是使用HDFS来分发和存储数据库表记录还是工作节点直接与数据库交互。 最佳答案 JdbcRDD不使用HDFS,直接从JDBC连接读取数据到worker内存中的RDD。如果您想要HDFS上的结果,您必须明确地将RDD持久化到HDFS。你可以在这里看到JdbcRDD是如何运作的https://github.com/apache/spark/blob

python - Apache Spark Python 到 Scala 的翻译

如果我做对了,ApacheYARN将ApplicationMaster和NodeManager作为JAR文件接收。它们作为Java进程在YARN集群的节点上执行。当我使用Python编写Spark程序时,它是否以某种方式编译成JAR?如果不是,为什么Spark能够在YARN集群节点上执行Python逻辑? 最佳答案 PySpark驱动程序使用Py4J(http://py4j.sourceforge.net/)启动JVM并创建Spark上下文。用Python编写的SparkRDD操作映射到PythonRDD上的操作。在远程worker

r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src

最近我发现了很棒的dplyr.spark.hive启用dplyr的软件包前端操作spark或hive后端。在包的README中有关于如何安装此包的信息:options(repos=c("http://r.piccolboni.info",unlist(options("repos"))))install.packages("dplyr.spark.hive")还有很多关于如何使用dplyr.spark.hive的例子当一个已经连接到hiveServer-checkthis.但我无法连接到hiveServer,所以我无法从这个包的强大功能中受益...我试过这样的命令,但没有成功。有没有人

performance - Spark 本地 vs hdfs 性能

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3GB的文本文件。我有一个简单的字数统计pyspark程序。如果我提交从本地文件系统读取文件的程序,它会持续大约33秒。如果我提交从hdfs读取文件的程序,它会持续大约46秒。为什么?我期望完全相反的结果。根据sgvd的要求添加:16从1主没有特殊设置的SparkStandalone(复制因子3)版本1.5.2importsyssys.path.insert(0,'/usr/local/spark/python/')sys.path.insert(0,'/usr/l

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下,我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓