$Spark

hadoop - Google Cloud Dataproc - Spark 和 Hadoop 版本

在GoogleCloudDataproc测试版中，Spark和Hadoop的版本是什么？Spark是为哪个版本的Scala编译的？最佳答案根据officialannouncement:Today,wearelaunchingwithclustersthathaveSpark1.5andHadoop2.7.1. 关于hadoop-GoogleCloudDataproc-Spark和Hadoop版本，我们在StackOverflow上找到一个类似的问题： ht

java - 使用带迭代器的 mapPartition 保存 spark RDD

我有一些中间数据需要存储在HDFS和本地。我正在使用Spark1.6。在作为中间形式的HDFS中，我在/output/testDummy/part-00000和/output/testDummy/part-00001中获取数据。我想使用Java/Scala将这些分区保存在本地，这样我就可以将它们保存为/users/home/indexes/index.nt(通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码:注意:testDummy与test相同，输出有两个分区。我想将它们单独存

mapPartition spark code println 34 java scala hadoop apache-spark hdfs

java - Apache Spark : TaskResultLost (result lost from block manager) Error On cluster

我在Virtualbox上有一个带有3个从节点的Spark独立集群。我的代码在Java上，它可以很好地处理我的小输入数据集，它们的输入总共大约100MB。我将我的虚拟机RAM设置为16GB，但是当我在大输入文件(大约2GB)上运行我的代码时，在我的reduce部分处理数小时后出现此错误:Jobabortedduetostagefailure:Totalsizeofserializedresultsof4tasks(4.3GB)isbiggerthanspark.driver.maxResultSize`我编辑了spark-defaults.conf并为spark.driver.maxR

TaskResultLost cluster code Boolean section java hadoop apache-spark mapreduce

java - 无法在 Spark 中配置 ORC 属性

我正在使用Spark1.6(Cloudera5.8.2)并尝试了以下方法来配置ORC属性。但不影响输出。下面是我试过的代码片段。DataFramedataframe=hiveContext.createDataFrame(rowData,schema);dataframe.write().format("orc").options(newHashMap(){{put("orc.compress","SNAPPY");put("hive.exec.orc.default.compress","SNAPPY");put("orc.compress.size","524288");put("

Spark java code 34 compress hadoop apache-spark hive cloudera

scala - Spark 作业失败，退出状态为 15

我正在尝试在spark中运行简单的字数统计作业，但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

scala Spark apache java hadoop apache-spark

hadoop - Spark 将数据写入分区的 Hive 表非常慢

我想以普通可读文本格式将Spark数据帧存储到Hive表中。为此，我首先做了sqlContext.sql("SETspark.sql.hive.convertMetastoreParquet=false")我的DataFrame是这样的:final_data1_df=sqlContext.sql("selecta,bfromfinal_data")我正在尝试通过以下方式编写它:final_data1_df.write.partitionBy("b").mode("overwrite").saveAsTable("eefe_lstr3.final_data1")但这很慢，甚至比HIVE写

hadoop Spark final_data section 34 apache-spark pyspark spark-dataframe

hadoop - Spark vs MapReduce，为什么Spark比MR快，原理？

据我所知，Spark将每个节点的磁盘(HDFS)中的数据预加载到每个节点的RDD中进行计算。但正如我猜测的那样，MapReduce必须还将数据从HDFS加载到内存，然后在内存中进行计算。那么..为什么Spark更快速？仅仅因为当MapReduce想要进行计算而Spark预加载数据时，MapReduce每次都将数据加载到内存中？非常感谢。最佳答案 Spark使用弹性分布式数据集(RDD)的概念，它允许透明地将数据存储在内存中，并在需要时将其保存到磁盘。另一方面，在Mapreduce中，在Map和reduce任务之后数据将被洗牌和排序

Spark MapReduce section 中进 hadoop apache-spark

hadoop - Spark 写入 hdfs 不使用 saveAsNewAPIHadoopFile 方法

我在CDH5.2.0上使用Spark1.1.0，并试图确保我可以读取和写入hdfs。我很快意识到.textFile和.saveAsTextFile调用旧的api并且似乎与我们的hdfs版本不兼容。deftestHDFSReadOld(sc:SparkContext,readFile:String){//THISWILLFAILWITH//(TID0,dl1rhd416.internal.edmunds.com):java.lang.IllegalStateException:unreadblockdata//java.io.ObjectInputStream$BlockDataInpu

saveAsNewAPIHadoopFile hadoop ConnectionManager classOf 34 hdfs apache-spark cloudera

python - spark 1.3.0、python、avro 文件、在 spark-defaults.conf 中设置的驱动程序类路径，但从属设备看不到

我正在使用带有python的spark1.3.0。我有一个使用以下命令读取avro文件的应用程序:conf=NonerddAvro=sc.newAPIHadoopFile(fileAvro,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apache.hadoop.io.NullWritable",KeyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",

中设 python code spark section hadoop apache-spark avro

hadoop - Spark : Unable to instantiate org. apache.hadoop.hive.metastore.HiveMetaStoreClient

我正在运行Hadoop2.7.0、hive1.1.0和spark1.3.1。我在mysql数据库中有我的Metastore数据库。我可以从HiveShell创建和查看数据。hive(dwhdb)>select*fromdwhdb.test_sample;OKtest_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_salEid1 EName1 EDept1 100.0Eid2 EName2 EDept1 102.0Eid3 EName3 EDept1 101.0Eid4 EName4 EDe

hadoop HiveMetaStoreClient apache spark SparkILoop hive apache-spark

74 75 767778 79 80