spark-dataframe

scala - Spark 作业失败，退出状态为 15

我正在尝试在spark中运行简单的字数统计作业，但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

hadoop - Spark 将数据写入分区的 Hive 表非常慢

我想以普通可读文本格式将Spark数据帧存储到Hive表中。为此，我首先做了sqlContext.sql("SETspark.sql.hive.convertMetastoreParquet=false")我的DataFrame是这样的:final_data1_df=sqlContext.sql("selecta,bfromfinal_data")我正在尝试通过以下方式编写它:final_data1_df.write.partitionBy("b").mode("overwrite").saveAsTable("eefe_lstr3.final_data1")但这很慢，甚至比HIVE写

hadoop Spark final_data section 34 apache-spark pyspark spark-dataframe

hadoop - Spark vs MapReduce，为什么Spark比MR快，原理？

据我所知，Spark将每个节点的磁盘(HDFS)中的数据预加载到每个节点的RDD中进行计算。但正如我猜测的那样，MapReduce必须还将数据从HDFS加载到内存，然后在内存中进行计算。那么..为什么Spark更快速？仅仅因为当MapReduce想要进行计算而Spark预加载数据时，MapReduce每次都将数据加载到内存中？非常感谢。最佳答案 Spark使用弹性分布式数据集(RDD)的概念，它允许透明地将数据存储在内存中，并在需要时将其保存到磁盘。另一方面，在Mapreduce中，在Map和reduce任务之后数据将被洗牌和排序

Spark MapReduce section 中进 hadoop apache-spark

hadoop - Spark 写入 hdfs 不使用 saveAsNewAPIHadoopFile 方法

我在CDH5.2.0上使用Spark1.1.0，并试图确保我可以读取和写入hdfs。我很快意识到.textFile和.saveAsTextFile调用旧的api并且似乎与我们的hdfs版本不兼容。deftestHDFSReadOld(sc:SparkContext,readFile:String){//THISWILLFAILWITH//(TID0,dl1rhd416.internal.edmunds.com):java.lang.IllegalStateException:unreadblockdata//java.io.ObjectInputStream$BlockDataInpu

saveAsNewAPIHadoopFile hadoop ConnectionManager classOf 34 hdfs apache-spark cloudera

python - spark 1.3.0、python、avro 文件、在 spark-defaults.conf 中设置的驱动程序类路径，但从属设备看不到

我正在使用带有python的spark1.3.0。我有一个使用以下命令读取avro文件的应用程序:conf=NonerddAvro=sc.newAPIHadoopFile(fileAvro,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apache.hadoop.io.NullWritable",KeyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",

中设 python code spark section hadoop apache-spark avro

hadoop - Spark : Unable to instantiate org. apache.hadoop.hive.metastore.HiveMetaStoreClient

我正在运行Hadoop2.7.0、hive1.1.0和spark1.3.1。我在mysql数据库中有我的Metastore数据库。我可以从HiveShell创建和查看数据。hive(dwhdb)>select*fromdwhdb.test_sample;OKtest_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_salEid1 EName1 EDept1 100.0Eid2 EName2 EDept1 102.0Eid3 EName3 EDept1 101.0Eid4 EName4 EDe

hadoop HiveMetaStoreClient apache spark SparkILoop hive apache-spark

java - Spark 无法访问 hbase 但可以使用 java 代码访问

我正在使用spark1.3.0和hbase1.0。一星期后。Hbase使用java代码运行成功。但是当将Hbase与spark一起使用时会出现错误。我还检查了hbaseshell是否工作正常。这个错误发生在很长时间之后，否则也可以与spark一起正常工作。我已经检查过hadoop和hbase集群健康状况良好。在Spark界面Causedby:java.io.IOException:Enable/Disablefailedatorg.apache.hadoop.hbase.client.ZooKeeperRegistry.isTableOnlineState(ZooKeeperRegis

java Spark apache hbase hadoop apache-spark apache-zookeeper

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

我正在使用spark1.5。我想从HDFS中的文件创建一个dataframe。HDFS文件包含json数据，其中包含大量序列输入文件格式的字段。有没有办法在java中优雅地做到这一点？事先不知道json的结构/字段。我能够从序列文件中将输入作为RDD，如下所示:JavaPairRDDinputRDD=jsc.sequenceFile("s3n://key_id:secret_key@file/path",LongWritable.class,BytesWritable.class);JavaRDDevents=inputRDD.map(newFunction,String>(){pub

sequenceFile DataFrame String section BytesWritable hadoop apache-spark hdfs

hadoop - 如何在 aws us-east-2 上将 s3a 与 spark 2.1.0 一起使用？

背景我一直在努力为自己获取一个灵活的设置，以便在aws上使用spark和dockerswarm模式。我一直在使用的docker镜像配置为使用最新的spark，当时是2.1.0和Hadoop2.7.3，可在jupyter/pyspark-notebook获得。.这是有效的，我一直在测试我计划使用的各种连接路径。我遇到的问题是与s3交互的正确方式的不确定性。我一直在跟踪如何使用s3a为spark提供依赖项以连接到awss3上的数据。协议(protocol)，对比s3n协议(protocol)。我终于找到了hadoopawsguide并认为我正在关注如何提供配置。但是，我仍然收到400Bad

何在 us-east code hadoop section apache-spark amazon-s3 pyspark parquet

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量，因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

Cassandra hadoop ClusterTaskSetManager cluster 16 scala cassandra-2.0 apache-spark

78 79 808182 83 84