Spark-DataFrame

hadoop - 嵌入式模式下的 Spark - 未找到用户/配置单元/仓库

我在嵌入式本地模式下使用ApacheSpark。我的pom.xml和同一版本(spark-core_2.10、spark-sql_2.10和spark-hive_2.10)中包含所有依赖项。我只想运行一个HiveQL查询来创建一个表(存储为Parquet)。运行以下(相当简单的)代码:publicclassApp{publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException{SparkConfsparkConf=newSparkConf().setAppName("JavaSparkSQL").se

maven - 如何将 proto3 与 Hadoop/Spark 一起使用？

我有几个依赖于syntax="proto3";的.proto文件。我还有一个用于构建Hadoop/Spark作业(Hadoop2.7.1和Spark1.5.2)的Maven项目。我想在Hadoop/Spark中生成数据，然后根据我的proto3文件对其进行序列化。使用libprotoc3.0.0，只要我的pom.xml中包含以下内容，我生成的Java源代码就可以在我的Maven项目中正常工作:com.google.protobufprotobuf-java3.0.0-beta-1现在，当我在部署到集群的作业中使用我的libprotoc生成的类时，我遇到了:java.lang.Verif

Hadoop proto3 protobuf google section maven apache-spark protocol-buffers

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换，因此它不能是S3的直接副本。我将使用Spark来访问数据，但我想知道是否可以不使用Spark来处理它，写回S3，然后复制到Redshift，如果我可以跳过一个步骤，运行查询以提取/转换数据，然后将其直接复制到Redshift？最佳答案没问题，完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

Redshift Parquet section code 34 hadoop amazon-s3 apache-spark apache-spark-sql

hadoop - 如何使用 Spark 从目录中递归读取 Hadoop 文件？

在给定的目录中，我有许多不同的文件夹，在每个文件夹中，我都有Hadoop文件(part_001等)。directory->folder1->part_001...->part_002...->folder2->part_001......给定目录，我如何递归读取该目录中所有文件夹的内容，并使用Scala将这些内容加载到Spark中的单个RDD中？我找到了这个，但它不会递归地进入子文件夹(我正在使用importorg.apache.hadoop.mapreduce.lib.input):varjob:Job=nulltry{job=Job.getInstance()FileInputFo

hadoop code section pre apache-spark

java - 由于 java.io.NotSerializableException : org. apache.spark.SparkContext，Spark 作业失败

当我尝试在RDD[(Int,ArrayBuffer[(Int,Double)])]输入上应用方法(ComputeDwt)时，我遇到了上述异常。我什至使用extendsSerialization选项来序列化spark中的对象。这是代码片段。input:series:RDD[(Int,ArrayBuffer[(Int,Double)])]DWTsampleextendsSerializationisaclasshavingcomputeDwtfunction.sc:sparkContextvalkk:RDD[(Int,List[Double])]=series.map(t=>(t._1,n

NotSerializableException java DAGScheduler apache spark scala hadoop apache-spark

apache-spark - Spark 中的沿袭是什么？

沿袭如何帮助重新计算数据？例如，我有多个节点，每个节点计算数据30分钟。如果15分钟后失败，我们是否可以使用沿袭重新计算15分钟内处理的数据而不再次给出15分钟？最佳答案 RDD的定义中包含有关沿袭的所有信息。那么让我们回顾一下:RDDsareimmutabledistributedcollectionofelementsofyourdatathatcanbestoredinmemoryordiskacrossaclusterofmachines.Thedataispartitionedacrossmachinesinyourcl

沿袭 apache-spark section stackoverflow hadoop data-lineage

scala - 直接从 Spark shell 读取 ORC 文件

我在直接从Sparkshell读取ORC文件时遇到问题。注意:运行Hadoop1.2，和Spark1.2，使用pysparkshell，可以使用spark-shell(运行scala)。我用过这个资源http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/Apache_Spark_Quickstart_v224/content/ch_orc-spark-quickstart.html.frompyspark.sqlimportHiveContexthiveCtx=HiveContext(sc)inputRead=sc.hadoop

scala Spark section code hadoop apache-spark hive pyspark

scala - 从配置单元表中读取并使用 spark sql 写回它

我正在使用SparkSQL读取Hive表并将其分配给scalavalvalx=sqlContext.sql("select*fromsome_table")然后我对数据框x进行一些处理，最后得到一个数据框y，它具有与表some_table完全相同的模式。最后，我试图将y数据框插入到同一个配置单元表some_table中y.write.mode(SaveMode.Overwrite).saveAsTable().insertInto("some_table")然后我得到错误org.apache.spark.sql.AnalysisException:Cannotinsertoverwri

配置单 scala table 34 section apache-spark hadoop apache-spark-sql

Spark例子

Spark例子以下是一个简单的AISpark例子：假设我们有一个数据集，包含房屋大小、卧室数量和售价。我们想使用Spark来预测房屋售价。首先，我们需要导入所需的库和数据。在这个例子中，我们将使用Pyspark。```pythonfrompyspark.sql.functionsimport*frompyspark.ml.featureimportVectorAssemblerfrompyspark.ml.regressionimportLinearRegression#创建SparkSessionspark=SparkSession.builder.appName('house_price_

例子 Spark 61 board xff0c 大数据分布式

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式，但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs)，即使我处于集群模式。我知道我可以使用客户端模式，但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

Cluster scala code apache java hadoop apache-spark