sparking

scala - 在 apache spark 中读取 RDF

我正在尝试使用ApacheJena将RDF\XML文件读入Apachespark(scala2.11，apachespark1.4.1)。我写了这个Scala片段:valfactory=newRdfXmlReaderFactory()HadoopRdfIORegistry.addReaderFactory(factory)valconf=newConfiguration()conf.set("rdf.io.input.ignore-bad-tuples","false")valdata=sc.newAPIHadoopFile(path,classOf[RdfXmlInputFormat

apache scala 34 org hadoop apache-spark rdf apache-jena

java - 未安装 Hadoop 的 Spark ML

我正在尝试在完全不包含Hadoop的环境中运行SparkML算法。我还没有从教程和其他帖子中弄清楚这是否可能:我可以在不使用任何版本的Hadoop和任何HDFS的情况下运行Spark吗？还是我应该安装Hadoop才能启动Spark？运行Sparkshell时，我收到以下消息:C:\spark-2.2.0-bin-without-hadoop\bin>spark-shellExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spar

Hadoop Spark SparkSubmitArguments apache java apache-spark

hadoop - 网络连接(TCP IP)关闭时如何停止Spark Streaming上下文？

换句话说，我不想将Spark流上下文中的“持续时间”设置为一个值，而是想将其设置为(套接字关闭时间-套接字打开时间) 最佳答案您可以使用StreamingListner监听接收器断开连接的接口(interface)，然后关闭流上下文。这用作//definelistenerclassMyListenerextendsStreamingListener{overridedefonReceiverStopped(...){streamingContext.stop()}}//attachlistenerstreamingContext.

Streaming hadoop section 流上套接字 apache-spark

hadoop - 在 Spark Java 中将文本文件转换为序列格式

在SparkJava中，如何将文本文件转换为序列文件？以下是我的代码:SparkConfsparkConf=newSparkConf().setAppName("txt2seq");sparkConf.setMaster("local").set("spark.executor.memory","1g");sparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");JavaSparkContextctx=newJavaSparkContext(sparkConf);JavaPairRDDi

本文 hadoop String 34 class apache-spark hadoop2 sequencefile

hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件

我创建了一个实时应用程序，在其中使用flume将数据流从weblogs写入hdfs，然后使用sparkstream处理该数据。但是当flume在hdfs中写入和创建新文件时，spark流无法处理这些文件。如果我使用put命令将文件放入hdfs目录，则sparkstream能够读取和处理文件。任何有关相同的帮助都会很棒。最佳答案您自己已经检测到问题:当数据流继续时，HDFS文件被“锁定”并且不能被任何其他进程读取。相反，正如您所经历的那样，如果您放入一批数据(这是您的文件，一批，而不是流)，一旦上传就可以读取了。无论如何，不是

水槽 hadoop section Spark 放入 apache-spark hdfs spark-streaming flume-ng

java - 如何在spark中读取HDFS序列文件

我正在尝试将文件从HDFS(在本例中为s3)读入spark作为RDD。该文件位于SequenceInputFileFormat中。但是我无法将文件的内容解码为字符串。我有以下代码:packagecom.spark.example.ExampleSpark;importjava.util.List;importscala.Tuple2;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.JavaRDD;import

何在 spark import code java hadoop apache-spark hdfs

hadoop - Spark Streaming 异常处理策略

我有一个pyspark流作业，它从s3流式传输目录(使用textFileStream)。每行输入都被解析并输出到hdfs上的parquet格式。这在正常情况下效果很好。但是，当发生以下错误情况之一时，我有哪些选择可以恢复丢失的批量数据？驱动程序在调用foreachRDD时发生异常，其中发生输出操作(可能是HdfsError，或者在输出操作期间出现sparksql异常，例如partitionBy或dataframe.write.parquet())。据我所知，这在Spark中被归类为“Action”(相对于“转换”)。执行器出现异常，可能是因为map()lambda在解析一行时出现异常。

Streaming hadoop code section foreachRDD apache-spark pyspark spark-streaming

scala - 将几个变量从 scala/spark-shell 提供给配置单元表

我在scala/spark-shell中有4个变量。S1=(astring)="age"S2=(anotherstring)="school"D1=(adouble)=0.50D2=(anotherdouble)=0.75我需要像这样将其提供给配置单元表:因子系数0.50岁学校0.75我能够从scala/spark-shell创建表:valhiveContext=neworg.apache.spark.sql.hive.HiveContext(sc)//后续作品hiveContext.sql("createtablestudents_table(factorSTRING,coeffFL

配置单 scala section code hadoop apache-spark hive apache-spark-sql

hadoop - 什么会影响在 spark 中混洗的数据量

例如，我在spark上执行一些查询，在sparkUI中我可以看到一些查询有更多的shuffle，这个shuffle似乎是本地读取和执行者之间读取的数据量。但是我不明白一件事，例如下面的这个查询从HDFS加载了7GB，但是suffleread+shuffledwrite超过10GB。但我看到其他查询也从HDFS加载了7GB，而随机播放大约是500kb。所以我不明白这一点，你能帮忙吗？shuffle的数据量与从hdfs读取的数据无关？selectnation,o_year,sum(amount)assum_profitfrom(selectn_nameasnation,year(o_ord

hadoop spark strong 洗牌 section apache-spark query-optimization apache-spark-sql

scala - 如何在 spark-scala 中将 Iterable[String] 保存到 hdfs

valordersRDD=sc.textFile("/user/cloudera/sqoop_import/orders");valordersRDDStatus=ordersRDD.map(rec=>(rec.split(",")(3),1));valcountOrdersStatus=ordersRDDStatus.countByKey();valoutput=countOrdersStatus.map(input=>input._1+"\t"+input._2);如何将Iterable[String]的输出保存到spark-scala中的hdfs。可迭代[字符串]注意:ouput

scala 何在 section input output hadoop apache-spark mapreduce rdd

242 243 244245246 247 248