草庐IT

JavaSparkContext

全部标签

JavaSparkContext 不可序列化

我将spark与cassandra一起使用,我有一个JavaRDD客户。对于每个客户,我想从cassandra中选择他这样的交互:avaPairRDD>a=client.mapToPair(newPairFunction>(){@OverridepublicTuple2>call(Strings)throwsException{Listb=javaFunctions(sc).cassandraTable(CASSANDRA_SCHEMA,"interaction_by_month_customer").where("ctid=?",s).map(newFunction(){@Overr

java - 在 Spark 中将纯文本文件转换为 Hadoop 序列文件

我现有的项目正在使用Hadoopmap-reduce生成一个具有自定义键和值的XML格式的序列文件。通过一次从输入源读取一行生成XML值,并实现RecordReader以从纯文本返回XML格式的下一个值。例如输入源文件有3行(第一行是标题,其余行是实际数据)id|name|value1|Vijay|10002|Gaurav|20003|Ashok|3000贴图方法序列文件有如下数据:FeedInstanceKey{feedInstanceId=1000,entity=bars}1Vijay1000FeedInstanceKey{feedInstanceId=1000,entity=ba

java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()

我正在尝试在spark作业中读取lzo文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadLzo"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],LzoTextInputFormat.class,NullWritable.class,Text.class,newConfiguration());但是我得到一个编译时异常:Theme

java - 如何在 Java 中使用 newAPIHadoopRDD 读取 MongoDB 集合后停止线程?

我正在使用Java中的newAPIHadoopRDD读取MongoDB集合。首先,我使用以下类创建一个JavaSparkContext对象:publicclassSparkLauncher{publicJavaSparkContextjavaSparkContext;publicSparkLauncher(){javaSparkContext=null;}publicJavaSparkContextgetSparkContext(){if(javaSparkContext==null){System.out.println("SPARKINIT...");try{System.setP

java - 从 SparkSession 获取 JavaSparkContext

我正在使用SparkSession来运行我的spark应用程序,因为我使用了很多spark-sql功能。我想使用JavaSparkContext从列表中创建RDD。但是通过Session我只能得到一个普通SparkContext。有没有办法朝这个方向转换上下文? 最佳答案 确定SparkContext后,您可以使用:SparkContextsc=...JavaSparkContextjsc=JavaSparkContext.fromSparkContext(sc);这将为您返回JavaSparkContext的新实例,但只要您维护S

解决An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext. : java.lang.Illeg

一、问题描述py4j.protocol.Py4JJavaError:AnerroroccurredwhilecallingNone.org.apache.spark.api.java.JavaSparkContext.:java.lang.IllegalAccessError:classorg.apache.spark.storage.StorageUtils$(inunnamedmodule@0xb104ca1)cannotaccessclasssun.nio.ch.DirectBuffer(inmodulejava.base)becausemodulejava.basedoesnotexp

hadoop - Apache Spark : Error on JavaSparkContext. 停止()

当我的spark程序调用JavaSparkContext.stop()时,出现如下错误。14/12/1116:24:19INFOMain:sc.stop{14/12/1116:24:20ERRORConnectionManager:CorrespondingSendingConnectiontoConnectionManagerId(cluster02,38918)notfound14/12/1116:24:20ERRORSendingConnection:ExceptionwhilereadingSendingConnectiontoConnectionManagerId(clust

hadoop - 是否可以将正则表达式用作 JavaSparkContext 的文本输入格式分隔符?

我有多个文本文件要用JavaSparkContext读取,每个文件可能略有不同并且包含多行记录,所以我想使用正则表达式分隔符来查找记录。是否可以使用正则表达式配置textinputformat分隔符?..Stringregex="^(?!(^a\\s|^b\\s))";JavaSparkContextjsc=newJavaSparkContext(conf);jsc.hadoopConfiguration().set("textinputformat.record.delimiter",regex);.. 最佳答案 不幸的是,事实并

java - SparkContext、JavaSparkContext、SQLContext和SparkSession的区别?

SparkContext,JavaSparkContext,SQLContext和SparkSession有什么区别?是否有任何方法可以使用SparkSession转换或创建上下文?我可以使用一个条目SparkSession完全替换所有上下文吗?SQLContext、SparkContext、JavaSparkContext中的所有函数是否也在SparkSession中?parallelize等一些函数在SparkContext和JavaSparkContext中具有不同的行为。它们在SparkSession中的表现如何?如何使用SparkSession创建以下内容?RDDJavaRD