spark_libs

web-services - 将 Spark RDD 上传到 REST webservice POST 方法

坦率地说，我不确定这个功能是否存在？抱歉我的要求是每天将spark分析数据发送到文件服务器，文件服务器支持通过SFTP和RESTWebservicepost调用进行文件传输。最初的想法是将SparkRDD保存到HDFS，通过SFTP传输到文件服务器。我想知道是否可以通过从spark驱动程序类调用REST服务直接上传RDD而无需保存到HDFS。数据大小小于2MB抱歉我的英语不好! 最佳答案 Spark没有特定的方法来做到这一点。对于这种数据大小，通过HDFS或其他类型的存储是不值得的。您可以在驱动程序的内存中收集该数据并直接发送。对于

传到 web-services section http noreferrer scala rest hadoop apache-spark

hadoop - Apache Spark : Apply existing mllib model on Incoming DStreams/DataFrames

使用ApacheSpark的mllib，我有一个存储在HDFS中的逻辑回归模型。此逻辑回归模型是根据来自某些传感器的历史数据进行训练的。我有另一个spark程序，它使用来自这些传感器的流数据。我希望能够使用预先存在的训练模型对传入的数据流进行预测。注意:我不希望我的模型被这些数据更新。要加载训练模型，我必须在我的代码中使用以下行:vallogisticModel=LogisticRegressionModel.load(sc,)sc:Spark上下文。但是，这个应用程序是一个流应用程序，因此已经有一个“StreamingContext”设置。现在，根据我的阅读，在同一个程序中有两个上下

DataFrames Incoming code StreamingContext SparkContext hadoop apache-spark machine-learning apache-spark-mllib

eclipse - 使用 scala 将 spark 作业从 eclipse 提交到 yarn-client

我是spark和scala的新手，我很难以YARN客户端的身份提交Spark作业。通过sparkshell(sparksubmit)执行此操作没有问题，同样适用于:首先在eclipse中创建一个spark作业，然后将其编译成jar并通过内核shell使用sparksubmit，例如:spark-submit--classebicus.WordCount/u01/stage/mvn_test-0.0.1.jar但是用Eclipse直接编译提交给YARN好像比较难。我的项目设置如下:我的集群正在运行CDHcloudera5.6。我有一个Maven项目，使用Scala，Myclasspath

eclipse 交到 hadoop spark 34 scala apache-spark hadoop-yarn

hadoop - 在 Spark 上进行 rank() 的有效方法？

我在PySpark上有一个三列数据框，我正在尝试在SQL上执行与RANK()OVER(PARTITIONBY...ORDERBY...)等效的操作。数据框df看起来像:col1,col2,scoreA,B,0.500...我知道我可以为此使用窗口函数:frompyspark.sql.windowimportWindowfrompyspark.sqlimportfunctionsasFwindowSpec=Window.partitionBy(df['col1']).orderBy(df['score'].desc())df=df.select('col1','col2','score'

上进 hadoop code section 39 apache-spark pyspark

java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()

我正在尝试在spark作业中读取lzo文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadLzo"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],LzoTextInputFormat.class,NullWritable.class,Text.class,newConfiguration());但是我得到一个编译时异常:Theme

newAPIHadoopFile 何在 code section JavaSparkContext java hadoop apache-spark

java - 链接两个作业时 hadoop.mapreduce.lib.input.FileInputFormat.getBlockIndex 中的 NullPointerException

我正在尝试构建倒排索引。我链接了两个作业。基本上，第一个作业解析输入并对其进行清理，并将结果存储在文件夹“output”中，该文件夹是第二个作业的输入文件夹。第二个工作应该实际构建倒排索引。当我刚找到第一份工作时，它工作得很好(至少，没有异常(exception))。我像这样链接两个作业:publicclassMain{publicstaticvoidmain(String[]args)throwsException{StringinputPath=args[0];StringoutputPath=args[1];StringstopWordsPath=args[2];Stringfi

NullPointerException FileInputFormat code job class java hadoop mapreduce

hadoop - 将 rdd 从 spark 写入 Elastic Search 失败

我正在尝试在版本2.4.0上将一对rdd写入ElasticCloud上的ElasticSearch。我正在使用elasticsearch-spark_2.10-2.4.0插件写入ES。这是我用来写入ES的代码:defpredict_imgs(r):importjsonout_d={}out_d["pid"]=r["pid"]out_d["other_stuff"]=r["other_stuff"]return(r["pid"],json.dumps(out_d))res2=res1.map(predict_imgs)es_write_conf={"es.nodes":image_es,

Elastic hadoop 34 code es elasticsearch apache-spark databricks

java - 小文件的 Spark 重新分区数据

我是Spark的新手，我使用的集群主要用于并行化目的。我有一个100MB的文件，其中的每一行都经过某种算法处理，这是一个相当繁重且漫长的处理过程。我想使用10节点集群并并行处理。我知道block大小超过100MB，我尝试重新分区textFile。如果我理解得很好，这个repartition方法增加了分区的数量:JavaRDDinput=sc.textFile(args[0]);input.repartition(10);问题是当我部署到集群时，只有一个节点在有效处理。我怎样才能设法并行处理文件？更新1:这是我的spark-submit命令:/usr/bin/spark-submit--

Spark java code String input hadoop apache-spark hadoop-partitioning

hadoop - 在 Spark 中保存有序数据框

我正在尝试将有序数据帧保存到HDFS中。我的代码如下所示:dataFrame.orderBy("index").write().mode(SaveMode.Overwrite).parquet(getPath());我在两个不同的集群上运行相同的代码，一个集群使用Spark1.5.0，另一个-1.6.0。当使用Spark1.5.0在集群上运行时，它不会在保存到光盘后保留排序。是否有任何特定的集群设置可以在将数据保存到光盘时保留排序？还是spark版本的已知问题？我搜索了spark文档，但找不到任何相关信息。更新:我检查过parquet中的文件，在这两种情况下文件都已排序。所以在读取时出

有序 hadoop section strong 的 apache-spark dataframe

hadoop - Spark/Hadoop 无法读取根文件

我正在尝试通过spark读取只有我(和root)可以读/写的文件夹中的文件，首先我启动shell:spark-shell--masteryarn-client然后我:valbase=sc.textFile("file///mount/bases/FOLDER_LOCKED/folder/folder/file.txt")base.take(1)出现如下错误:2018-02-1913:40:20,835WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,mydomain,executor1):java.io.FileNotFou

hadoop RawLocalFileSystem section apache-spark

98 99 100101102 103 104