草庐IT

spark-submit

全部标签

尝试Cloudera Spark教程将无法使用“ ClassNotFoundException”

我尝试在类似的现有帖子中建议的解决方案,但对我来说没有任何作用:-(越来越绝望,我决定将其作为一个新问题发布。我尝试了一个教程(下面的链接),以在ClouderaVM中使用Spark构建第一个Scala或Java应用程序。这是我的Spark-Submit命令及其输出[cloudera@quickstartsparkwordcount]$spark-submit--classcom.cloudera.sparkwordcount.SparkWordCount--masterlocal/home/cloudera/src/main/scala/com/cloudera/sparkwordcount

python - Spark 中的分组线性回归

我在PySpark工作,我想找到一种对数据组执行线性回归的方法。特别给出这个数据框importpandasaspdpdf=pd.DataFrame({'group_id':[1,1,1,2,2,2,3,3,3,3],'x':[0,1,2,0,1,5,2,3,4,5],'y':[2,1,0,0,0.5,2.5,3,4,5,6]})df=sqlContext.createDataFrame(pdf)df.show()#+--------+-+---+#|group_id|x|y|#+--------+-+---+#|1|0|2.0|#|1|1|1.0|#|1|2|0.0|#|2|0|0.0

python - lxml 中的 POST 方法表单使用 submit_form 引发 TypeError

我正在尝试使用lxml提交POST方法表单,但出现类型错误。这是引发此错误的最小示例:>>>importlxml.html>>>page=lxml.html.parse("http://www.webcom.com/html/tutor/forms/start.shtml")>>>form=page.getroot().forms[0]>>>form.fields['your_name']='Morphit'>>>result=lxml.html.parse(lxml.html.submit_form(form))Traceback(mostrecentcalllast):File""

python - Apache Spark : Job aborted due to stage failure: "TID x failed for unknown reasons"

我正在处理一些奇怪的错误消息,我认为归结为内存问题,但我很难确定它并且可以使用专家的一些指导。我有一个2机Spark(1.0.1)集群。两台机器都是8核;一个有16GB内存,另一个32GB(主内存)。我的应用程序涉及计算图像中的成对像素亲和性,尽管到目前为止我测试过的图像只有1920x1200大和16x16小。我确实必须更改一些内存和并行设置,否则我会收到明确的OutOfMemoryExceptions。在spark-default.conf中:spark.executor.memory14gspark.default.parallelism32spark.akka.frameSize

python - Spark __getnewargs__ 错误

我正在尝试通过将SparkDataFrame映射到RDD然后再映射回DataFrame来清理它。这是一个玩具示例:defreplace_values(row,sub_rules):d=row.asDict()forcol,old_val,new_valinsub_rules:ifd[col]==old_val:d[col]=new_valreturnRow(**d)ex=sc.parallelize([{'name':'Alice','age':1},{'name':'Bob','age':2}])ex=sqlContext.createDataFrame(ex)(ex.map(lam

Spark性能优化三 checkpoint

(一)checkpoint介绍checkpoint,是Spark提供的一个比较高级的功能。有时候,我们的Spark任务,比较复杂,从初始化RDD开始,到最后整个任务完成,有比较多的步骤,比如超过10个transformation算子。而且,整个任务运行的时间也特别长,比如通常要运行1~2个小时。在这种情况下,就比较适合使用checkpoint功能了。因为对于特别复杂的Spark任务,有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失,虽然之前持久化过,但是还是导致数据丢失了。那么也就是说,出现失败的时候,没有容错机制,所以当后面的transformation算子,又要使用到该RDD

python - 缓存有序的 Spark DataFrame 会创建不需要的作业

我想将RDD转换为DataFrame并想缓存RDD的结果:frompyspark.sqlimport*frompyspark.sql.typesimport*importpyspark.sql.functionsasfnschema=StructType([StructField('t',DoubleType()),StructField('value',DoubleType())])df=spark.createDataFrame(sc.parallelize([Row(t=float(i/10),value=float(i*i))foriinrange(1000)],4),#.ca

python - 分析异常 : u"cannot resolve 'name' given input columns: [ list] in sqlContext in spark

我尝试了一个简单的例子:data=sqlContext.read.format("csv").option("header","true").option("inferSchema","true").load("/databricks-datasets/samples/population-vs-price/data_geo.csv")data.cache()#Cachedataforfasterreusedata=data.dropna()#droprowswithmissingvaluesdata=data.select("2014Populationestimate","2015

python - 如何在集群上保存文件

我使用ssh连接到集群,我使用将程序发送到集群spark-submit--masteryarnmyProgram.py我想将结果保存在文本文件中,我尝试使用以下行:counts.write.json("hdfs://home/myDir/text_file.txt")counts.write.csv("hdfs://home/myDir/text_file.csv")但是,它们都不起作用。程序结束,但我在myDir中找不到文本文件。你知道我该怎么做吗?另外,有没有办法直接写入我的本地机器?编辑:我发现home目录不存在,所以现在我将结果保存为:counts.write.json("hd

python - Apache Spark Python 与 DataFrames 的余弦相似度

对于推荐系统,我需要计算整个SparkDataFrame的所有列之间的余弦相似度。在Pandas中,我曾经这样做过:importsklearn.metricsasmetricsimportpandasaspddf=pd.DataFrame(...somedataframeoverhere:D...)metrics.pairwise.cosine_similarity(df.T,df.T)生成列之间的相似度矩阵(因为我使用了转置)有什么方法可以在Spark(Python)中做同样的事情吗?(我需要将其应用于由数千万行和数千列组成的矩阵,所以这就是我需要在Spark中执行的原因)