spark-graphx

hadoop - 在 Spark 上进行 rank() 的有效方法？

我在PySpark上有一个三列数据框，我正在尝试在SQL上执行与RANK()OVER(PARTITIONBY...ORDERBY...)等效的操作。数据框df看起来像:col1,col2,scoreA,B,0.500...我知道我可以为此使用窗口函数:frompyspark.sql.windowimportWindowfrompyspark.sqlimportfunctionsasFwindowSpec=Window.partitionBy(df['col1']).orderBy(df['score'].desc())df=df.select('col1','col2','score'

上进 hadoop code section 39 apache-spark pyspark

java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()

我正在尝试在spark作业中读取lzo文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadLzo"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],LzoTextInputFormat.class,NullWritable.class,Text.class,newConfiguration());但是我得到一个编译时异常:Theme

newAPIHadoopFile 何在 code section JavaSparkContext java hadoop apache-spark

hadoop - 将 rdd 从 spark 写入 Elastic Search 失败

我正在尝试在版本2.4.0上将一对rdd写入ElasticCloud上的ElasticSearch。我正在使用elasticsearch-spark_2.10-2.4.0插件写入ES。这是我用来写入ES的代码:defpredict_imgs(r):importjsonout_d={}out_d["pid"]=r["pid"]out_d["other_stuff"]=r["other_stuff"]return(r["pid"],json.dumps(out_d))res2=res1.map(predict_imgs)es_write_conf={"es.nodes":image_es,

Elastic hadoop 34 code es elasticsearch apache-spark databricks

java - 小文件的 Spark 重新分区数据

我是Spark的新手，我使用的集群主要用于并行化目的。我有一个100MB的文件，其中的每一行都经过某种算法处理，这是一个相当繁重且漫长的处理过程。我想使用10节点集群并并行处理。我知道block大小超过100MB，我尝试重新分区textFile。如果我理解得很好，这个repartition方法增加了分区的数量:JavaRDDinput=sc.textFile(args[0]);input.repartition(10);问题是当我部署到集群时，只有一个节点在有效处理。我怎样才能设法并行处理文件？更新1:这是我的spark-submit命令:/usr/bin/spark-submit--

Spark java code String input hadoop apache-spark hadoop-partitioning

hadoop - 在 Spark 中保存有序数据框

我正在尝试将有序数据帧保存到HDFS中。我的代码如下所示:dataFrame.orderBy("index").write().mode(SaveMode.Overwrite).parquet(getPath());我在两个不同的集群上运行相同的代码，一个集群使用Spark1.5.0，另一个-1.6.0。当使用Spark1.5.0在集群上运行时，它不会在保存到光盘后保留排序。是否有任何特定的集群设置可以在将数据保存到光盘时保留排序？还是spark版本的已知问题？我搜索了spark文档，但找不到任何相关信息。更新:我检查过parquet中的文件，在这两种情况下文件都已排序。所以在读取时出

有序 hadoop section strong 的 apache-spark dataframe

hadoop - Spark/Hadoop 无法读取根文件

我正在尝试通过spark读取只有我(和root)可以读/写的文件夹中的文件，首先我启动shell:spark-shell--masteryarn-client然后我:valbase=sc.textFile("file///mount/bases/FOLDER_LOCKED/folder/folder/file.txt")base.take(1)出现如下错误:2018-02-1913:40:20,835WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,mydomain,executor1):java.io.FileNotFou

hadoop RawLocalFileSystem section apache-spark

apache-spark - pyspark 的 toDF() 与 createDataFrame() 的奇怪行为

我是初学者，刚开始使用spark。我在pySpark(Scala2.11.8)中执行了以下查询dic=[{"a":1},{"b":2},{"c":3}]spark.parallelize(dic).toDF()df.show()然后产生:+----+|a|+----+|1||null||null|+----+而当我执行spark.createDataFrame(dic).show()时它会产生+----+----+----+|a|b|c|+----+----+----+|1|null|null||null|2|null||null|null|3|+----+----+----+基于Un

createDataFrame apache-spark code section spark hadoop pyspark

apache-spark - 内存配置对公平调度器真的重要吗？

我们有一个配置了公平调度器的hadoop集群。我们过去常常看到这样的场景，即集群中没有多少作业要运行，正在运行的作业试图占用尽可能多的可用内存和内核。对于公平调度程序，执行程序内存和内核对spark作业真的很重要吗？还是取决于公平调度程序来决定给多少？最佳答案 FairScheduler的政策是分配给它的第一个作业将拥有提供的所有资源。当我们运行第二个作业时，所有资源将被划分为(可用资源)/(作业数量)现在主要关注的是，您为运行作业提供了多少容器内存。如果它等于可用资源的总数，那么您的工作确实可以使用所有资源。

平调 apache-spark section stackoverflow questions hadoop cloudera hadoop2

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

apache-spark - 是否有 Hadoop 组件的兼容性矩阵？

我想知道是否有生态系统的各种Hadoop组件的兼容性矩阵？每次Hadoop升级都会对兼容性产生很大的影响，例如:ApacheSpark2.4不支持Hadoopv3，Hadoop不支持Java9和10，等等...我知道像Hortonworks这样的供应商会在每个版本的发行版中发布组件列表，但这并不适合广大公众，因为其中包括已打补丁的组件。是否必须通过Jira的所有错误跟踪器来查找每种工具的兼容性问题？最佳答案像Cloudera/Hortonworks这样的公司所做的关键事情之一就是采用构成Hadoop的所有开源项目，并确保它们能够

apache-spark apache section Hadoop 跟踪器

73 74 757677 78 79