scala-cats

scala - 有没有办法从 Scala 中数据框的现有列创建多列？

我正在尝试将RDBMS表提取到Hive中。我通过以下方式获得了数据框:valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable","(select*fromschema.tablenamewheresource_system_name='DB2'andperiod_year='2017')asyear2017").option("user",devUserName).option("password",devPassword).option("numPartitions",15).lo

多列 scala col string 34 apache-spark hadoop

scala - YARN : how to monitor stages progress programatically? 上的 Spark 2.3.1

我有一个在YARN上运行Spark的设置，我的目标是通过应用程序ID以编程方式获取Spark作业进度的更新。我的第一个想法是解析YARNGUI的HTML输出。然而，这种GUI的问题是，与spark作业关联的进度条不会定期更新，甚至大部分时间都不会更改:当作业开始时，百分比大约是10%，并且卡住了到这个值，直到工作完成。所以这样的YARN进度条与SparkJobs无关。当我单击与Spark作业对应的ApplicationMaster链接时，我将被重定向到在作业运行期间临时绑定(bind)的SparkGUI。阶段页面与Spark作业的进度非常相关。然而，它是纯HTML，因此解析起来很痛苦。

programatically progress Spark section scala apache-spark hadoop hadoop-yarn

scala - 使用spark scala将行转换为列

我想使用spark数据框将行转换为列。我的table是这样的Eno,Name1,A1,B1,C2,D2,E我想把它转换成Eno,n1,n2,n31,A,B,C2,D,E,Null我使用了下面的代码:-valr=spark.sqlContext.read.format("csv").option("header","true").option("inferschema","true").load("C:\\Users\\axy\\Desktop\\abc2.csv")valn=Seq("n1","n2","n3"r.groupBy("Eno").pivot("Name",n).agg(e

scala spark 34 section code apache-spark hadoop hive bigdata

scala - Spark Scala S3 存储 : permission denied

我在Internet上阅读了很多关于如何让Spark与S3一起工作的主题，但仍然没有任何东西可以正常工作。我已经下载了:Spark2.3.2withhadoop2.7andabove.我只从Hadoop2.7.7(匹配Spark/Hadoop版本)复制了一些库到Sparkjars文件夹:hadoop-aws-2.7.7.jarhadoop-auth-2.7.7.jaraws-java-sdk-1.7.4.jar我仍然无法使用S3N或S3A来让spark读取我的文件:对于S3A我有这个异常(exception):sc.hadoopConfiguration.set("fs.s3a.acc

permission denied 34 hadoopConfiguration hadoop scala apache-spark amazon-s3

scala - 如何使用 withColumn Spark Dataframe scala with while

这是我的函数应用规则，colmdp_codcat,mdp_idregl,usedRefchangechangesaccordingtothedatainarraybRef.defwithMdpCodcat(bRef:Broadcast[Array[RefRglSDC]])(dataFrame:DataFrame):DataFrame={varmatchRule=falsevari=0while(i示例-我的数据框:valDF=Seq(("tt","aa","bb"),("tt1","aa1","bb2"),("tt1","aa1","bb2")).toDF("t","a","b)+--

scala withColumn 34 bRef value apache-spark hadoop apache-spark-sql

scala - 如何在 Spark 提交中将 s3a 与 Apache spark 2.2(hadoop 2.8) 一起使用？

我正在尝试使用使用hadoop2.8版本构建的spark2.2.0从spark访问S3数据，我正在使用/jars/hadoop-aws-2.8.3。jar,/jars/aws-java-sdk-s3-1.10.6.jar和/jars/aws-java-sdk-core-1.10.6.jar在类路径我得到以下异常java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatisticsatjava.lang.Class.forName0(NativeMethod)atjava.lang.Class.forName(Class

何在 Apache java hadoop scala apache-spark amazon-s3 pyspark-sql

scala - 从 spark dataframe 或 RDD 生成键值对，键中存在列名

我有一个spark数据框，我需要如下所示的键值对。我特别需要键中的列名。我想使用单个映射器传递来执行此操作。原始数据集:预期键值对:(Attribute_Name,Attribute_Value,Class),1单次映射后的预期结果:预期数据集最佳答案这应该有帮助:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.functions.{explode,udf,typedLit}importorg.apache.spark.sql.S

列名 dataframe 34 header section scala apache-spark hadoop apache-spark-sql decision-tree

Scala 嵌套映射到 Spark RDD

我正在尝试将映射列表(Seq[Map[String,Map[String,String]])转换为RDD表/元组，其中映射中的每个键->值对平面映射到元组用外面map的key。例如Map(1->Map('k'->'v','k1'->'v1'))成为(1,'k','v')(1,'k1','v1')我试过下面的方法，但它似乎在并发问题上失败了。我有两个工作节点，它复制了键->值两次(我认为这是因为我做错了)假设我将我的map类型保存在案例类“记录”中valrdd=sc.parallelize(1torecords.length)valrecordsIt=records.iteratorva

Scala Spark code String section apache-spark hadoop apache-spark-sql rdd

scala - 如何过滤掉 spark 数据框中的 bool 字段？

我的数据框中有三列。第二个和第三个是bool字段。我想过滤掉真实的值。我试过这个nn.filter(col("col3")===true).show但它说无效的列名“true”。我的代码有什么问题？有什么帮助吗？我的代码:scala>nn.printSchemaroot|--ID:integer(nullable=true)|--col2:boolean(nullable=true)|--col3:boolean(nullable=true)scala>nn.show+---+-----+-----+|ID|col2|col3|+---+-----+-----+|4|true|fals

scala spark false apache apache-spark hadoop

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori

Scalding tutorial section scala hadoop

120 121 122123124 125 126