scala-cats

scala - 在 Spark RDD Println Error 中，如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序，它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

Println String 34 aaaa scala hadoop apache-spark hadoop-yarn rdd

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢？我希望Spark使用现有的Yarn来调度任务，并能够读写现有的HDFS。我怎样才能做到这一点？最佳答案您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决，那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar

何在 Hadoop spark https section scala apache-spark bigdata

scala - 为什么我的 Spark 应用程序无法使用 "object SparkSession is not a member of package"进行编译，但 spark-core 是依赖项？

我是spark开发的新手，正在尝试在redhatlinux环境中使用sbt构建我的第一个spark2(scala)应用程序。以下是环境详细信息。CDHVersion:5.11.0ApacheSpark2:2.1.0.cloudera1ScalaVersion:2.11.11JavaVersion:1.7.0_101申请代码:importorg.apache.spark.sqlimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types._importorg.apache.spark.sqlobjectMy

SparkSession spark-core spark 34 error scala hadoop apache-spark sbt apache-spark-sql

scala - 如何在一列中将一个字符串变成另一个字符串

我有一个数据框df，其中有两列是这样的。+-----+------------------+|x|y|+-----+------------------+|0.0|{12,16,17,18,19}||0.0|{18,16,17,18,19}||0.0|{15,16,67,18,19}||0.0|{65,16,17,18,19}||0.0|{9,16,17,18,19}||1.0|{12,16,17,28,39}||0.0|{24,16,17,28,19}||0.0|{90,16,17,18,29}||1.0|{30,16,17,18,19}||1.0|{28,16,17,18,19}|

scala 一个 34 0.0 code hadoop apache-spark

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

ClassNotFoundException DefaultSource code spark section scala hadoop apache-spark hive

hadoop - 如果我使用 -mapper cat 而不是 -mapper org.apache.hadoop.mapred.lib.IdentityMapper，Hadoop Streaming 的性能会降低吗？

我在尝试使用org.apache.hadoop.mapred.lib.IdentityMapper作为HadoopStreaming1.0.3中-mapper的参数时遇到了问题。“猫”虽然有效；使用cat会影响性能——尤其是在ElasticMapReduce上吗？最佳答案我遇到了类似的问题，其中身份映射器不起作用，我必须使用Cat。我们没有看到性能上的巨大变化，据我所知，identitymapper是一个jar，而cat是unix命令。关于hadoop-如果我使用-mapperca

hadoop mapper section hadoop-streaming elastic-map-reduce

scala - 如何使用 spark 生成大量随机整数？

我需要很多随机数，每行一个。结果应该是这样的:24324243244234234423423413103131310313...所以我写了这个spark代码(对不起，我是Spark和scala的新手):importutil.Randomimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectRandomIntegerWriter{defmain(args:Array[String]){if(args.length")Syst

scala spark section import apache-spark

scala - Spark 流式传输多个套接字源

我是Spark的新手。对于我的项目，我需要合并来自不同端口上不同流的数据。为了测试我做了一个练习，目的是打印来自不同端口的流的数据。下面你可以看到代码:objecthello{defmain(args:Array[String]){valssc=newStreamingContext(newSparkConf(),Seconds(2))vallines9=ssc.socketTextStream("localhost",9999)vallines8=ssc.socketTextStream("localhost",9998)lines9.print()lines8.print()ssc

字源套接 section lines Dstream scala hadoop apache-spark spark-streaming

scala - 如何在 HDP(Hortonworks 数据平台)中安装 Scala 库

提前感谢您花时间阅读本文，抱歉我的英语不好。我正在尝试使用Spark流进行实时数据处理。我在HDP(Hortonworks数据平台)中安装了Spark，对于我的流程，我需要为JSONparsing安装一个scala库。我在互联网上阅读了很多关于此的内容，但它只是针对一个简单的SparkCluster，而不是针对HDP和CDH之类的解决方案，我尝试调整该解决方案但我做不到，我找不到任何scala文件来安装它.有人知道可以帮助我的解决方案或提示吗？谢谢最佳答案要在Zeppelin中加载Spark的依赖项，您需要创建一个新单元并使用以

中安何在 section interpreter scala hadoop apache-spark spark-streaming hortonworks-data-platform

scala - 如何使用 spark 在 Hive 中正确加载数据？

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

scala spark 34 code unknown hadoop apache-spark hive hiveql

44 45 464748 49 50