草庐IT

scala-compiler

全部标签

scala - Hadoop 端口 : fs. default.name

我有点懵。我看到的几乎所有Hadoop安装“如何”指定的core-site.xml都将fs.default.name设置为9000fs.default.namehdfs://192.168.0.141:9000但是,下面的代码valconf=neworg.apache.hadoop.conf.Configuration()valfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://192.168.0.141/"),conf)给我一​​个java.net.ConnectException:指定无法连接到端口8020。

scala - 使用 spark 仅列出文件夹中的文件名

我必须列出文件夹中的所有文件,并根据文件名将文件保存在不同的文件夹中,使用spark.我写了下面的代码但出现错误splitisnotamemberoforg.hadoop,whileusingoperatorsplit.下面是我的代码,任何人都可以建议我如何消除或克服这个错误。importorg.apache.spark.sql.SparkSessionimportscala.io.Sourceimportorg.apache.hadoop.conf.Configurationimportscala.io.Sourceimportorg.apache.spark.sql.functio

【Scala 】注解

在Scala中,你可以使用注解来为类、方法或字段添加元数据,影响它们的行为。Scala的注解使用与Java类似,但是Scala也支持自定义注解。文章目录注解的常见使用方法自定义注解注解的常见使用方法以下是一些Scala中常见的注解以及它们的使用方法:内置注解:@deprecated:标记已过时的方法或类。@deprecated("Thismethodisdeprecated","version")defdeprecatedMethod():Unit={//methodimplementation}@throws:标记方法可能抛出的异常。@throws(classOf[IOException])

Scala安装

Scala安装使用windows安装,配置环境变量以下载Scala2.11为例,操作在Windows中安装Scala。官网下载scala2.11:AllAvailableVersions|TheScalaProgrammingLanguage下载好后安装。双击msi包安装,记住安装的路径。配置环境变量(和配置jdk一样)新建SCALA_HOME注意:这里建议将Scala安装到纯英文没有空格和特殊符号的路径下。避免后期使用Scala版本出现问题。上个步骤完成后,编辑Path变量,在后面追加如下:%SCALA_HOME%\bin打开cmd,输入:scala -version 看是否显示版本号,确定

Scala知识点——App类

我们在代码中一般程序都是是通过main方法进入。但是在scala中提供了一个App类,通过继承可以实现不用显式的调用main方法就能运行。App类中实现了main方法: 

scala - 如何将 Iterable 转换为 RDD

更具体地说,我如何将scala.Iterable转换为org.apache.spark.rdd.RDD?我有一个(String,Iterable[(String,Integer)])的RDD我希望将其转换为(String,RDD[String,Integer])的RDD,以便我可以将reduceByKey函数应用于内部RDD.例如我有一个RDD,其中键是人名的2个字母前缀,值是人名和他们在事件中花费的时间对的列表我的RDD是:("To",List(("Tom",50),("Tod","30"),("Tom",70),("Tod","25"),("Tod",15))("Ja",List(

scala - 使用 Spark Streaming 读取 fileStream

我在HDFS上有一个目录,其中每10分钟复制一个文件(现有文件被覆盖)。我想使用Spark流(1.6.0)读取文件的内容,并将其用作引用数据以将其加入其他流。我将“记住窗口”spark.streaming.fileStream.minRememberDuration设置为“600s”并设置newFilesOnly到false,因为当我启动应用程序时,我不想从已经存在的HDFS中获取初始数据。valssc=newStreamingContext(sparkConf,Seconds(2))defdefaultFilter(path:Path):Boolean=!path.getName()

scala - Spark - 按输出 (RDD) 从组中删除 CompactBuffer

问题陈述RDD分组后需要格式化Spark输出(移除CompactBuffer)输入Header1^Header2A^4BA^11AB^7AC^6DFC^7DS期望的输出(A,(4B,11A))(B,(7A))(C,(6DF,7DS))我尝试了什么valrecords=sc.textFIle("/user/chronicles/test.txt").map(x=>{valy=x.split("\\^",-1)(y(0).trim(),y(1).trim())}).groupBy(x=>x._1)records.foreach(println)输出(A,CompactBuffer((4B,

scala - Spark Streaming textFileStream 复制

我正在尝试监视HDFS中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到HDFS我使用hdfsdfs-put),有时它会产生问题:SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:.COPYING所以我阅读了论坛中的问题和此处的问题SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:._COPYING_根据我读到的内容,问题与Spark流式传输在文件完成复制到HDFS和Github之前读取文件有关:https://githu

scala - 无法解决 Spark 作业中的符号拆分

我在我的IntelliJIDE上运行一个spark应用程序作为Maven项目,我正在尝试创建一个rowRDD并将它们转换为数据帧并将其存储在hdfs中。SPARKVERSION:1.5.2SCALAVERSION:2.10.4我的代码:valrowRDD=dataframename.map(_.split("\t")).map(p=>Row(p(0),p(1),p(2),p(3)))它报告值拆分不是我的类包的成员并且报告应用程序不采用任何参数。存在一些依赖性问题,我需要这方面的帮助。注意:我已经完成了rowRDD的模式定义感谢支持 最佳答案