草庐IT

scala-ide

全部标签

scala - 从终端在 Spark scala 中添加外部库

我正在尝试为spark添加外部库,因为我已尝试将这些库放在/usr/lib/spark/lib中。当我成功添加库后运行我的代码时出现错误:未找到。我不知道还有什么地方可以放置jar文件,我使用的是CDH5.7.0 最佳答案 我在深入挖掘后找到了解决方案,我通过在从终端打开sparkshell的同时添加jar解决了这个问题。我使用了下面的代码:spark-shell--jars"dddd-xxx-2.2.jar,xxx-examples-2.2.jar" 关于scala-从终端在Spark

scala - 使用 SqlContext 连接 Hive 表

我的问题对你们大多数人来说可能听起来很愚蠢,但我需要使用spark-scala在我的配置单元表中执行一些操作,为此我想知道我是否可以使用SqlContext来读取hive表。我知道HiveContext但我想使用SqlContext。 最佳答案 正如评论中提到的@BinaryNerd:HiveContextextendsSQLContext所以当你使用类型安全的语言(Java)时,你可以这样声明你的SQLContext:SQLContextsqlContext=newHiveContext(sc)

Xcode 15.2 (15C500b) 发布 (含下载) - Apple 平台 IDE

Xcode15.2(15C500b)发布(含下载)-Apple平台IDEIDEforiOS/iPadOS/macOS/watchOS/tvOS/visonOS北京时间今日(2023-01-09)凌晨,Xcode15.2终于发布,包含了SDKsforiOS17.2,iPadOS17.2,tvOS17.2,watchOS10.2,macOSSonoma14.2,和visionOS,版本号终于一致,广大人民群众终于不在迷茫。请访问原文链接:https://sysin.org/blog/apple-xcode-15/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgvisonOS支持

scala - Spark - 另一个转换中的 Rdd 转换

我试图在另一个转换中转换RDD。因为,RDD转换和操作只能由驱动程序调用,我收集了第二个RDD并尝试在其他转换中对其应用转换,如下所示valname_match=first_names.map(y=>(y,first_names_collection.value.filter(z=>soundex.difference(z,y)==4)))上面的代码抛出了下面的异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException):App

scala - Mapreduce 使用 Scala 错误 : java. lang.ClassNotFoundException : scala. Predef$

我尝试通过scala实现一个简单的mapreduce作业。但是,当我使用命令运行包时,hadoopjarhadoop.jarmapreduce.MaxTemperaturehdfs://sandbox/user/ajay/inputhdfs://sandbox/user/ajay/output我得到错误,16/09/0616:06:12INFOmapreduce.Job:TaskId:attempt_1473177830264_0002_m_000001_2,Status:FAILEDError:java.lang.ClassNotFoundException:scala.Predef

scala - spark-submit 无法访问本地文件系统

第一个count()方法调用中的非常简单的Scala代码文件。defmain(args:Array[String]){//createSparkcontextwithSparkconfigurationvalsc=newSparkContext(newSparkConf().setAppName("SparkFileCount"))valfileList=recursiveListFiles(newFile("C:/data")).filter(_.isFile).map(file=>file.getName())valfilesRDD=sc.parallelize(fileList)

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql,我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

scala - 列出文件 scala emr hdfs(缺少 csv 文件)

我试图通过以下方法列出emrhdfs上目录中的所有文件:valdirectory=newFile(directoryPath)valfileStatusListIterator:RemoteIterator[LocatedFileStatus]=FileUtils.fs.listFiles(newPath(directoryPath),true)while(fileStatusListIterator.hasNext){valfileStatus=fileStatusListIterator.nextif(fileStatus.isFile){log.info(s"IteratorFi

scala - 在 Scala 中从 HDFS 返回路径

我想返回文件的路径,我在其中提供了一个文件夹并在该文件夹中搜索“部分”文件。deflistDirectoriesGetPartFile(folderPath:String):org.apache.hadoop.fs.Path{valpath=newPath(folderPath)if(fileSystem.isDirectory(path)){valst=fileSystem.listStatus(path)for(i我想返回part-xxx文件。我怎样才能实现它? 最佳答案 这里有几个选项(按照符合Scala习惯用法的升序排列)。

scala - HDFS : java. io.FileNotFoundException : File does not exist: name. _COPYING

我正在使用Scala处理SparkStreaming。我需要使用此行从HDFS目录动态读取.csv文件:vallines=ssc.textFileStream("/user/root/")我使用以下命令行将文件放入HDFS:hdfsdfs-put./head40k.csv它适用于相对较小的文件。当我尝试使用更大的一个时,出现此错误:org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException):Filedoesnotexist:/user/root/head800k.csv._COPYING我能理解为什么,但我不