草庐IT

language-scala

全部标签

scala - 烫伤:从单独的文件中添加特征

我有几个烫洗作业,其中包含一堆常量和一些在所有作业中都一致的函数。当我需要对其中一个进行更改时,我不想在5个不同的地方进行更改。我想创建一个trait来存储这些东西,但是我在将trait引用/导入到我的工作中时遇到了问题。所以我有一个名为constants.scala的文件,其中包含:traitconstants{abunchofstuffdefinedhere}在我的一个名为myJob.scala的工作中,我尝试定义一个这样的类:classTrxnAmts(args:Args)extendsJob(args)withconstants{Allmyothercodegoeshere}我

scala - 来自 Spark 的 Hive 查询 - 解析失败

我正在尝试在spark-shell中执行此操作:valhiveCtx=neworg.apache.spark.sql.hive.HiveContext(sc)vallistTables=hiveCtx.hql("showtables")第二行执行失败并显示此消息:warning:therewere1deprecationwarning(s);re-runwith-deprecationfordetailsorg.apache.spark.sql.hive.HiveQl$ParseException:Failedtoparse:showtablesatorg.apache.spark.s

scala - 带 Spark 的独立 HBase,HBaseTest.scala 出错

您好,我正在使用独立的hbase,我想在上面测试spark。我的机器上没有hadoop。当我尝试使用HBaseTest.scala获取表的计数时(在scala示例中)我收到以下错误:ERRORTableInputFormat:java.io.IOException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:416)atorg.apache.hadoop.hba

scala - 在 EMR 上烫伤 : Hadoop job fails with NoSuchMethodError: scala. Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;

基本上,我需要在EMR上运行烫金作业。同样的工作在我的macbook上的本地hadoop上运行得很好,但在EMR上的Hadoop上运行失败。我也在cascading-user和scala-user组中努力寻求有关此问题的帮助,但未能成功。到目前为止,在过去几天尝试各种更改后,我没有取得太大进展。这是我深入研究细节之前的错误:Exceptioninthread"main"java.lang.NoSuchMethodError:scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;atcom.aggregation.jo

scala - 如何将 Scalding ValuePipe 加入 TypedPipe?

我已经改编了scaldingKMeans示例来执行KModes。问题是当作业完成后,我需要将聚类记录与匹配的质心连接起来。KMeans代码使用ValuePipe来保存质心。因此,为了从ValuePipe中取出质心,我对其进行了平面映射。然后我像这样加入:HVKModes(500000,inputSets,10).waitFor(Config.default,mode)match{caseSuccess((a,centroids:ValuePipe[List[LabeledCentroid]],points:TypedPipe[LabeledVector]))=>{valjoined=c

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳,我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是,对于每一天,都有一个文件夹(或分区),其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法,我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数?我如何在S3和HDFS中实现它?谢谢你的帮助。 最佳答案 如果您查看SparkDa

scala - 使用 Spark 分析推特数据

其他任何人都可以帮助我了解如何根据我写的“键”分析推特数据。我找到了这段代码,但这给我一个错误。importjava.io.Fileimportcom.google.gson.Gsonimportorg.apache.spark.streaming.twitter.TwitterUtilsimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.{SparkConf,SparkContext}/***Collectatleastthespecifiednumberoftweetsi

scala - 使用 Hivecontext,在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表,在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象,并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本,我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时,我无法做到,当我创建一个Hive表时,它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

scala - Spark 斯卡拉 : JniBasedUnixGroupsMapping: Error getting groups for XXX: The user name could not be found

我一直在使用scalaIDE中的spark从我的本地系统连接到Hive(在集群中),最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中并且能够连接到Metastore但是无法访问配置单元表。如何更改HiveContext的用户15/12/2210:28:42INFOParseDriver:解析命令:显示表15/12/2210:28:43信息ParseDriver:解析已完成15/12/2210:28:45信息Metastore:尝试使用URIthrift://Server.com:9083连接到Metastore22年12月15日10:28:46信息J

scala - 如何使用 Scala 使用 Hadoop 客户端在 HDFS 中 append 文本文件?

我想将文本文件写入HDFS。文件必须写入HDFS的路径是动态生成的。如果文件路径(包括文件名)是新的,则应创建该文件并将文本写入其中。如果文件路径(包括文件)已经存在,则该字符串必须append到现有文件。我使用了以下代码。文件创建工作正常。但不能将文本append到现有文件。defwriteJson(uri:String,Json:JValue,time:Time):Unit={valpath=newPath(generateFilePath(Json,time))valconf=newConfiguration()conf.set("fs.defaultFS",uri)conf.s