language-scala

scala - 烫伤:从单独的文件中添加特征

我有几个烫洗作业，其中包含一堆常量和一些在所有作业中都一致的函数。当我需要对其中一个进行更改时，我不想在5个不同的地方进行更改。我想创建一个trait来存储这些东西，但是我在将trait引用/导入到我的工作中时遇到了问题。所以我有一个名为constants.scala的文件，其中包含:traitconstants{abunchofstuffdefinedhere}在我的一个名为myJob.scala的工作中，我尝试定义一个这样的类:classTrxnAmts(args:Args)extendsJob(args)withconstants{Allmyothercodegoeshere}我

烫伤 scala code section hadoop scalding

scala - 来自 Spark 的 Hive 查询 - 解析失败

我正在尝试在spark-shell中执行此操作:valhiveCtx=neworg.apache.spark.sql.hive.HiveContext(sc)vallistTables=hiveCtx.hql("showtables")第二行执行失败并显示此消息:warning:therewere1deprecationwarning(s);re-runwith-deprecationfordetailsorg.apache.spark.sql.hive.HiveQl$ParseException:Failedtoparse:showtablesatorg.apache.spark.s

scala Spark apache hive hadoop apache-spark hiveql

scala - 带 Spark 的独立 HBase，HBaseTest.scala 出错

您好，我正在使用独立的hbase，我想在上面测试spark。我的机器上没有hadoop。当我尝试使用HBaseTest.scala获取表的计数时(在scala示例中)我收到以下错误:ERRORTableInputFormat:java.io.IOException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:416)atorg.apache.hadoop.hba

scala HBaseTest apache java hadoop apache-spark hbase

scala - 在 EMR 上烫伤 : Hadoop job fails with NoSuchMethodError: scala. Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;

基本上，我需要在EMR上运行烫金作业。同样的工作在我的macbook上的本地hadoop上运行得很好，但在EMR上的Hadoop上运行失败。我也在cascading-user和scala-user组中努力寻求有关此问题的帮助，但未能成功。到目前为止，在过去几天尝试各种更改后，我没有取得太大进展。这是我深入研究细节之前的错误:Exceptioninthread"main"java.lang.NoSuchMethodError:scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;atcom.aggregation.jo

Object scala info esotericsoftware com hadoop amazon-emr scalding

scala - 如何将 Scalding ValuePipe 加入 TypedPipe？

我已经改编了scaldingKMeans示例来执行KModes。问题是当作业完成后，我需要将聚类记录与匹配的质心连接起来。KMeans代码使用ValuePipe来保存质心。因此，为了从ValuePipe中取出质心，我对其进行了平面映射。然后我像这样加入:HVKModes(500000,inputSets,10).waitFor(Config.default,mode)match{caseSuccess((a,centroids:ValuePipe[List[LabeledCentroid]],points:TypedPipe[LabeledVector]))=>{valjoined=c

ValuePipe TypedPipe section LabeledCentroid scala hadoop cluster-analysis scalding

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳，我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是，对于每一天，都有一个文件夹(或分区)，其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法，我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数？我如何在S3和HDFS中实现它？谢谢你的帮助。最佳答案如果您查看SparkDa

Parquet scala section Spark hadoop amazon-s3 apache-spark

scala - 使用 Spark 分析推特数据

其他任何人都可以帮助我了解如何根据我写的“键”分析推特数据。我找到了这段代码，但这给我一个错误。importjava.io.Fileimportcom.google.gson.Gsonimportorg.apache.spark.streaming.twitter.TwitterUtilsimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.{SparkConf,SparkContext}/***Collectatleastthespecifiednumberoftweetsi

scala Spark 34 section hadoop apache-spark spark-streaming

scala - 使用 Hivecontext，在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表，在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象，并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本，我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时，我无法做到，当我创建一个Hive表时，它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

metastore_db Hivecontext section hive warehouse scala hadoop apache-spark

scala - Spark 斯卡拉 : JniBasedUnixGroupsMapping: Error getting groups for XXX: The user name could not be found

我一直在使用scalaIDE中的spark从我的本地系统连接到Hive(在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中并且能够连接到Metastore但是无法访问配置单元表。如何更改HiveContext的用户15/12/2210:28:42INFOParseDriver:解析命令:显示表15/12/2210:28:43信息ParseDriver:解析已完成15/12/2210:28:45信息Metastore:尝试使用URIthrift://Server.com:9083连接到Metastore22年12月15日10:28:46信息J

斯卡拉斯卡 HiveContext scala apache maven hadoop apache-spark

scala - 如何使用 Scala 使用 Hadoop 客户端在 HDFS 中 append 文本文件？

我想将文本文件写入HDFS。文件必须写入HDFS的路径是动态生成的。如果文件路径(包括文件名)是新的，则应创建该文件并将文本写入其中。如果文件路径(包括文件)已经存在，则该字符串必须append到现有文件。我使用了以下代码。文件创建工作正常。但不能将文本append到现有文件。defwriteJson(uri:String,Json:JValue,time:Time):Unit={valpath=newPath(generateFilePath(Json,time))valconf=newConfiguration()conf.set("fs.defaultFS",uri)conf.s

本文 Hadoop hadoop-hdfs 34 scala append hdfs