草庐IT

scala-cats

全部标签

scala - 如何使 Scala 类 Hadoop 可写?

我有一个Scala类:classFeatures(valcount:Int=1,valfirstTime:Long=Long.MaxValue,vallastTime:Long=Long.MinValue)保存在以字符串为键的Spark对RDD中:valfeatures:org.apache.spark.rdd.RDD[(String,features.Features)]我想用类似的东西保存内容:features.saveAsSequenceFile(path)但是Features类没有实现org.apache.hadoop.io.Writable,我不知道如何实现它。没有它,我得到

scala - Hadoop : java. io.IOException:传递删除或放置

我在控制台上收到了这些错误日志java.io.IOException:PassaDeleteoraPutatorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:125)atorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:84)atorg.apache.hadoop.mapred.ReduceTa

scala - Zeppelin 集群模式不适用于 spark 1.2 Ambari、Hortonworks Cluster

我正在尝试部署一个集群并在其上运行一些示例Spark/scala代码,虽然当我在独立模式下使用默认参数使用zeppelin时一切正常,但我无法让它在集群模式下工作。我尝试在spark中使用spark-class和start-master标准shell文件手动创建spark集群,然后通过spark://..Zeppelin的URL,但是在运行代码后,我不断收到不同的异常错误(例如缺少javasys.process._库),一段时间后,sparkworker的状态在SparkMasterUI中变为DEAD我还尝试将yarn-client而不是spark-URL放入zeppelinspark

scala - 使用 JobTest 类在 Hadoop 中运行 Scalding 测试作业

我无法使用JobTest类运行烫伤测试。下面是命令。如何发送那个命令?Hadoopjarcom.scala-0.0.1-SNAPSHOT.jarcom.twitter.scalding.JobTestcom.scala.etl--hdfs--input--output面临以下问题:Exceptioninthread"main"java.lang.NoSuchMethodException:com.twitter.scalding.JobTest.main([Ljava.lang.String;) 最佳答案 JobTest不在Hado

scala - Spark streaming 和 Dstream 如何工作?

我对Spark有相当多的经验。但是,我是第一次学习Sparkstreaming,发现它很难理解。很难理解应用程序的流程。例如,对于下面网站给出的例子http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html第3部分的代码。进一步的练习,我们有valwords=statuses.flatMap(status=>status.split(""))valhashtags=words.filter(word=>word.startsWith("#"))valcounts=hashta

scala - 如何将 Scalding TypedPipe 转换为 Iterator

在我的Scaldinghadoop作业中,我在管道上有一些分组逻辑,然后我需要处理每个组:valgeorecs:TypedPipe[GeoRecord]=getRecordsgeorecs.map(r=>(getRegion(r),r)).groupBy(_._1).mapValueStream(xs=>clusterRecords(xs)).values.write(out)在clusterRecords内部,我需要将传入的迭代器转换为TypedPipe,以便我可以1)对其进行采样和2)取叉积://turntheiteratortoapipesowecansampleitvalsam

scala - 如何连接到 Pivotal HD(来自 Spark)?

我想知道将Spark应用程序连接到PivotalHD(一种Hadoop实现)的方法。使用Spark连接到它的最佳方式是什么?valjdbcDataFrame=sqlContext.read.format("jdbc").options(Map("url"->"jdbc:postgresql:dbserver","dbtable"->"schema.tablename")).load() 最佳答案 我看到您的问题已被编辑,但我会尽力回答您的所有问题。PivotalHD(以前称为GreenplumHD)是一个Hadoop发行版,因此您应

scala - HBase - Scala - 无法初始化类 ProtobufUtil

我在尝试运行与Hadoop集群中的HBase表通信的ScalaAPI(使用Play构建)时遇到问题。我有一个由命令“activatordist”创建的二进制文件,它在当前服务器上运行良好。但我需要让它在另一台服务器上运行,但它在这台服务器上不起作用。当我启动二进制文件时,没问题,但是当我尝试访问网页时,出现此错误:Couldnotinitializeclassorg.apache.hadoop.hbase.protobuf.ProtobufUtil这很奇怪,因为相同的二进制文件在第一台服务器和本地运行。Java版本在所有环境中都是相同的(Java8)。任何想法表示赞赏。提前致谢。

Scala:类型不匹配 MapFunction[Tuple2[Text, Text], NotInferedR]

我尝试执行以下操作:env.readHadoopFile(newTeraInputFormat(),classOf[Text],classOf[Text],inputPath).map(tp=>tp)但随后我在编辑器中收到类型不匹配错误:Expected:MapFunction[Tuple2[Text,Text],NotInferedR],actual:(Nothing)=>Nothing我该如何解决这个问题?这是完整的代码:importorg.apache.flink.api.common.functions.Partitionerimportorg.apache.flink.api

scala - HBase 连接实例

我有以下代码:DStream.map{_.message()}.foreachRDD{rdd=>rdd.foreachPartition{iter=>valconf=HBaseUtils.configureHBase("iemployee")valconnection=ConnectionFactory.createConnection(conf)valtable=connection.getTable(TableName.valueOf("""iemployee"""))iter.foreach{elem=>/*loopthroughtherecordsinthepartitiona