scala-cats

scala - 如何使 Scala 类 Hadoop 可写？

我有一个Scala类:classFeatures(valcount:Int=1,valfirstTime:Long=Long.MaxValue,vallastTime:Long=Long.MinValue)保存在以字符串为键的Spark对RDD中:valfeatures:org.apache.spark.rdd.RDD[(String,features.Features)]我想用类似的东西保存内容:features.saveAsSequenceFile(path)但是Features类没有实现org.apache.hadoop.io.Writable，我不知道如何实现它。没有它，我得到

scala - Hadoop : java. io.IOException:传递删除或放置

我在控制台上收到了这些错误日志java.io.IOException:PassaDeleteoraPutatorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:125)atorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:84)atorg.apache.hadoop.mapred.ReduceTa

IOException 传递 JobClient apache mapred scala hadoop

scala - Zeppelin 集群模式不适用于 spark 1.2 Ambari、Hortonworks Cluster

我正在尝试部署一个集群并在其上运行一些示例Spark/scala代码，虽然当我在独立模式下使用默认参数使用zeppelin时一切正常，但我无法让它在集群模式下工作。我尝试在spark中使用spark-class和start-master标准shell文件手动创建spark集群，然后通过spark://..Zeppelin的URL，但是在运行代码后，我不断收到不同的异常错误(例如缺少javasys.process._库)，一段时间后，sparkworker的状态在SparkMasterUI中变为DEAD我还尝试将yarn-client而不是spark-URL放入zeppelinspark

Hortonworks Zeppelin section spark scala hadoop apache-spark ambari apache-zeppelin

scala - 使用 JobTest 类在 Hadoop 中运行 Scalding 测试作业

我无法使用JobTest类运行烫伤测试。下面是命令。如何发送那个命令？Hadoopjarcom.scala-0.0.1-SNAPSHOT.jarcom.twitter.scalding.JobTestcom.scala.etl--hdfs--input--output面临以下问题:Exceptioninthread"main"java.lang.NoSuchMethodException:com.twitter.scalding.JobTest.main([Ljava.lang.String;) 最佳答案 JobTest不在Hado

中运 Scalding section scala hadoop

scala - Spark streaming 和 Dstream 如何工作？

我对Spark有相当多的经验。但是，我是第一次学习Sparkstreaming，发现它很难理解。很难理解应用程序的流程。例如，对于下面网站给出的例子http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html第3部分的代码。进一步的练习，我们有valwords=statuses.flatMap(status=>status.split(""))valhashtags=words.filter(word=>word.startsWith("#"))valcounts=hashta

streaming Dstream code section RDD scala hadoop apache-spark bigdata

scala - 如何将 Scalding TypedPipe 转换为 Iterator

在我的Scaldinghadoop作业中，我在管道上有一些分组逻辑，然后我需要处理每个组:valgeorecs:TypedPipe[GeoRecord]=getRecordsgeorecs.map(r=>(getRegion(r),r)).groupBy(_._1).mapValueStream(xs=>clusterRecords(xs)).values.write(out)在clusterRecords内部，我需要将传入的迭代器转换为TypedPipe，以便我可以1)对其进行采样和2)取叉积://turntheiteratortoapipesowecansampleitvalsam

TypedPipe Scalding section GeoRecord scala hadoop iterator pipe

scala - 如何连接到 Pivotal HD(来自 Spark)？

我想知道将Spark应用程序连接到PivotalHD(一种Hadoop实现)的方法。使用Spark连接到它的最佳方式是什么？valjdbcDataFrame=sqlContext.read.format("jdbc").options(Map("url"->"jdbc:postgresql:dbserver","dbtable"->"schema.tablename")).load() 最佳答案我看到您的问题已被编辑，但我会尽力回答您的所有问题。PivotalHD(以前称为GreenplumHD)是一个Hadoop发行版，因此您应

Pivotal scala Greenplum section hadoop apache-spark hawq

scala - HBase - Scala - 无法初始化类 ProtobufUtil

我在尝试运行与Hadoop集群中的HBase表通信的ScalaAPI(使用Play构建)时遇到问题。我有一个由命令“activatordist”创建的二进制文件，它在当前服务器上运行良好。但我需要让它在另一台服务器上运行，但它在这台服务器上不起作用。当我启动二进制文件时，没问题，但是当我尝试访问网页时，出现此错误:Couldnotinitializeclassorg.apache.hadoop.hbase.protobuf.ProtobufUtil这很奇怪，因为相同的二进制文件在第一台服务器和本地运行。Java版本在所有环境中都是相同的(Java8)。任何想法表示赞赏。提前致谢。

ProtobufUtil scala section stackoverflow hadoop playframework hbase protocol-buffers

Scala:类型不匹配 MapFunction[Tuple2[Text, Text], NotInferedR]

我尝试执行以下操作:env.readHadoopFile(newTeraInputFormat(),classOf[Text],classOf[Text],inputPath).map(tp=>tp)但随后我在编辑器中收到类型不匹配错误:Expected:MapFunction[Tuple2[Text,Text],NotInferedR],actual:(Nothing)=>Nothing我该如何解决这个问题？这是完整的代码:importorg.apache.flink.api.common.functions.Partitionerimportorg.apache.flink.api

Text MapFunction 34 apache scala hadoop apache-flink

scala - HBase 连接实例

我有以下代码:DStream.map{_.message()}.foreachRDD{rdd=>rdd.foreachPartition{iter=>valconf=HBaseUtils.configureHBase("iemployee")valconnection=ConnectionFactory.createConnection(conf)valtable=connection.getTable(TableName.valueOf("""iemployee"""))iter.foreach{elem=>/*loopthroughtherecordsinthepartitiona

scala HBase connection section hadoop apache-spark database-connection

128 129 130131132 133 134