scala-cats

scala - 如何在 Scala 中从 Spark 检索和更新 HBase 表

似乎没有适当的资源或文档或书籍可用于访问HBase表，就像我们为HIVe所做的那样，我正在创建Hbase配置和扫描并尝试Put但缺少一些链接如何做到这一点(只是从论坛复制和粘贴和github但无法理解)，任何人都可以发布端到端代码来详细检索和更新Hbase表吗？？或推荐从spark访问的任何Hbase书籍/博客最佳答案你可以引用下面的问题:HowtoreadfromhbaseusingSpark还可以使用以下库来编写数据:SparkHBaseconnector它有一个很好的关于读取和写入数据到Hbase的文档，而且如果你擅长SQ

何在 scala section stackoverflow noreferrer hadoop apache-spark hive hbase

scala - Spark (Scala) 中的 K-means - 当模型由标准化数据制成时如何将集群编号映射回客户 ID

以下代码用于获取模型。我面临的问题是将集群编号映射回客户ID。这是因为，我的模型是在标准化数据上训练的，但带有客户ID的数据包含未标准化的数据。我不知道如何映射回去。importorg.apache.spark.SparkContext._importorg.apache.spark.mllib.clustering.{KMeans,KMeansModel}importorg.apache.spark.mllib.linalg.Vectorsimportscala.collection.mutable.ArrayBufferimportorg.apache.spark.mllib.fe

制成 K-means section val import scala hadoop apache-spark

scala - Hive UDF 在 Scala 中处理整数数组

我是scala的新手，我需要编写用户定义的函数来处理Hive中带有整数数组的列(类型array)。我试过:importorg.apache.hadoop.hive.ql.exec.UDFclasstestUDFextendsUDF{defevaluate(arr:Array[Int],txt:String):Boolean={returnfalse}}但是当我尝试在SQL中调用它时出现错误:Nomatchingmethodforclass...with(array,string).Possiblechoices:_FUNC_(struct,string)我需要在Scala中使用什么类型

scala section code pre hadoop apache-spark hive udf

scala - 大量插入到 HBase

我在尝试向HBase插入数据时遇到问题。我有一个包含2个字段的1200万行SparkDataFrame:*KEY,amd5hash*MATCH,aboolean("1"or"0")我需要将它存储在一个HBase表中，KEY是行键，MATCH是列。我创建了一个在rowkey上拆分的表:create'GTH_TEST','GTH_TEST',{SPLITS=>['10000000000000000000000000000000','20000000000000000000000000000000','30000000000000000000000000000000','4000000000

scala HBase 39 0000000000000000000000000000000 section hadoop apache-spark hortonworks-data-platform

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

scala - 使用 Spark Scala 将 HDFS 文件内容存储在 ArrayBuffer 中

我正在尝试搜索特定关键字并将与该词关联的整行放入数组缓冲区中。我正在使用下面的示例并尝试将所有HHH放入数组缓冲区。示例PID|1|5897450M|58974650M|58977650M|CSTO^TES||19320722|F|||745-81ST^^IAMIBEH^FL^341|||||||332165520ORC||5033220|503320||||||20150202|||1689659096^HAM^MISH^^^^PIOBR|1||64564|DFDEFAULT|||20150202|2015002||||||||16096^^^^^I|||||||||HHH|1|NM

ArrayBuffer scala section 20150202 strong hadoop apache-spark cloudera bigdata

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码，如果它花费的时间太长，我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.

running Apache section val scala hadoop apache-spark hadoop-yarn

scala - 在 Scala/Spark 中从 RDD 中提取数据

所以我有一个大型数据集，它是一个stackoverflow用户群的样本。该数据集中的一行如下:我想从声誉中提取数字，在本例中是“11849”，从年龄中提取数字，在这个例子中是“35”，我希望将它们作为float。该文件位于HDFS中，因此采用RDD格式vallinesWithAge=lines.filter(line=>line.contains("Age="))//ThisisfilteringdatawhichdoesnthaveagevalrepSplit=linesWithAge.flatMap(line=>line.split("\""))//HereIamtryingtos

scala code 34 line hadoop apache-spark

scala - Spark 正在重复工作

我正面临来自Spark的奇怪行为。这是我的代码:objectMyJob{defmain(args:Array[String]):Unit={valsc=newSparkContext()valsqlContext=newhive.HiveContext(sc)valquery=""valrawData=sqlContext.sql(query).cache()valaggregatedData=rawData.groupBy("group_key").agg(max("col1").as("max"),min("col2").as("min"))valredisConfig=newRe

scala Spark section code aggregatedData hadoop apache-spark

scala - Spark 使用相同的键创建字段数组

我有一个位于spark上下文之上的配置单元表。表格格式如下|key|param1|Param2|-------------------------|A|A11|A12||B|B11|B12||A|A21|A22|我想创建一个带有模式的DataFramevaldataSchema=newStructType(Array(StructField("key",StringType,nullable=true),StructField("param",ArrayType(StructType(Array(StructField("param1",StringType,nullable=true

scala Spark param 34 param1 hadoop apache-spark spark-hive

124 125 126127128 129 130