草庐IT

scala-ide

全部标签

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时,是否有任何方法可以从SparkExecutor获取Hadoop文件系统?如果没有,至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统?考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

java - scala mapreduce 异常 : java. lang.ClassNotFoundException : scala. Function2

我已经在我自己的ubuntulinux18.04机器上安装并配置了jdk1.8/hadoop2.8.4/scala2.10.6,WordCountjava应用程序使用“hadoopjar”命令运行正常。然后我在与javawordcount相同的intellij项目中尝试了scala代码,代码如下:importjava.io.IOExceptionimportjava.util._importorg.apache.hadoop.fs.Pathimportorg.apache.hadoop.io._importorg.apache.hadoop.mapred._objectwc01{@th

Scala 日期格式

我有一个data_date,其格式为yyyymmdd:beginDate=Some(LocalDate.of(startYearMonthDay(0),startYearMonthDay(1),startYearMonthDay(2)))varDate=beginDate.get.......valdata_date=Date.toString().replace("-","")这会给我一个“20180202”的结果但是,对于我的用例,我需要结果为201802(yyyymm)。我不想更改beginDate的值,我只想更改data_date值以适合我的用例,我该怎么做?我可以使用拆分功能

Scala中集合的使用

第2关:Set集合的使用任务要求参考答案评论3任务描述相关知识Set集合简介定义Set集合Set集合的常用操作三个最基本的操作连接集合交集常用方法表编程要求测试说明任务描述本关任务:求出两个集合的交集。相关知识常见的集合类有List列表、Set集合、Map映射和元组等。接下来我们将为大家介绍第二种集合---Set集合。Set集合简介Set是最简单的一种集合。集合中的对象不按特定的方式排序,并且没有重复对象。定义Set集合以下代码演示了如何定义Set集合。objectForDemo{defmain(args:Array[String]):Unit={//定义一个空集合varset:Set[Not

scala - 基于级联的烫伤(旧版本)计数器

在scalding的旧版本中,其API中仍然没有引入计数器。HadoopCountersInScalding建议如何在烫伤中回退到级联计数器defaddCounter(pipe:Pipe,group:String,counter:String)={pipe.each(()->('addCounter))(fields=>newBaseOperation[Any](fields)withFunction[Any]{defoperate(flowProcess:FlowProcess[_],functionCall:FunctionCall[Any]){try{flowProcess.as

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空,则不计算尾随分隔字符。如果我希望两个输出均为10,这里的解决方法是什么? 最佳答案 您可以通过将-1作为限制参数传递给split来完成您想要的操作,如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句,预期结果是11,而不是10(因为如果您想保

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时,我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式,磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源?objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

scala - 在 Spark 作业服务器中运行 Mllib

我正在练习使用spark网站提供的在线资源开发示例模型。我设法创建了模型并使用Spark-Shell为示例数据运行它,但是如何在生产环境中实际运行模型?是通过Spark作业服务器吗?importorg.apache.spark.mllib.classification.SVMWithSGDimportorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.mllib.linalg.Vectorsvaldata=sc.textFile("hdfs://mycluster/user/Cancer.csv")v

scala - 使用 Spark Streaming 从 http 创建分析

您好,我的要求是从http://10.3.9.34:9900/messages创建分析,即从http://10.3.9.34:9900/messages并将此数据放在HDFS位置/user/cloudera/flume并使用Tableau或HUEUI从HDFS创建分析报告。我在CDH5.5的spark-shell的scala控制台中尝试使用以下代码,但无法从http链接获取数据importorg.apache.spark.SparkContextvaldataRDD=sc.textFile("http://10.3.9.34:9900/messages")dataRDD.collect