scala-compiler

scala - Spark-scala 如何使用 HDFS 目录分区

为了减少处理时间，我按日期对数据进行分区，以便我只使用所需的日期数据(不是完整的表格)。所以现在在HDFS中，我的表格存储如下src_tbl//maindirtrg_tbl2016-01-01//subdir2015-12-302016-01-022015-12-312016-01-032016-01-012016-01-03现在我想从src_tbl中选择min(date)这将是2016-01-01从trg_tbl我想使用>=2016-01-01(src_tblmin(date))目录中的数据2016-01-01和2016-01-03数据`如何使用Spark-scala从hdfs选择所

scala - 限制 yarn 容器一次只能执行一个任务

我正在使用hadoop集群运行Spark程序，它使用yarn调度程序来运行任务。但是，我注意到一个奇怪的行为。yarn有时会杀死提示内存不足错误的任务，而如果我轮流执行任务，即执行与容器/执行程序相同数量的任务，让它们完成，然后执行下一组任务，它运行良好，这意味着任务使用的内存不会超过容器中允许的内存。所以，我怀疑yarn试图在容器中并行运行多个任务，这就是容器内存不足的原因。有没有办法限制这种行为并告诉yarn在容器中一次只运行一个任务。最佳答案一般来说，Spark请求的每个YARN容器直接对应一个“执行器”，即使YARN可能

容器 scala code section hadoop apache-spark hadoop-yarn bigdata

scala - Spark 中的 Hadoop 配置

为了调试，我需要在我的Spark作业中获取当前的Hadooporg.apache.hadoop.conf.Configuration。具体来说，我需要使用org.apache.hadoop.fs.Path#getFileSystem(conf:Configuration)方法获取org.apache.hadoop.fs.FileSystem路径给定一个org.apache.spark.SparkContext，有没有办法获取Configuration？最佳答案您可以按照下面的代码设置配置sc.hadoopConfiguratio

Hadoop scala code section Configuration apache-spark

scala - 使用 enableHiveSupport 创建临时 SparkSession

我正在研究连接到Hadoop中允许动态数据类型连接的数据。我需要能够连接到HiveThrift服务器A，提取一些数据，然后连接到HiveThrift服务器B并提取更多数据。据我了解，enableHiveSupport需要在初始SparkSession.builder上设置。有没有办法在事后添加/更改节俭连接？我遇到的唯一可能的解决方案是使用newSession():SparkSession但是我不确定这是否是我正在寻找的正确解决方案。我正在使用Spark2.1、Hadoop2.7 最佳答案根据Spark权威指南一书，“创建[Spa

enableHiveSupport SparkSession section code scala hadoop apache-spark hive mapr

scala - 在 OSX 上安装本地 spark

我试图在我的本地机器(MacBookproosx10.13.3)上运行我的Scala作业，但我在运行时遇到错误。我的版本:scala:2.11.12Spark:2.3.0hadoop:3.0.0我通过brew安装了所有东西。异常(exception)是:引起:java.lang.StringIndexOutOfBoundsException:开始0，结束3，长度2发生在那些行:valconf=newSparkConf().setAppName(getName).setMaster("local[2]")valcontext=newSparkContext(conf)最后一行是抛出异常的

scala spark code section Hadoop apache-spark

scala - 如何比较scala中的两个数据框

我有两个完全相同的数据帧用于比较测试df1------------------------------------------year|state|count2|count3|count4|2014|NJ|12332|54322|53422|2014|NJ|12332|53255|55324|2015|CO|12332|53255|55324|2015|MD|14463|76543|66433|2016|CT|14463|76543|66433|2016|CT|55325|76543|66433|------------------------------------------df2

scala 如何 34 count code amazon-web-services apache-spark hadoop bigdata

scala - 如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据，我想从每条记录中删除前两个值，因为它们是国家代码。我可以使用Scala执行此操作的方法是什么，Spark,或Hive？phone|917799423934||019331224595||8981251522||917271767899|我希望结果是:phone|7799423934||9331224595||8981251522||7271767899|我们如何从该列的每条记录或每行中删除前缀91,01？最佳答案手机大小可以不同，可以使用这样的构造(Scala):df.withColumn("phon

scala 如何 section code phone apache-spark hadoop hive

scala - 从 RichPipe 获取一个值

我有一个包含3个字段的RichPipe:名称:String、时间:Long和值:Int。我需要获取特定名称、时间对的值。我该怎么做？我无法从scalding文档中弄清楚，因为它非常神秘并且找不到任何这样做的例子。最佳答案 RichPipe不是键值存储，这就是为什么没有关于用作键值存储的文档的原因:)应该考虑RichPipe作为管道-因此如果不首先进入管道的一端并遍历管道直到找到所需的元素，就无法在中间获取数据。此外，这在Scalding中有点痛苦，因为您必须将结果写入磁盘(因为它构建在Hadoop之上)，然后从磁盘读取结果以便在您

RichPipe scala section code hadoop scalding

scala - Tachyon on Dataproc Master 复制错误

我有一个在安装了Tachyon、Spark和Hadoop的Dataproc主节点上运行的简单示例。我在从Spark写入Tachyon时遇到复制错误。有没有办法指定它不需要复制？15/10/1708:45:21WARNorg.apache.hadoop.hdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/tmp/tachyon/workers/1445071000001/3/8couldonlybereplicatedto0nodesinst

Dataproc Tachyon code hadoop section scala apache-spark google-cloud-dataproc alluxio

scala - Spark 中的广播变量

假设我在集群上运行了以下代码:privatedefmodifyDatasetFormat(data:String,mappings:Array[HashMap[String,Int]]):Array[Tuple2[Tuple3[Int,Int,Int],Int]]={}varmap=newHashMap[String,Int]()map+=("hello"->2)varmappings=newArray[HashMap[String,Int]])(1)mappings(0)=mapvaloriginalDataset=sc.textFile("/home/paourissi/Deskt

scala Spark section Int String hadoop apache-spark

66 67 686970 71 72