scala-cats

scala - 使用 enableHiveSupport 创建临时 SparkSession

我正在研究连接到Hadoop中允许动态数据类型连接的数据。我需要能够连接到HiveThrift服务器A，提取一些数据，然后连接到HiveThrift服务器B并提取更多数据。据我了解，enableHiveSupport需要在初始SparkSession.builder上设置。有没有办法在事后添加/更改节俭连接？我遇到的唯一可能的解决方案是使用newSession():SparkSession但是我不确定这是否是我正在寻找的正确解决方案。我正在使用Spark2.1、Hadoop2.7 最佳答案根据Spark权威指南一书，“创建[Spa

scala - 在 OSX 上安装本地 spark

我试图在我的本地机器(MacBookproosx10.13.3)上运行我的Scala作业，但我在运行时遇到错误。我的版本:scala:2.11.12Spark:2.3.0hadoop:3.0.0我通过brew安装了所有东西。异常(exception)是:引起:java.lang.StringIndexOutOfBoundsException:开始0，结束3，长度2发生在那些行:valconf=newSparkConf().setAppName(getName).setMaster("local[2]")valcontext=newSparkContext(conf)最后一行是抛出异常的

scala spark code section Hadoop apache-spark

scala - 如何比较scala中的两个数据框

我有两个完全相同的数据帧用于比较测试df1------------------------------------------year|state|count2|count3|count4|2014|NJ|12332|54322|53422|2014|NJ|12332|53255|55324|2015|CO|12332|53255|55324|2015|MD|14463|76543|66433|2016|CT|14463|76543|66433|2016|CT|55325|76543|66433|------------------------------------------df2

scala 如何 34 count code amazon-web-services apache-spark hadoop bigdata

scala - 如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据，我想从每条记录中删除前两个值，因为它们是国家代码。我可以使用Scala执行此操作的方法是什么，Spark,或Hive？phone|917799423934||019331224595||8981251522||917271767899|我希望结果是:phone|7799423934||9331224595||8981251522||7271767899|我们如何从该列的每条记录或每行中删除前缀91,01？最佳答案手机大小可以不同，可以使用这样的构造(Scala):df.withColumn("phon

scala 如何 section code phone apache-spark hadoop hive

scala - 从 RichPipe 获取一个值

我有一个包含3个字段的RichPipe:名称:String、时间:Long和值:Int。我需要获取特定名称、时间对的值。我该怎么做？我无法从scalding文档中弄清楚，因为它非常神秘并且找不到任何这样做的例子。最佳答案 RichPipe不是键值存储，这就是为什么没有关于用作键值存储的文档的原因:)应该考虑RichPipe作为管道-因此如果不首先进入管道的一端并遍历管道直到找到所需的元素，就无法在中间获取数据。此外，这在Scalding中有点痛苦，因为您必须将结果写入磁盘(因为它构建在Hadoop之上)，然后从磁盘读取结果以便在您

RichPipe scala section code hadoop scalding

scala - Tachyon on Dataproc Master 复制错误

我有一个在安装了Tachyon、Spark和Hadoop的Dataproc主节点上运行的简单示例。我在从Spark写入Tachyon时遇到复制错误。有没有办法指定它不需要复制？15/10/1708:45:21WARNorg.apache.hadoop.hdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/tmp/tachyon/workers/1445071000001/3/8couldonlybereplicatedto0nodesinst

Dataproc Tachyon code hadoop section scala apache-spark google-cloud-dataproc alluxio

scala - Spark 中的广播变量

假设我在集群上运行了以下代码:privatedefmodifyDatasetFormat(data:String,mappings:Array[HashMap[String,Int]]):Array[Tuple2[Tuple3[Int,Int,Int],Int]]={}varmap=newHashMap[String,Int]()map+=("hello"->2)varmappings=newArray[HashMap[String,Int]])(1)mappings(0)=mapvaloriginalDataset=sc.textFile("/home/paourissi/Deskt

scala Spark section Int String hadoop apache-spark

scala - mutable.Buffer 不适用于类型安全 API 的 Scalding JobTest

我几乎完成了我的Scalding项目，该项目使用类型安全API而不是字段API。在整个项目设置中留给我的最后一个问题是整个Scalding作业本身的集成测试(我已经完成了类型安全外部操作模式的单元测试耶!)。这意味着运行完整的作业并测试我的作业的各种接收器的输出。然而，一些非常奇怪的事情正在发生。在我的typedSink{scala.collection.mutable.Buffer[]=>Unit}似乎我的程序没有看到缓冲区或对缓冲区做任何事情，所以集成测试总是通过，即使它不应该通过。下面是工作本身和有助于阐明正在发生的事情的测试:objectMyJob{valinputArgPat

Scalding mutable LongWritable 34 INFO scala hadoop integration-testing cascading

scala - 在 Spark 中重用连接的数据框

我在本地运行HDFS和Spark，并试图了解Spark持久性的工作原理。我的目标是将连接的数据集存储在内存中，然后动态地对其运行查询。但是，我的查询似乎是重做连接而不是简单地扫描持久的预连接数据集。我通过从HDFS加载两个CSV文件创建并保存了两个数据帧，比方说df1和df2。我将两个数据帧的连接保存在内存中:valresult=df1.join(df2,"USERNAME")result.persist()result.count()然后我在结果之上定义了一些操作:valresult2=result.select("FOO","BAR").groupBy("FOO").sum("BA

重用 scala result code section hadoop apache-spark hdfs spark-dataframe

scala - Spark - ElasticSearch 索引创建性能太慢

我正在尝试使用Apachespark在Elasticsearch中创建索引(将大量数据写入ES)。我已经完成了一个Scala程序来使用Apachespark创建索引。我必须索引大量数据，这是我的LinkedList中的产品bean。然后。然后我尝试遍历产品bean列表并创建索引。我的代码如下。valconf=newSparkConf().setAppName("ESIndex").setMaster("local[*]")conf.set("es.index.auto.create","true").set("es.nodes","127.0.0.1").set("es.port","

创建性 ElasticSearch 34 code section scala hadoop apache-spark

48 49 505152 53 54