scala-cats

scala - 将 aws 凭据配置文件与 spark scala 应用程序一起使用

如果可能的话，我希望能够在我的sparkscala应用程序中使用我维护的具有不同配置文件的~/.aws/credentials文件。我知道如何在我的应用程序中为s3a设置hadoop配置，但我不想继续使用不同的硬编码key，而宁愿像我对不同程序所做的那样只使用我的凭据文件。我还尝试过使用javaapi，例如valcredentials=newDefaultAWSCredentialsProviderChain().getCredentials()然后创建一个s3客户端，但这不允许我在从中读取文件时使用我的keys3。我也知道当我运行我的应用程序时，key可以进入core-site.xm

凭据 scala section code awsCredentials amazon-web-services hadoop intellij-idea apache-spark

scala - 将 Spark Dataframe 中的一列转换为多列

我有一个具有这种结构的大数据框(或多或少1.2GB):+---------+--------------+------------------------------------------------------------------------------------------------------+|country|date_data|text|+---------+--------------+------------------------------------------------------------------------------------------

多列 Dataframe 34 text code scala apache-spark hadoop apache-spark-sql

scala - Spark 执行器如何运行多个任务？

例如，如果执行器的数量是40，但任务的数量是80，这意味着每个执行器将并行运行两个任务。我的函数(执行哪些任务)也不是普通函数，但我在其中调用程序。因此，每个任务实际上需要几分钟才能完成。所以，我的问题是，Spark如何管理它？这些任务会共享执行者的JVM吗？核心数量如何，会在这两个任务之间分配吗？如果不希望这两个任务同时运行，而是以循环方式执行它们，也就是说，用执行程序的所有核心运行第一个任务，只有当它完成时，才运行第二个任务怎么办？最佳答案这取决于您如何分配资源，即内核数量、每个执行程序的内核数以及分配给执行程序的内存。它还

scala Spark section 取决于取决 hadoop apache-spark hadoop-yarn

scala - 如何强制 spark/hadoop 忽略文件上的 .gz 扩展名并将其读取为未压缩的纯文本？

我的代码如下:vallines:RDD[String]=sparkSession.sparkContext.textFile("s3://mybucket/file.gz")URL以.gz结尾，但这是遗留代码的结果。该文件是纯文本，不涉及压缩。然而，spark坚持将其作为GZIP文件读取，这显然失败了。我怎样才能让它忽略扩展名并简单地将文件作为文本读取？基于thisarticle我已经尝试在不包括GZIP编解码器的各个地方设置配置，例如:sparkContext.getConf.set("spark.hadoop.io.compression.codecs",classOf[Defau

并将扩展名 hadoop code apache scala apache-spark gzip

scala - Apache Spark - spark 中的内部作业调度程序如何定义用户和池

我很抱歉在这里有点笼统，但我对作业调度在spark中的内部工作方式有点困惑。来自文档here我知道这是HadoopFairScheduler的某种实现。我无法理解这里的用户到底是谁(是linux用户、hadoop用户还是spark客户端？)。我也无法理解这里的池是如何定义的。例如，在我的hadoop集群中，我将资源分配给了两个不同的池(我们称它们为团队1和团队2)。但是在sparkcluster中，不同的pool和里面的user不会实例化自己的sparkcontext吗？这再次让我质疑，当我将属性设置为spark.scheduler.pool时，我传递了哪些参数。我基本了解驱动程序如何

Apache scala code spark job hadoop apache-spark bigdata job-scheduling

scala - 当存储级别设置为磁盘时，Spark将数据存储在哪里？

我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时Spark在哪个目录中存储数据(在这种情况下数据不适合内存)。因为我看到我设置的级别没有区别。如果程序在MEMORY_ONLY级别崩溃，它也会在所有其他级别崩溃。在我使用的集群中，/tmp目录是一个RAM磁盘，因此大小有限。Spark是否试图将磁盘级数据存储到该驱动器？也许，这就是为什么我没有看到差异。如果确实如此，我该如何更改此默认行为？如果我使用的是Hadoop自带的yarn集群，我是否需要更改hadoop配置文件中的/tmp文件夹，或者只用Spark更改spark.local.dir就可以？

级别 scala section Spark hadoop apache-spark bigdata hadoop-yarn

scala - Spark 和 Scala : saveAsTextFile() exception

我是Spark&Scala的新手，调用saveAsTextFile()后出现异常。希望有人能帮忙...这是我的输入.txt:HelloWorld,I'maprogrammerHelloWorld,I'maprogrammer这是在CMD上运行“spark-shell”后的信息:C:\Users\NhanTran>spark-shellSettingdefaultloglevelto"WARN".Toadjustlogginglevelusesc.setLogLevel(newLevel).ForSparkR,usesetLogLevel(newLevel).SparkcontextWe

saveAsTextFile exception apache scala org apache-spark hadoop apache-spark-sql bigdata

google-app-engine - 如何在 Scala 中使用泛型引用静态 Java 类的子类

我有这段Java代码:publicclassTestMapperextendsAppEngineMapper{publicTestMapper(){}//[...otheroverridenmethods...]@Overridepublicvoidsetup(Contextcontext){log.warning("Doingper-workersetup");}}...我已将其转换为:classTestMapperextendsAppEngineMapper[Key,Entity,NullWritable,NullWritable]{//[...otheroverridenmeth

google-app-engine 何在 NullWritable Context code scala hadoop

scala - 在 spark 中设置 textinputformat.record.delimiter

在Spark中，可以设置一些hadoop配置设置，例如System.setProperty("spark.hadoop.dfs.replication","1")这有效，复制因子设置为1。假设是这种情况，我认为这种模式(在常规hadoop配置属性前加上“spark.hadoop.”)也适用于textinputformat.record.delimiter:System.setProperty("spark.hadoop.textinputformat.record.delimiter","\n\n")不过spark好像直接忽略了这个设置。我是否以正确的方式设置了textinputfor

中设 textinputformat code hadoop scala mapreduce apache-spark

scala - 如果 RDD 无法装入 Spark 中的内存会怎样？

这个问题在这里已经有了答案:WhatwillsparkdoifIdon'thaveenoughmemory?(3个答案)关闭5年前。据我所知，Spark会尝试在内存中进行所有计算，除非您使用磁盘存储选项调用persist。但是，如果我们不使用任何持久化，当RDD不适合内存时，Spark会做什么？如果我们有非常庞大的数据怎么办。Spark将如何处理它而不会崩溃？

scala Spark section notice 中进 hadoop apache-spark bigdata

145 146 147148149 150 151