scala-compiler

scala - 下面的热烫预处理和后处理将在哪个hadoop节点上运行？

我有下面的example代码，用于在slading作业运行之前进行一些预处理和一些后处理。由于这些预处理和后处理正在调用一些mysql数据库，我想知道hadoop可能会在哪些hadoop节点上运行它们？(我需要打开从这些节点到数据库的端口)它可以运行任何hadoopdata-node的预处理和后处理吗？我尝试做一些研究但找不到任何迹象，如何通过文档/来源找到它将在哪个节点上运行？(PS工作安排在oozie)preProcessingBeforeJobRuns()//**inwhichhadoopnodewouldthisberun?coulditrunonanydatanode?**l

hadoop - Spark Standalone 与 python 和 scala 的行为不同

我正在探索Spark，发现与SparkStandalone(简称SS)不一致。这里有一些关于我的集群的线索:d125.dtvhadooptest->最佳数据节点d124.dtvhadooptestd211.dtvhadooptest->最差数据节点我正在通过python和scala运行完全相同的作业。当作业作为python脚本提交时，SS在执行程序进程之间几乎平等地共享任务。但是，当作业作为scala脚本提交时，SS会异构地共享任务。我想截图会更好地解释它:python:斯卡拉:使用scala，作业运行速度明显加快(大约55分钟)。使用python时，大约90分钟即可完成作业。我认为造

Standalone hadoop section python strong apache-spark pyspark

scala - 使用 Spark 从目录中读取多个文件

我正在尝试解决这个问题problem在kaggle使用spark:输入的层次结构是这样的:drivers/{driver_id}/trip#.csve.g.,drivers/1/1.csvdrivers/1/2.csvdrivers/2/1.csv我想读取父目录"drivers"，对于每个子目录，我想创建一个pairRDD，键为(sub_directory,file_name)和值作为文件的内容我检查了this链接并尝试使用valtext=sc.wholeTextFiles("drivers")text.collect()失败并出现错误:java.lang.ArrayIndexOutO

scala Spark apache strong hadoop apache-spark kaggle

java - Spark Java scala 错误

嘿，我想在我的Java项目中使用spark:我已经将此依赖项添加到我的pom文件中:org.apache.sparkspark-core_2.111.4.0我试过这段代码:importorg.apache.spark.api.java.JavaSparkContext;publicclasssparkSQL{publicvoidquery(){JavaSparkContextsc=newJavaSparkContext();}}我在我的main中调用了这个函数，但我得到了这个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError

Spark scala java URLClassLoader ClassLoader maven hadoop apache-spark

scala - Spark : how to include dependencies with build/sbt compile

我是spark的新手，但正在尝试进行一些开发。我正在遵循thesparkdeveloperpage中的“减少构建时间”说明.创建正常程序集后，我编写了一些依赖于一个特定jar的类。我在spark-shell中测试了我的包，通过定义SPARK_CLASSPATH，我已经能够在其中包含我的jar，但问题在于实际编译我的代码。我想要实现的是在编译我添加的包时包含那个jar(使用build/sbtcompile)。我可以通过在build/sbt文件或sbt-launch-lib.bash中添加我的jar路径来做到这一点吗？如果可以的话，怎么做？(旁注:我还不想将jar包含在程序集中，因为我对它

dependencies compile section code jar scala hadoop apache-spark

scala - Spark : how to zip an RDD with each partition of the other RDD

假设我有一个RDD[U]，它总是只包含1个分区。我的任务是用位于n个分区上的另一个RDD[T]的内容填充这个RDD。最终输出应该是RDD[U]的n个分区。我最初尝试做的是:valnewRDD=firstRDD.zip(secondRDD).map{case(a,b)=>a.insert(b)}但是我得到一个错误:Can'tzipRDDswithunequalnumbersofpartitions我可以在RDDapi中看到documentation有一个名为zipPartitions()的方法。是否有可能，如果可以，如何使用此方法将RDD[T]中的每个分区压缩为RDD[U]的单个分区并执

RDD partition code section scala hadoop apache-spark

scala - 在我的用例中通过高效使用 Spark 或 pig 组？

我有一千万条记录，是customerID和cityIDpair。有几千万唯一的客户ID，只有几百个唯一的城市ID。我想进行合并以获取针对特定客户ID聚合的所有城市ID，并拉回所有记录。我想在Hadoop上使用Pig按客户ID分组来执行此操作，并想知道这是否是最有效的方法。还想知道在Hadoop中排序是否有开销(我不关心customer1是否在customer2之前，只要为customer1和customer2正确聚合了所有城市)？您认为Spark更好吗？这里是一个输入的例子，CustomerID1City1CustomerID2City2CustomerID3City1Customer

中通 scala CustomerID City section hadoop mapreduce apache-spark apache-pig

scala - ETL Scala 脚本出现异常

我正在用scala脚本编写简单的ETL过程并以“spark-shell-irawetl.scala”运行，但是出现异常“找不到表”。我还检查了文件，它正在正确选择。这是示例代码importjava.io.FileimportsqlContext.implicits._importscala.io.Sourceimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfimportorg.apache.spark.sql.SQLContext

scala 34 import String hadoop apache-spark etl

scala - 从终端在 Spark scala 中添加外部库

我正在尝试为spark添加外部库，因为我已尝试将这些库放在/usr/lib/spark/lib中。当我成功添加库后运行我的代码时出现错误:未找到。我不知道还有什么地方可以放置jar文件，我使用的是CDH5.7.0 最佳答案我在深入挖掘后找到了解决方案，我通过在从终端打开sparkshell的同时添加jar解决了这个问题。我使用了下面的代码:spark-shell--jars"dddd-xxx-2.2.jar,xxx-examples-2.2.jar" 关于scala-从终端在Spark

scala Spark section strong hadoop apache-spark cloudera-cdh

scala - 使用 SqlContext 连接 Hive 表

我的问题对你们大多数人来说可能听起来很愚蠢，但我需要使用spark-scala在我的配置单元表中执行一些操作，为此我想知道我是否可以使用SqlContext来读取hive表。我知道HiveContext但我想使用SqlContext。最佳答案正如评论中提到的@BinaryNerd:HiveContextextendsSQLContext所以当你使用类型安全的语言(Java)时，你可以这样声明你的SQLContext:SQLContextsqlContext=newHiveContext(sc)

SqlContext scala code section HiveContext hadoop apache-spark hive