scala-cats_草庐IT

scala - 我可以在 Apache Spark 中捕获诸如 on Executor start 之类的事件吗？

我想做的是让执行器在启动时(即在开始执行任何任务之前)启动一个程序，例如分析工具。通过这种方式，可以监视诸如执行程序的CPU使用率之类的事情。Spark是否提供这样的钩子(Hook)/回调？我用过SparkListener，但那是驱动端用的。我们对执行者有类似的东西吗？最佳答案这应该可以满足您的要求。http://spark.apache.org/developer-tools.html#profiling设置yourkit以与驱动程序和从属程序(执行程序)一起工作。除非您告诉它，否则它不会开始分析。连接到master或slav

诸如 Executor section developer-tools stackoverflow scala hadoop apache-spark bigdata

scala - 如何在 PySpark 中压缩两个 RDD？

我一直在尝试合并averagePoints1和kpoints2下面的两个Rdd。一直报错ValueError:CannotdeserializeRDDwithdifferentnumberofitemsinpair:(2,1)而且我尝试了很多东西，但我不能这两个Rdds是相同的，具有相同数量的分区。我的下一步是在两个列表上应用欧几里德距离函数来衡量差异，因此如果有人知道如何解决此错误或有不同的方法我可以遵循，我将非常感激。提前致谢averagePoints1=averagePoints.map(lambdax:x[1])averagePoints1.collect()Out[15]:[

中压何在 section averagePoints code scala hadoop apache-spark pyspark rdd

scala - 如何使用 --files 选项执行上传到工作节点的应用程序？

我正在使用spark-submit将文件上传到我的工作节点，我想访问该文件。这个文件是一个二进制文件，我想执行它。我已经知道如何通过scala执行文件，但我一直收到“找不到文件”异常，而且我找不到访问它的方法。我使用以下命令提交我的作业。spark-submit--classMain--masteryarn--deploy-modecluster--fileslas2lasmyjar.jar当作业正在执行时，我注意到它已上传到当前正在运行的应用程序的暂存目录，当我尝试运行以下命令时，它不起作用。valcommand="hdfs://url/user/username/.sparkSta

传到 scala section code las hadoop apache-spark hadoop-yarn

scala - Spark-rdd 操作数据

我有如下示例数据:UserId,ProductId,Category,Action1,111,Electronics,Browse2,112,Fashion,Click3,113,Kids,AddtoCart4,114,Food,Purchase5,115,Books,Logout6,114,Food,Click7,113,Kids,AddtoCart8,115,Books,Purchase9,111,Electronics,Click10,112,Fashion,Purchase3,112,Fashion,Click我需要生成对“时尚”类别或“电子产品”类别感兴趣但对这两个类别都不感

Spark-rdd scala 34 Fashion val apache-spark hadoop hive apache-spark-sql

scala - Spark 读取 HBase 与 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误

我想用scala读取HbasebySpark，但是我得到了错误:线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError中的异常:org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;但是我已经添加了依赖项，这个问题困扰着我。我的环境如下:scala:2.11.12星火:2.3.1HBase:可能是2.1.0(我不知道)Hadoop:2.7.2.4而我的build.sbt是:librar

NoSuchMethodError getLocationInfo 34 apache hadoop scala apache-spark hbase

scala - 将结构传递给 spark 中的 UDAF

我有以下架构-root|--id:string(nullable=false)|--age:long(nullable=true)|--cars:struct(nullable=true)||--car1:string(nullable=true)||--car2:string(nullable=true)||--car3:string(nullable=true)|--name:string(nullable=true)如何将结构“汽车”传递给udaf？如果我只想传递cars子结构，inputSchema应该是什么。最佳答案可

传递 scala nullable car code apache-spark hadoop apache-spark-sql user-defined-functions

scala - 如何使用相同的案例类创建多个数据框

如何使用相同的案例类创建多个数据框？假设我想创建多个数据框，一个有5列，另一个有3列，我将如何使用单个案例类来实现？最佳答案您不能直接使用具有相同列数的单个案例类创建两个Dataframe。假设您有以下案例类FlightData。如果您从这个案例类创建了一个Dataframe，它将包含3列。但是，您可以创建两个Dataframe，但在下一个Dataframe中，您可以从此案例类中选择一些列。如果您有两个不同的文件并且每个文件包含不同的结构，您需要创建两个单独的案例类。valsomeData=Seq(Row("UnitedStat

scala 如何 section 34 COUNTRY apache-spark hadoop

应该继承scala类型不匹配错误

我一直在努力让hadoop/scala桥在我的机器上运行，当我设置作业时，我从编译器中收到以下错误。[error]found:java.lang.Class[org.apache.hadoop.mapred.TextInputFormat(classOf[org.apache.hadoop.mapred.TextInputFormat])[error]required:java.lang.Class[_考虑到TextInputFormat实际上实现了InputFormat，我不确定如何进行这里操作。(参见:http://hadoop.apache.org/mapreduce/docs/

scala 应该 hadoop apache TextInputFormat type-mismatch

scala - 为什么我的jar 看不到环境中的HBase 配置？

我编写了一个试图创建默认HBaseConfiguration的应用程序，但是当我将应用程序打包为jar时，它无法正常工作，因为它正在尝试使用127.0.0.1的zookeeper而不是我在/etc/hbase/conf/hbase-site.xml。该应用程序可以简化为如下所示:objectTestUtilextendsApp{valhbaseTable=newHTable(HBaseConfiguration.create,"tableName")println(hbaseTable)}当我使用以下命令运行它时，它工作正常:CLASSPATH=`hbaseclasspath`java

scala HBase code section hadoop jvm classpath

Java/Scala 远程 HDFS 使用

我正在尝试连接到远程HDFS集群。我已经阅读了一些文档并开始使用，但没有找到如何做到这一点的最佳解决方案。情况:我在xxx-something.com上有HDFS。我可以通过SSH连接到它，一切正常。但我想做的是，将文件从它获取到我的本地机器。我做了什么:我已经在我的conf文件夹中创建了core-site.xml(我正在创建Play!应用程序)。我已经将fs.default.name配置更改为hdfs://xxx-something.com:8020(不确定端口)。然后我尝试启动一个简单的测试:valconf=newConfiguration()conf.addResource(ne

Scala Java hadoop apache hdfs