scala-tools

python - Apache Spark Python 到 Scala 的翻译

如果我做对了，ApacheYARN将ApplicationMaster和NodeManager作为JAR文件接收。它们作为Java进程在YARN集群的节点上执行。当我使用Python编写Spark程序时，它是否以某种方式编译成JAR？如果不是，为什么Spark能够在YARN集群节点上执行Python逻辑？最佳答案 PySpark驱动程序使用Py4J(http://py4j.sourceforge.net/)启动JVM并创建Spark上下文。用Python编写的SparkRDD操作映射到PythonRDD上的操作。在远程worker

eclipse - 使用 scala 将 spark 作业从 eclipse 提交到 yarn-client

我是spark和scala的新手，我很难以YARN客户端的身份提交Spark作业。通过sparkshell(sparksubmit)执行此操作没有问题，同样适用于:首先在eclipse中创建一个spark作业，然后将其编译成jar并通过内核shell使用sparksubmit，例如:spark-submit--classebicus.WordCount/u01/stage/mvn_test-0.0.1.jar但是用Eclipse直接编译提交给YARN好像比较难。我的项目设置如下:我的集群正在运行CDHcloudera5.6。我有一个Maven项目，使用Scala，Myclasspath

eclipse 交到 hadoop spark 34 scala apache-spark hadoop-yarn

scala - 是否可以在 HDFS 上持久化 RDD？

我知道RDD可以持久化/缓存在内存、磁盘或两者上，但是否也可以将其持久化到HDFS上。我面临的问题是我的集群上的内存和磁盘空间太少，而我的HDFS空间很大。最佳答案 RDD持久化只能在工作机器(内存和磁盘)内进行。一些持久性级别在集群中的其他工作机器中复制RDD。从今天开始，为了在HDFS中持久化RDD/DataFrame，我们只能使用写入API。写入HDFS://WritingDataFramedf.write.save("hdfs://namenode_host:port/file/path");//WritingRDDrdd

持久 scala section RDD hadoop apache-spark hdfs

scala - HDFS 文件系统的 URL

我在HDFS/user/Cloudera/Test/*中有一些数据。我可以通过运行hdfs-dfs-catTest/*很好地查看记录。现在是同一个文件，我需要在Scala中将其读取为RDD。我在scalashell中尝试了以下内容。valfile=sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")然后我写了一些过滤器和for循环来读取单词。但是当我最后使用Println时，它说找不到文件。任何人都可以帮我知道在这种情况下HDFSurl是什么。注:我使用的是ClouderaCDH5.0VM

scala HDFS section code Cloudera hadoop bigdata

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/util/Tool 中的异常

Igetbelowerrorwhenipackage(jar)andrunmydefaulthadoopjob.Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/Toolatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClassCond(ClassLoader.java:631)atjava.lang.ClassLoader.defineClass(ClassLoader.

hadoop NoClassDefFoundError java URLClassLoader ClassLoader mapreduce

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能，以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark，因为我使用的是Scala，而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了，但请提供一些证据。)因此，为了与Greenplum存储层保持一致，我查看了Pivotal的HAWQ，它基本上是在Greenplum上使用SQL的Hadoop

结构化 Greenplum HAWQ MapReduce scala hadoop apache-spark

scala - Spark : sc. WholeTextFiles 执行时间过长

我有一个集群，我执行了wholeTextFiles，它应该提取大约一百万个文本文件，总计大约10GB我有一个NameNode和两个DataNode，每个都有30GBRAM，每个有4个内核。数据存储在HDFS中。我没有运行任何特殊参数，作业仅读取数据就需要5个小时。这是预期的吗？是否有任何参数可以加快读取速度(spark配置或分区、执行程序数量？)我才刚刚起步，之前从未需要优化工作编辑:此外，有人可以准确解释wholeTextFiles函数的工作原理吗？(不是如何使用它，而是它是如何编程的)。我非常有兴趣了解分区参数等。编辑2:基准评估所以我尝试在wholeTextFile之后重新分区，

WholeTextFiles scala code section strong hadoop optimization configuration apache-spark

scala - Spark 作业失败，退出状态为 15

我正在尝试在spark中运行简单的字数统计作业，但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

scala Spark apache java hadoop apache-spark

Maven仅在使用资源插件时仅在JAR中编译或包含scala .class文件

我有一个Scala应用程序，我正在尝试使用Maven包装为.jar文件。有一个application.conf文件，我试图将其包装到JAR中作为资源。但是，当我使用资源插件（通过将资源放入src/main/资源中，或通过将其添加到其他一些文件夹中的pom.xml中，可以自动使用资源插件，然后将其添加到pom.xml中，然后maven停止编译和包装JAL中的.CLASS文件。只要我不使用资源插件，一切都可以正常工作。Maven运行Scala编译器，将.class文件放入JAR中，并通过7ZIP手动添加我的资源后，程序可以很好地执行。一些其他细节：我正在使用ArtimaSuperSafe编译器插件

编译插件 gt lt artifactId

64 65 666768 69 70