SCALA_HOME

scala - 是否可以在 HDFS 上持久化 RDD？

我知道RDD可以持久化/缓存在内存、磁盘或两者上，但是否也可以将其持久化到HDFS上。我面临的问题是我的集群上的内存和磁盘空间太少，而我的HDFS空间很大。最佳答案 RDD持久化只能在工作机器(内存和磁盘)内进行。一些持久性级别在集群中的其他工作机器中复制RDD。从今天开始，为了在HDFS中持久化RDD/DataFrame，我们只能使用写入API。写入HDFS://WritingDataFramedf.write.save("hdfs://namenode_host:port/file/path");//WritingRDDrdd

持久 scala section RDD hadoop apache-spark hdfs

scala - HDFS 文件系统的 URL

我在HDFS/user/Cloudera/Test/*中有一些数据。我可以通过运行hdfs-dfs-catTest/*很好地查看记录。现在是同一个文件，我需要在Scala中将其读取为RDD。我在scalashell中尝试了以下内容。valfile=sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")然后我写了一些过滤器和for循环来读取单词。但是当我最后使用Println时，它说找不到文件。任何人都可以帮我知道在这种情况下HDFSurl是什么。注:我使用的是ClouderaCDH5.0VM

scala HDFS section code Cloudera hadoop bigdata

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

java - 无法构建 piggybank ->/home/build/ivy/lib 不存在

嘿，我按照这里的步骤操作:http://wiki.apache.org/pig/PiggyBank构建存钱jar，但我不断得到下面的输出。我还从源代码构建了pig项目，并在我的.bash_profile中引用了它:cloudera@cloudera-demo:~/piggybank/java$./makepiggy.shBuildfile:/home/cloudera/piggybank/java/build.xmldownload-hive-deps:init:compile:[echo]***CompilingPigUDFs***[javac]/home/cloudera/pigg

piggybank build section cloudera java hadoop apache-pig

java - 基于HADOOP_HOME自动加载HDFS Configuration？

我正在开发一个Java程序来与已经运行的hadoop集群交互。该程序已将HADOOP_HOME作为环境变量传递给它。基于这个值，我需要在开始与HDFS/MapReduce交互之前加载所有必要的配置资源。我认为我需要的文件基于apachedocumentation.我当前的解决方案如下所示:finalStringHADOOP_HOME=System.getEnv("HADOOP_HOME");Configurationconf=newConfiguration();conf.addResource(newPath(HADOOP_HOME,"src/core/core-default.xm

Configuration HADOOP_HOME HADOOP section java hdfs

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能，以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark，因为我使用的是Scala，而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了，但请提供一些证据。)因此，为了与Greenplum存储层保持一致，我查看了Pivotal的HAWQ，它基本上是在Greenplum上使用SQL的Hadoop

结构化 Greenplum HAWQ MapReduce scala hadoop apache-spark

scala - Spark : sc. WholeTextFiles 执行时间过长

我有一个集群，我执行了wholeTextFiles，它应该提取大约一百万个文本文件，总计大约10GB我有一个NameNode和两个DataNode，每个都有30GBRAM，每个有4个内核。数据存储在HDFS中。我没有运行任何特殊参数，作业仅读取数据就需要5个小时。这是预期的吗？是否有任何参数可以加快读取速度(spark配置或分区、执行程序数量？)我才刚刚起步，之前从未需要优化工作编辑:此外，有人可以准确解释wholeTextFiles函数的工作原理吗？(不是如何使用它，而是它是如何编程的)。我非常有兴趣了解分区参数等。编辑2:基准评估所以我尝试在wholeTextFile之后重新分区，

WholeTextFiles scala code section strong hadoop optimization configuration apache-spark

scala - Spark 作业失败，退出状态为 15

我正在尝试在spark中运行简单的字数统计作业，但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

scala Spark apache java hadoop apache-spark

Maven仅在使用资源插件时仅在JAR中编译或包含scala .class文件

我有一个Scala应用程序，我正在尝试使用Maven包装为.jar文件。有一个application.conf文件，我试图将其包装到JAR中作为资源。但是，当我使用资源插件（通过将资源放入src/main/资源中，或通过将其添加到其他一些文件夹中的pom.xml中，可以自动使用资源插件，然后将其添加到pom.xml中，然后maven停止编译和包装JAL中的.CLASS文件。只要我不使用资源插件，一切都可以正常工作。Maven运行Scala编译器，将.class文件放入JAR中，并通过7ZIP手动添加我的资源后，程序可以很好地执行。一些其他细节：我正在使用ArtimaSuperSafe编译器插件

编译插件 gt lt artifactId

hadoop - 找不到 hadoop 安装 : $HADOOP_HOME must be set or hadoop must be in the path

所以有点背景。我一直在尝试在CentOS6机器上设置Hive。我按照这个Youtube视频的说明操作:http://www.youtube.com/watch?v=L2lSrHsRpOI就我而言，我使用的是Hadoop-1.1.2和Hive0.9.0，本视频中所有标有“mnt”的目录我都将其替换为“opt”，因为这是我所有的hadoop和hive包的位置被打开了。当我到达视频中实际上应该通过“./hive”运行Hive的部分时弹出此错误:"Cannotfindhadoopinstallation:$HADOOP_HOMEmustbesetorhadoopmustbeinthepath"

hadoop must section HADOOP_HOME installation hive

64 65 666768 69 70