CLOUDERA

apache-spark - 内存配置对公平调度器真的重要吗？

我们有一个配置了公平调度器的hadoop集群。我们过去常常看到这样的场景，即集群中没有多少作业要运行，正在运行的作业试图占用尽可能多的可用内存和内核。对于公平调度程序，执行程序内存和内核对spark作业真的很重要吗？还是取决于公平调度程序来决定给多少？最佳答案 FairScheduler的政策是分配给它的第一个作业将拥有提供的所有资源。当我们运行第二个作业时，所有资源将被划分为(可用资源)/(作业数量)现在主要关注的是，您为运行作业提供了多少容器内存。如果它等于可用资源的总数，那么您的工作确实可以使用所有资源。

平调 apache-spark section stackoverflow questions hadoop cloudera hadoop2

java - 无法构建 piggybank ->/home/build/ivy/lib 不存在

嘿，我按照这里的步骤操作:http://wiki.apache.org/pig/PiggyBank构建存钱jar，但我不断得到下面的输出。我还从源代码构建了pig项目，并在我的.bash_profile中引用了它:cloudera@cloudera-demo:~/piggybank/java$./makepiggy.shBuildfile:/home/cloudera/piggybank/java/build.xmldownload-hive-deps:init:compile:[echo]***CompilingPigUDFs***[javac]/home/cloudera/pigg

piggybank build section cloudera java hadoop apache-pig

hadoop - 启动工作时 oozie 的问题

命令:ooziejob-ooziehttp://localhost:8080/oozie-config/home/hadoop/Desktop/Cloudera/oozie-2.3.0-cdh3u1/examples/apps/no-op/job.properties-run错误信息:Error:IO_ERROR:java.net.ConnectException:Connectionrefused 最佳答案最后我配置了oozie步骤在hadoopconf的core-site.xml中添加这一行hadoop.proxyuser.x

hadoop oozie section hdfs cloudera

hadoop - MapR 架构与 Cloudera 架构

我熟悉Cloudera的基础设施或架构:Master节点包括NameNode、SecondaryNameNode、JobTracker、HMaster。从节点包括DataNode、TaskTracker、HRegionServer。Master节点应该都在自己的节点上(除非它是一个小集群，而不是SecondaryNameNode，JobTracker和HMaster可以组合，如果它是一个非常小的集群甚至是NameNode)。从节点应始终位于同一节点上。从节点越多越好。SecondaryNameNode用词不当，除非您为高可用性启用它。MapR是否维护此设置？它有何相似之处和不同之处？

Cloudera hadoop section MapR SecondaryNameNode architecture infrastructure

sql - (Hive, SQL) - 如何对列内的字符串列表进行排序？

Hive sql section code genre hadoop cloudera impala

java - 无法在 Spark 中配置 ORC 属性

我正在使用Spark1.6(Cloudera5.8.2)并尝试了以下方法来配置ORC属性。但不影响输出。下面是我试过的代码片段。DataFramedataframe=hiveContext.createDataFrame(rowData,schema);dataframe.write().format("orc").options(newHashMap(){{put("orc.compress","SNAPPY");put("hive.exec.orc.default.compress","SNAPPY");put("orc.compress.size","524288");put("

Spark java code 34 compress hadoop apache-spark hive cloudera

hadoop - 处理错误 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext，但类是预期的

我正在使用CDH4并使用新的mapreduceAPI编写了一个MapReduce应用程序。我已经针对hadoop-core-1.0.3.jar编译了它，当我在我的Hadoop集群上运行它时，我得到了错误:错误:找到接口(interface)org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类我提到了thisStackOverflowquestion这似乎在谈论同一个问题。答案表明我们针对Hadoop-core-2.X.jar文件编译出代码，但我找不到类似的东西。那么我该如何编译它才能在CDH4中完美运行。最

hadoop TaskAttemptContext section mapreduce cloudera

Hadoop HDFS - 无法为文件提供 +x 权限

因此，我使用Cloudera的安装和管理工具启动并运行了一个3节点服务器集群。我正在运行HDFS，可以查看/创建目录等。我继续安装了Fuse插件，它允许我将HDFS安装为文件系统。一切正常。我可以将文件写入文件夹等。问题:当我在安装的驱动器中运行'chmod777./file.sh'时，它没有给出任何错误，但是当我执行'ls-l'时它只有:'-rw-rw-rw-1rootnobody26Oct508:57run.sh'当我运行'sudo-uhdfshadoopfs-chmod777/run.sh'时，它仍然具有相同的权限。无论我以任何方式做什么，我都无法获得对任何文件的执行权限。我在C

Hadoop HDFS section code 中运 fuse cloudera

hadoop - Cloudera 支持 docker 容器或 Docker 支持 CM 5 图像

最近我的组织正在考虑使用Docker。我们组使用的是clouderaCDH5.1.2。1)cloudera是否与Docker容器兼容？2)docker和cloudera组合是否存在已知问题？我在这个论坛上找不到任何关于docker的话题。任何指针都会有所帮助。谢谢，阿米特最佳答案已发布Cloudera的官方答复here:Ireadthroughwhatdockeris,yesterday.Idonotthinkthishasbeentested,thereareanumberofplatformvirtualizationpro

容器 Cloudera section hadoop docker cloudera-cdh

hadoop - Spark 写入 hdfs 不使用 saveAsNewAPIHadoopFile 方法

我在CDH5.2.0上使用Spark1.1.0，并试图确保我可以读取和写入hdfs。我很快意识到.textFile和.saveAsTextFile调用旧的api并且似乎与我们的hdfs版本不兼容。deftestHDFSReadOld(sc:SparkContext,readFile:String){//THISWILLFAILWITH//(TID0,dl1rhd416.internal.edmunds.com):java.lang.IllegalStateException:unreadblockdata//java.io.ObjectInputStream$BlockDataInpu

saveAsNewAPIHadoopFile hadoop ConnectionManager classOf 34 hdfs apache-spark cloudera

18 19 202122 23 24