草庐IT

CLOUDERA

全部标签

apache-spark - 内存配置对公平调度器真的重要吗?

我们有一个配置了公平调度器的hadoop集群。我们过去常常看到这样的场景,即集群中没有多少作业要运行,正在运行的作业试图占用尽可能多的可用内存和内核。对于公平调度程序,执行程序内存和内核对spark作业真的很重要吗?还是取决于公平调度程序来决定给多少? 最佳答案 FairScheduler的政策是分配给它的第一个作业将拥有提供的所有资源。当我们运行第二个作业时,所有资源将被划分为(可用资源)/(作业数量)现在主要关注的是,您为运行作业提供了多少容器内存。如果它等于可用资源的总数,那么您的工作确实可以使用所有资源。

java - 无法构建 piggybank ->/home/build/ivy/lib 不存在

嘿,我按照这里的步骤操作:http://wiki.apache.org/pig/PiggyBank构建存钱jar,但我不断得到下面的输出。我还从源代码构建了pig项目,并在我的.bash_profile中引用了它:cloudera@cloudera-demo:~/piggybank/java$./makepiggy.shBuildfile:/home/cloudera/piggybank/java/build.xmldownload-hive-deps:init:compile:[echo]***CompilingPigUDFs***[javac]/home/cloudera/pigg

hadoop - 启动工作时 oozie 的问题

命令:ooziejob-ooziehttp://localhost:8080/oozie-config/home/hadoop/Desktop/Cloudera/oozie-2.3.0-cdh3u1/examples/apps/no-op/job.properties-run错误信息:Error:IO_ERROR:java.net.ConnectException:Connectionrefused 最佳答案 最后我配置了oozie步骤在hadoopconf的core-site.xml中添加这一行hadoop.proxyuser.x

hadoop - MapR 架构与 Cloudera 架构

我熟悉Cloudera的基础设施或架构:Master节点包括NameNode、SecondaryNameNode、JobTracker、HMaster。从节点包括DataNode、TaskTracker、HRegionServer。Master节点应该都在自己的节点上(除非它是一个小集群,而不是SecondaryNameNode,JobTracker和HMaster可以组合,如果它是一个非常小的集群甚至是NameNode)。从节点应始终位于同一节点上。从节点越多越好。SecondaryNameNode用词不当,除非您为高可用性启用它。MapR是否维护此设置?它有何相似之处和不同之处?

sql - (Hive, SQL) - 如何对列内的字符串列表进行排序?

我在Hive(SQL)中遇到大数据问题。SELECTgenre,COUNT(*)ASunique_countFROMtable_nameGROUPBYgenre结果如下:genre|unique_count----------------------------------Romance,Crime,Drama,Law|1560Crime,Drama,Law,Romance|895Law,Romance,Crime,Drama|942Adventure,Action|3250Action,Adventure|910我想要的是按genreASC|DESC对元素进行排序并得到如下结果gen

java - 无法在 Spark 中配置 ORC 属性

我正在使用Spark1.6(Cloudera5.8.2)并尝试了以下方法来配置ORC属性。但不影响输出。下面是我试过的代码片段。DataFramedataframe=hiveContext.createDataFrame(rowData,schema);dataframe.write().format("orc").options(newHashMap(){{put("orc.compress","SNAPPY");put("hive.exec.orc.default.compress","SNAPPY");put("orc.compress.size","524288");put("

hadoop - 处理错误 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

我正在使用CDH4并使用新的mapreduceAPI编写了一个MapReduce应用程序。我已经针对hadoop-core-1.0.3.jar编译了它,当我在我的Hadoop集群上运行它时,我得到了错误:错误:找到接口(interface)org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类我提到了thisStackOverflowquestion这似乎在谈论同一个问题。答案表明我们针对Hadoop-core-2.X.jar文件编译出代码,但我找不到类似的东西。那么我该如何编译它才能在CDH4中完美运行。 最

Hadoop HDFS - 无法为文件提供 +x 权限

因此,我使用Cloudera的安装和管理工具启动并运行了一个3节点服务器集群。我正在运行HDFS,可以查看/创建目录等。我继续安装了Fuse插件,它允许我将HDFS安装为文件系统。一切正常。我可以将文件写入文件夹等。问题:当我在安装的驱动器中运行'chmod777./file.sh'时,它没有给出任何错误,但是当我执行'ls-l'时它只有:'-rw-rw-rw-1rootnobody26Oct508:57run.sh'当我运行'sudo-uhdfshadoopfs-chmod777/run.sh'时,它仍然具有相同的权限。无论我以任何方式做什么,我都无法获得对任何文件的执行权限。我在C

hadoop - Cloudera 支持 docker 容器或 Docker 支持 CM 5 图像

最近我的组织正在考虑使用Docker。我们组使用的是clouderaCDH5.1.2。1)cloudera是否与Docker容器兼容?2)docker和cloudera组合是否存在已知问题?我在这个论坛上找不到任何关于docker的话题。任何指针都会有所帮助。谢谢,阿米特 最佳答案 已发布Cloudera的官方答复here:Ireadthroughwhatdockeris,yesterday.Idonotthinkthishasbeentested,thereareanumberofplatformvirtualizationpro

hadoop - Spark 写入 hdfs 不使用 saveAsNewAPIHadoopFile 方法

我在CDH5.2.0上使用Spark1.1.0,并试图确保我可以读取和写入hdfs。我很快意识到.textFile和.saveAsTextFile调用旧的api并且似乎与我们的hdfs版本不兼容。deftestHDFSReadOld(sc:SparkContext,readFile:String){//THISWILLFAILWITH//(TID0,dl1rhd416.internal.edmunds.com):java.lang.IllegalStateException:unreadblockdata//java.io.ObjectInputStream$BlockDataInpu