草庐IT

hadoop - 如何为 Multi-Tenancy 配置 Hive Impala/Spark?

试图找出答案,但当我想到以下内容时找不到答案。它涵盖了Spark、Impala、MR、HiveMulti-Tenancy。Impala给出的场景。我觉得它也可以应用于Spark,因为Impala/Spark都是内存占用。场景1假设我们为MR、Hive和Impala创建一个具有Multi-Tenancy的10节点集群,其中40%的资源静态分配给Impala。为了运行Impala,我们创建了具有256GBRAM数据节点的集群。问题是对于这种配置,我们正在失去低成本低GB的优势,即32-40GBRAM和5-6个核心节点,这是MR/的主要卖点之一Hadoop可在处理100TB数据期间以极低的成

hadoop - 如何为 eclipse 构建 hadoop 2.4.0 插件

我想为hadoop2.4.0版本构建hadoopeclipse插件。那么如何构建这个插件呢?我尝试了几种使用apacheant的选项,但这并没有解决我的问题。 最佳答案 *此命令用于构建hadoop-eclipse-plugin-2.4.0.jar*步骤:下载Anthttp://ant.apache.org/bindownload.cgi下载https://github.com/winghc/hadoop2x-eclipse-plugin这个其中,root是hadoop2x-eclipse-plugin的目录hadoop2x-ecl

hadoop - 如何为单元测试设置HDFS目录时间

我正在尝试对使用Hadoop的HDFS编程接口(interface)的Java程序进行单元测试。我需要创建目录并设置它们的时间以确保我的程序将在正确的时间“清理”目录。但是,FileSystem.setTimes似乎不适用于目录,仅适用于文件。有什么方法可以以编程方式设置HDFS目录访问/修改时间?我正在使用Hadoop0.20.204.0。谢谢!弗兰克 最佳答案 看起来这确实是HDFS错误,最近标记为已解决。如果这对您很重要,您可能需要从不尝试版本或快照。HDFS-2436 关于had

hadoop - [hdfs]如何为每个datanode配置不同的dfs.datanode.data.dir?

我使用ambari来设置hadoop集群。但是当我配置hdfs的配置时。我发现如果我修改dfs.datanode.data.dir,configure会在所有datanodes上生效...如何为每个数据节点配置不同的配置?比如机器A有两block磁盘,分别挂载到/data1、/data2但是机器B只有一个盘,挂载到/data1所以我想将机器A的dfs.datanode.data.dir配置为“/data1,/data2”。但只有机器B的“/data1” 最佳答案 不存在的HDFS目录将被忽略。都放进去,没关系。

java - 如何为 64 位 Linux 机器编译 Hadoop?

我已经下载了Hadoop(2.2.0)的最新稳定二进制文件。就在我初始化HDFS时,我收到了这个警告:WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable我知道我可以通过从源代码编译来解决这个问题,所以我从Hadoop下载了源代码包。我知道编译的基本过程,但在阅读README后感到困惑。快速谷歌显示我必须为此使用maven,这是一个构建基于java的项目的工具。所以我的问题是,如何使用maven从源代码编译Ha

Hadoop如何为每个节点分配更多内存

我有一个运行在2个节点(主节点和从节点)上的Hadoop集群,每个节点都有126GB内存和32个CPU。当我运行我的集群时,我只能看到每个节点8GB的内存。我该如何增加这个?每个节点分配的最佳内存是多少以及如何分配? 最佳答案 这篇博文将为您提供大量帮助;http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/ 关于Hadoop如何为每个节点分配更多内存,我们在StackOverflow上找到一个类似的问

hadoop - 如何为 ResourceManager 设置 DEBUG 日志级别?

我正在对Yarn源代码进行一些更改。我在${HADOOP_HOME}/etc/hadoop/log4j.properties中将hadoop.root.logger=DEBUG,console更改为DEBUG。我可以获取ApplicationMaster的DEBUG信息,但在${HADOOP_HOME}/logs/yarn-yar-resourcemanager-hostname.log中找不到任何输出的DEBUG信息。我应该更改其他任何地方以触发资源管理器的DEBUG级别吗? 最佳答案 引用Settingdebugloglevel

java - 如何为 group by 编写 pig 代数 udf

我想编写一个pig代码来执行分组并生成31个字段的总和,但在此之前我需要做一些自定义处理,为此我编写了一个eval函数。我想如果我可以将GROUP和SUM操作包含到UDF中,我可以让它运行得更快。要做到这一点,我可以使用代数UDF如果是,我的inital()、intermed()和final()的返回模式会是什么样子,如果不是,我还能如何实现它。下面是我的代码,谢谢。a=LOAD'./a'usingPigStorage('|')AS(val:int,grp1,grp2,amt1:long,amt2:long,amt3...amt31:long);b=FOREACHaGENERATEmy

hadoop - 如何为预期输出编写配置单元脚本

event1id1foo_id1event1id1foo_id2event1id1foo_id3event1id1foo_id4event1id1foo_id1event1id2foo_id1event1id2foo_id2event1id3foo_id1event1id1foo_id1event1id3foo_id3event1id4foo_id1event1id4foo_id2event1id1foo_id1event1id4foo_id3event1id4foo_id4event2foo_id1event2foo_id2event2foo_id3event2foo_id3所有事件

java - 如何为 Spark 中的 SaveAsSequenceFile 方法提供编解码器?

我正在尝试弄清楚如何将编解码器传递给ApacheSpark中的saveAsSequenceFile方法。下面是我试图运行的代码。我正在运行Scala2.10.4、Spark1.0.0、Java1.7.60和ApacheHadoop2.4.0。valrdd:RDD[(String,String)]=sc.sequenceFile(secPath,classOf[Text],classOf[Text]).map{case(k,v)=>(k.toString,v.toString)}valsortedOutput=rdd.sortByKey(true,1)sortedOutput.saveA