草庐IT

hadoop-mapreduce

全部标签

hadoop - Docker 容器运行 Mesos 集群并在集群上运行其他 docker 容器(使用 Marathon)

我刚开始使用Mesos、Docker和Marathon,但我找不到任何可以回答这个特定问题的地方。我想设置一个在Docker上运行的Mesos集群——有几个互联网资源可以做到这一点,但我想在Mesos本身之上运行Docker容器。这意味着Docker容器在其他Docker容器中运行。这有什么问题吗?不知何故,它在直觉上似乎并不正确,但看起来这样做真的很方便。理想情况下,我想运行Mesos集群(使用Marathon、Chronos等),然后在其上的Docker容器中运行Hadoop。这是可能的还是标准的做事方式?对于什么是良好做法的任何其他建议,我们将不胜感激。谢谢

java - 为什么我们需要在 MapReduce 作业中显式设置 OutputKey/InputKey 类?

当Map和Reduce类必须尊重地扩展Mapper和Reducer类时,为什么我们需要在MapReduce作业中显式设置OutputKey/InputKey类,这需要添加?一个例子:工作session:job.setOutputKeyClass(NullWritable.class);job.setOutputValueClass(Text.class);job.setOutputFormatClass(TextOutputFormat.class);reducer:publicstaticclassComputeReducerextendsReducer{如果我们已经显式设置redu

python - MapReduce 作业(用 python 编写)在 EMR 上运行缓慢

我正在尝试使用python的MRJob包编写MapReduce作业。该作业处理存储在S3中的约36,000个文件。每个文件大约2MB。当我在本地运行作业(将S3存储桶下载到我的计算机)时,运行大约需要1小时。但是,当我尝试在EMR上运行它时,它需要更长的时间(我在8小时时停止了它,它在映射器中完成了10%)。我在下面附上了我的mapper_init和mapper的代码。有谁知道什么会导致这样的问题?有谁知道如何修理它?我还应该注意,当我将输入限制为100个文件的样本时,它工作正常。defmapper_init(self):"""Setclassvariablesthatwillbeus

hadoop - 在 Apache Spark 中使用 Reduce

我正在尝试使用Apachespark加载一个文件,并将该文件分发到我集群中的多个节点,然后聚合结果并获取它们。我不太明白该怎么做。根据我的理解,reduce操作使Spark能够组合来自不同节点的结果并将它们聚合在一起。我的理解正确吗?从编程的角度来看,我不明白我将如何编写这个reduce函数。我究竟如何将主数据集分成N个部分,并使用转换列表要求它们并行处理?reduce应该接受两个元素和一个将它们组合起来的函数。这两个元素应该是Spark上下文中的RDD,还是可以是任何类型的元素?另外,如果你有N个不同的分区并行运行,如何减少将它们的所有结果聚合为一个最终结果(因为reduce函数只聚

hadoop - Hive 在多列上对 null 的奇怪处理?

这个查询:SELECTcount(distinctfield1,field2,field3,field4)FROMSOME_TABLE返回与此查询不同(更小)的计数:SELECTcount(distinctcoalesce(field1,"null"),coalesce(field2,"null"),coalesce(field3,"null"),coalesce(field4,"null"))FROMSOME_TABLE我希望结果是相同的。对此有解释吗? 最佳答案 您看到不同结果的原因有两点:COUNT(DISTINCT(...)

hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数?

Impala确实支持UDFswritteninC++orJava,但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容?--UDFdefinitionCREATEFUNCTIONget_date_string(datetimep_value)ASRETURNyear(p_value)*10000+month(p_value)*100+day(p_value);--UDFcallSELECTget_date_string(CreatedOn)FROMPosts;更新:Hive支持这样的UDF——它们被称为macros但我发现

hadoop - 带有存档操作的 Oozie 工作流

我想制作一个oozie工作流,其中成功的最后一步是“存档”结果。shell中的命令是hadooparchive-archiveName=XXX.har-p/some/random/parentdirectorToArhivepathToArchiveDestination我试过以下方法Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我得到的错误类似于以下内容:WARNING:ExceptioninRunloopofthread:mainwithmessage:E0701:XMLschemaerror,cv

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建,但没有任何内容附加到文件中。在我开始调试HTTP源之前,你能验证我的flume.conf吗?##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

hadoop - PageRankBenchmark - 减少 0% - Giraph 示例

我正在使用PageRankBenchmark示例测试我的单节点集群Giraph安装,方法如下:$HADOOP_HOME/bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/giraph-examples-1.1.0-for-hadoop-2.4.0-jar-with-dependencies.jarorg.apache.giraph.benchmark.PageRankBenchmark-v-V1000-e1-s5-w1但是在映射器完成他们的工作之后,reducer不会启动(映射100%减少0%,根据控制台)。这是该算法的适当行为

hadoop - 三节点hadoop集群中的Hbase安装

我已经安装了我的hadoop三节点集群(master、slave1和slave2)。我想安装Hbase完全分布式模式。我想在我的hadoop集群MASTER机器(即Namenode)中安装HBaseMaster和Zookeepr,并在SLAVE1和SLAVE2(即Datanodes)机器中安装区域服务器。这是正确的做法吗?抱歉,这可能是一个简单的问题,但我是NoSQL系统的新手,想进行此安装。如果有人能够分享安装的任何引用文档,我真的很感激。提前致谢。 最佳答案 为了在三个节点上配置hbase和zookeeper,即1master和