草庐IT

mapReduce

全部标签

json - 使用 java Mapreduce 处理 JSON

我是hadoopmapreduce新手我有输入文本文件,其中数据存储如下。这里只有几个元组(data.txt){"author":"SharīfQāsim","book":"al-Rabīʻal-manshūd"}{"author":"NāṣirNimrī","book":"AdībʻAbbāsī"}{"author":"MuẓaffarʻAbdal-MajīdKammūnah","book":"AsmāʼAllāhal-ḥusnáal-wāridahfīmuḥkamkitābih"}{"author":"ḤasanMuṣṭafáAḥ

java - 使用 ArrayWritable 的序列化似乎以一种有趣的方式工作

我正在使用ArrayWritable,在某些时候我需要检查Hadoop如何序列化ArrayWritable,这是我通过设置job.setNumReduceTasks(0):0  IntArrayWritable@10f11b83  IntArrayWritable@544ec16  IntArrayWritable@fe748f8  IntArrayWritable@1968e2311  IntArrayWritable@14da8f414  IntArrayWritable@18f6235这是我使用的测试映射器:publicstaticclassMyMapperextendsMapp

hadoop - 在 Hive 中获取 sysdate -1

有什么方法可以让Hive中的currentdate-1总是意味着yesterdaysdate?并且采用这种格式-20120805?我可以像这样运行查询以获取昨天的日期的数据,因为今天是8月6日-select*fromtable1wheredt='20120805';但是当我尝试使用date_sub函数以这种方式获取昨天的日期时,因为下表在date(dt)列上进行了分区。select*fromtable1wheredt=date_sub(TO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyyMMdd')),1)limit10;它正在寻找所有分区中的数据?

hadoop - 在 Hadoop 中将多个序列文件合并为一个序列文件

如何在Hadoop中将多个序列文件合并为一个序列文件谢谢。 最佳答案 如果你想将多个文件合并成一个文件,那么这里有两个答案:母语getmerge用法:hadoopfs-getmerge将源目录和目标文件作为输入并将src中的文件连接到目标本地文件中。可选地addnl可以设置为在每个文件的末尾添加一个换行符。JavaAPIorg.apache.hadoop.fs.FileUtil.copyMerge(FileSystemsrcFS,PathsrcDir,FileSystemdstFS,PathdstFile,booleandelete

c++ - 流式 C++ 程序和共享库

我有一个C++程序,我试图在hadoop上作为流作业运行(它只有映射器,没有缩减器)。虽然一个简单的C++程序可以正常工作。另一个与大量共享库链接的C++程序无法在网格上运行。这个C++程序上的ldd显示如下:(它使用了很多第三方库,如opencv和boost_serialization)/usr/local/lib/libboost_serialization.so.1.48.0/usr/local/lib/libfftw3f.so.3/usr/local/lib/libconfig++.so.9/usr/local/lib/liblog4cpp.so.4/usr/local/lib

java - Hadoop 配置文件输出 - 在哪里和什么?

我正在尝试分析我的应用程序以查看我是否可以重现thisblogpost.我将-Dmapred.task.profile=true添加到命令行并检查了它采用的作业配置。Hadoop:TheDefinitiveGuide说配置文件信息将出现在我运行作业的Unix目录中。我开始的目录有一个文件attempt_201305011806_0042_m_000002_0.profile,这是正确的作业ID,但没有映射器#2(只有1个映射器,它没有失败)。输出只有配置文件中的头信息;没有任何实际的分析信息。Hadoop文档说输出将在用户日志目录中,但我找不到任何内容。如果我进入映射器的任务日志,则会

R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

在下面的例子中:small.ints=to.dfs(1:1000)mapreduce(input=small.ints,map=function(k,v)cbind(v,v^2))mapreduce函数的数据输入是一个名为small.ints的对象,它引用了HDFS中的block。现在我有一个CSV文件已经存储在HDFS中"hdfs://172.16.1.58:8020/tmp/test_short.csv"如何为它获取一个对象?据我所知(这可能是错误的),如果我想将CSV文件中的数据作为mapreduce的输入,我必须首先在R中生成一个表,其中包含CSV文件中的所有值。我确实有这样的

Hadoop YARN如何确定容器数量

我已将Hadoop2.3部署为单节点集群。由于YARN将资源分配为一个称为容器的单元,我如何知道我的单节点集群中正在运行多少个容器(通过查看日志、控制台等)?.我找不到任何方法来确定这一点,有人可以指导我查看正在使用的容器数量或JVM总数吗?提前致谢! 最佳答案 如果集群已启动并正在运行,您可以在集群的Web应用程序上看到它http://:8088/cluster可以在yarn-site中配置端口号,属性如下yarn.resourcemanager.webapp.address容器的数量取决于资源(cpu、内存)的可用性。以下文件可

map - 解释什么是 Hadoop 和 Map/Reduce 的最简单方法是什么?

从高层次的角度解释NoSQL非常容易——它基本上是“键值”存储。当然有成千上万的次要和重要的东西,但一般来说它只是键值存储。解释Hadoop和Map/Reduce的最佳方式是什么?可能是一些“真实世界”的例子,即使是新手也可以很容易地进行比较?谢谢! 最佳答案 我最近找到了thisgreatarticle描述MapReduce:I’vebeenplanningonwritingabouttheGoogle’sMapReducealgorithmforsometimebutIcouldn’tfindagoodpracticalexam

exception - 如何在 Oozie 中获取有关已终止作业的更具体的错误信息

我有一个hadoopmap-reduce作业作为Oozie工作流中的一个步骤运行。它是使用实现org.apache.hadoop.util.Tool的java操作启动的。当作业由于某种原因被终止时,如果在处理过程中出现异常,我希望能够通过电子邮件发送通知,其中应包含堆栈跟踪。目前我是这样做的:some-dl@company.comJobexecutionfailed${wf:id()}Jobexecutionfailed,errormessage:[${wf:errorMessage(wf:lastErrorNode())}]但我收到的只是:Jobexecutionfailed,err