草庐IT

hadoop-examples

全部标签

hadoop BlockMissingException

我遇到以下错误:Diagnostics:org.apache.hadoop.hdfs.BlockMissingException:Couldnotobtainblock:BP-467931813-10.3.20.155-1514489559979:blk_1073741991_1167file=/user/oozie/share/lib/lib_20171228193421/oozie/hadoop-auth-2.7.2-amzn-2.jarFailingthisattempt.Failingtheapplication.虽然我已经为/user/oozie/share/lib/目录设置

Hadoop 路径不是文件

我是hadoop的新手,正在试用已随hadoop安装一起分发的wordcount示例程序。我在hdfs中创建了名为“input”的输入目录,它包含我的pdf文件(how-to-code-in-python.pdf)。尝试为wordcount运行hadoop命令时显示错误java.lang.Exception:java.io.FileNotFoundException:路径不是文件:/input/input确切的错误是什么,我该如何解决? 最佳答案 你列出文件夹的内容hdfsdfs-ls/input看什么都不是文件然后删除错误中列出的

sorting - Hadoop 在单节点集群上运行排序示例

我正在尝试在Hadoop单节点集群上运行排序示例。首先,我启动守护进程:hadoop@ubuntu:/home/user/hadoop$bin/start-all.sh然后我运行随机编写器示例以生成顺序文件作为输入文件。hadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrandhadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrand正在运行0个map。Jobstarted:T

netbeans - 在 Hadoop 集群上运行 mapreduce jar

我正在尝试在Hadoop上运行二次筛算法的mapreduce实现。为此,我将karmasphereHadoop社区插件与Netbeans一起使用。该程序使用该插件运行良好。但我无法在实际集群上运行它。我正在运行这个命令bin/hadoopjarMRIF.jar689其中MRIF.jar是构建netbeans项目生成的jar文件,689是要分解的数字。输入和输出目录在程序本身中是硬编码的。在实际集群上运行时,内部java类似乎没有被处理,因为在map本身处于0%之前,reduce完成到100%。并且创建的输入和输出文件没有内容。但这在使用Karmasphere插件运行时工作正常。

hadoop - Hive 中的索引

我在hadoop集群上有一个相当大的Hive表(约200亿条记录),我需要对其进行多次连接。是否可以在一个键上索引这个表?例如,如果表名是table1,我想对table1和table2进行多次连接,table3和表4列关键什么是最有效的方法来做到这一点?如果相关表2-4相对非常小(每个约1亿) 最佳答案 恕我直言,索引只有在对表1具有非常高的选择性时才会在这种情况下有所帮助。如果table1的重要部分(我推测超过1-5%)将成为连接的结果,索引将不会有效。原因是您无论如何都会阅读所有页面/block。Hive可以确定一个表很小,并在

hadoop - Mahout:如何使用随机森林进行在线预测

在完成这个简单示例后,我刚刚在UCI的玻璃数据上尝试了BreimanExample:https://cwiki.apache.org/MAHOUT/breiman-example.html我的问题是,一旦我在Mahout中创建了一个RandomForest,我该如何“加载它”以便用它进行预测?使用Python中的sklearn这很容易,只需将森林pickle到磁盘并稍后加载它,将它放在Web服务器后面以进行实时交互,很容易。但是Mahout和Hadoop呢?如果我大规模构建RandomForest,我如何捕获和使用输出来进行future预测? 最佳答案

hadoop - 如何清除 Hadoop 作业历史记录

我使用的是标准Apache发行版附带的HadoopMap/Reduce管理UI。随着时间的推移,已执行的作业列表变得越来越大。如何从历史列表中删除旧作业? 最佳答案 Hadoop作业执行有生命周期,解释here工作状态流正在运行->已完成->已退休我们可以使用一些重要的配置来控制作业保留。mapred.jobtracker.completeuserjobs.maximum:NumberofjobstokeepinmemoryafterRunningstate.Tryconfiguretolessvalue...mapred.jobt

ubuntu - Hadoop 集群不启动

我刚刚设置了一个hadoop集群(名称节点+一个数据节点)。但是,当我尝试启动hdfs时出现以下错误:hadoop@namenode:/opt/hadoop-2.2.0$start-dfs.sh14/01/3020:18:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[JavaHotSpot(TM)64-BitServerVMwarning:Youhaveload

mongodb - 带有 $date 的 mongo.input.query 不过滤输入到 hadoop

我有一个分片输入集合,我想在将其发送到我的hadoop集群以进行mapreduce计算之前对其进行过滤。我的$hadoopjar-命令中有这个参数mongo.input.query='{_id.uuid:"device-964693"}'并且有效。输出不会mapreduce任何不满足此查询的数据。但这不起作用:mongo.input.query='{_id.day:{\\$lt:{\\$date:1388620740000}}}'没有数据作为输出产生。1388620740000表示日期WedJan01201423:59:00GMT+0000(GMT)。该设置使用的是hadoop2.2、

hadoop - hadoop中Namenode格式错误

我已经安装了hadoop,基于cygwin和windows。我已按照网站上的步骤操作:http://ebiquity.umbc.edu/Tutorials/Hadoop/12%20-%20format%20the%20namendoe.html.但坚持格式化namendoe。这给我以下错误:$bin/hadoopnamenode-format14/02/0115:29:59INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:S