草庐IT

HADOOP_NAMENODE_OPTS

全部标签

Spring Hadoop |作业未出现在作业跟踪器 GUI 上

我正在为我的应用程序使用SpringforApacheHadoop1.0.0.M2。该应用程序使用maven程序集插件打包为二进制分发版,并使用以下命令在集群上运行:java-jarmlprocessor.jarjar中的list文件包括对加载spring上下文文件的Main类的引用。工作执行得很好,我也看到了结果。但是,作业跟踪器GUI上没有此作业的踪迹。虽然日志显示以下警告:WARN[org.apache.hadoop.util.NativeCodeLoader]-Unabletoloadnative-hadooplibraryforyourplatform...usingbuil

Hadoop:如何将 MultipleOutputs 发送到 2 个不同的路径/文件系统?

我已将MultipleOutputs配置为生成2个命名输出。我想发送一个到s3n://和一个到hdfs://这可能吗? 最佳答案 目前可用的API无法做到这一点。MultipleOutputs类,如果HadoopMapReduce当前仅适用于(配置的输出目录的)子目录输出名称,它可以处理side-effectscausedbyspeculativeexecution.但是,您可以重新实现该类(或从它派生),以支持它,因为它并非不可能实现。如果您计划让您的实现支持推测执行,您可能还需要更复杂的OutputCommitter实现。

Hadoop 自定义分区程序问题

我遇到了一个问题,自定义中间键没有出现在我期望的分区中,这是基于自定义分区程序的“getPartition”方法的输出。我可以在我的映射器日志文件中看到分区器生成了预期的分区号,但有时具有公共(public)分区号的键不会在同一个缩减器中结束。具有共同“getPartition”输出的键如何在不同的reducer中结束?在所有“getPartition”调用之后,我在映射器日志文件中注意到对自定义中间键“hashCode”和“compareTo”方法进行了多次调用。映射器只是在分区排序中进行,还是这可能是问题的一部分?我附上了自定义中间键和分区程序的代码。注意:我确切知道1/2的键将“

hadoop - 使用 Capacity Scheduler 在 Hadoop 集群中设置队列

我尝试设置3个队列。为此,我配置了CapacityScheduler.xml,如下所示。但在此之后,jobtracker正在关闭。我还将这些队列的名称添加到mapred-site.xml中。谁知道原因。entercodehere*mapred.capacity-scheduler.queue.BatchJobsQueue.capacity70mapred.capacity-scheduler.queue.BatchJobsQueue.supports-priorityfalsemapred.capacity-scheduler.queue.BatchJobsQueue.minimum-

hadoop - Oozie 未注册 "mapred.input.dir.recursive"属性

我在使用Oozie时遇到问题。它不会从Oozie工作流中注册mapred.input.dir.recursive属性。这给我带来了问题,因为我的mapred.input.dir包含文件以及包含更多文件的子目录。我广泛地搜索了解决方案,但没有成功找到。有什么想法、意见、建议吗? 最佳答案 mapred.input.dir.recursive已弃用。相反,使用mapreduce.input.fileinputformat.input.dir.recursive 关于hadoop-Oozie未

java - Hadoop JAVA_HOME java安装目录为文件系统时没有设置?

我用了thistutorialtoinstalljavaonUbuntu12.04;我首先尝试通过下载java以老式方式安装它,添加一个指向安装的JAVA_HOME变量并将其添加到与连接的PATH\bin)但这没有用,因为默认安装了一些奇怪的openjdk...我记得可以通过使用update-alternatives并选择我下载的安装来绕过它,但是这次没有用,命令从未检测到我的新安装;所以我最终改用了那个教程。像教程中那样使用PPA的唯一问题是它没有将所有jdk安装在我可以将JAVA_HOME指向的单个目录中,因此Hadoop提示说缺少变量。有什么办法可以让Hadoop启动并运行吗?

hadoop - 多文件流式传输 hdfs

我在不同的文件上有两个矩阵。我必须将文件读入缓存,以便我可以将它们相乘。我一直在想HDFS是否会帮助我。我怀疑HDFS没有,因为它没有足够的缓存内存来读取文件和处理它。简而言之,我可以同时打开两个文件吗 最佳答案 要回答您的问题的较短版本,是的,HDFSAPI确实允许一次并发读取两个文件。您可以简单地在两个文件上创建两个输入流并并行读取它们(就像您对常规文件所做的那样)并围绕它管理您的逻辑。但是,HDFS是一个简单的文件系统,没有自己的缓存(操作系统缓冲区缓存除外),您需要携带的任何计算缓存都需要由您自己的应用程序处理。作为另一个一

hadoop - reducer 阶段根本没有启动。它总是 'reducer=0%'

我一直在等待reducer阶段开始,但它没有开始。我试过格式化名称节点,但仍然是同样的问题。无论reducer必须运行在哪里,我都会遇到这个问题。任何人都可以在这方面帮助我。hive>LOADDATALOCALINPATH'/home/training/Desktop/student_performs_CSV.csv'OVERWRITEINTOTABLEstud_marks;Copyingdatafromfile:/home/training/Desktop/student_performs_CSV.csvCopyingfile:file:/home/training/Desktop/

hadoop - 在 FOREACH 中计算 SUM

假设我有以下内容DATA=foreachINPUT{//..generategroup,count(name)astotal;}我最终会得到一个键按名称分组的关系('mike','someprop',10)('mike','otherprop',3)('doug','xprop',5)...我想得到每个名字的前10名的总和:ALIAS=groupDATAbyname;RESULT=foreachALIAS{SORTED=ORDERDATAbytotaldesc;TOP10=LIMITSORTED10;//doesn'twork!can'thaveGROUPinsideFOREACHAG

Hadoop 映射/归约排序

我有一个map-reduce作业,我只使用映射器,因为每个映射器的输出肯定会有一个唯一的键。我的问题是当这个作业运行时我得到输出文件,比如part-m-00000、part-m-00001...它们会按键顺序排序吗?或者我是否需要实现一个reducer,它什么都不做,只是将它们写入part-r-00000、part-r-000001之类的文件。并且这些是否保证输出按键的顺序排序。 最佳答案 如果要对文件内的key进行排序,并保证当i小于j时,文件内的key小于文件j内的key,那么不仅需要reducer,还需要partitioner