mapred_tmp_草庐IT

Hadoop 管道和新的 mapred 包

是否正在进行将Hadoop管道从mapred移植到mapreduce包的工作？谢谢，梅格最佳答案 JIRA问题MAPREDUCE-1362解决了将管道升级到新的mapreduceAPI的问题，但是，它自2010年1月以来就没有更新过。与此同时，我继续使用旧的mapredAPI来开发C++映射器和缩减器。关于Hadoop管道和新的mapred包，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

Hadoop mapred section 梅格 pipe mapreduce

ruby - 如何使用 Ruby 在 MapR HDFS 中保存文件

有没有办法使用来自Ruby的Hadoop的MapR分发将文件保存在HDFS中？显然，有一个名为thriftfs的ThriftAPI可以从客户端与HDFS通信，但看起来它没有与MapR捆绑在一起。最佳答案我也在http://answers.mapr.com/questions/1525/how-to-run-thriftfs-from-mapr?page=1#1528回答了这个问题基本思想是像Ruby这样的语言不需要语言特定的绑定(bind)来访问MapR集群的文件系统。相反，您需要做的就是将集群挂载为NFS文件系统，您可以进行任

ruby section questions how-to-run-thriftfs-from-mapr hadoop hdfs mapr

hadoop - 在 amazon EMR 上运行 HBase 时，为什么/tmp 文件夹与实际数据相比很大？

我们在amazonEMR上有一个默认配置的hadoop+hbase集群，所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间，现在/tmp为500Gb，而实际/hbase数据为70Gb。这种差异似乎太大了，我们是否应该定期删除一些/tmp数据？最佳答案经过一些调查，我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

hadoop amazon code section tmp hbase amazon-emr

hadoop - 为什么包 org.apache.hadoop.mapred 中的大部分类都被弃用了？

我最近在学习Hadoop，我很好奇为什么org.apache.hadoop.mapred中的大部分类都被弃用了。这很烦人，因为Hadoop0.20之前和之后的MapReduce中使用的包名和类名非常相似，这使得学习Hadoop变得更加困难。但是，我认为贡献者做出这样的决定一定有一些充分的理由。有谁知Prop体原因吗？最佳答案检查this和this有关开发新API及其信息背后的合理性的博客。请注意，旧API未得到认可，并且某些类尚未从旧API移植到新API。除非有特定要求，否则可以使用旧API。

hadoop 大部 section noreferrer

hadoop - Hadoop 中的 mapred.child.javaopts 参数 - 读取序列化的 HashMap

我有一个1.5GB的文件，其中包含一个序列化的HashMap。我在Mapper类中有一个setup()方法，我正在将其读入HashMap变量。看起来它可以转到读取方法，但立即为任务抛出java堆空间错误。我阅读了许多关于我们可能需要设置mapred.child.opts参数的讨论，我正在主程序代码中这样做。我正在使用:conf.set("mapred.child.java.opts.","-Xmx1024M");我什至尝试增加数量。为什么它在尝试将序列化文件读入HashMap变量时仍然不断抛出相同的错误？这是我的setup()方法中的代码:try{test="hello";Pathpt

javaopts HashMap section Exception hadoop mapreduce hdfs distributed-caching

java - Words Count 输出显示 mapred 而不是 mapreduce

我刚刚将我的Ubuntu13.10配置为在伪分布式模式下工作以进行mapreduce代码开发。我已经安装了hadoop0.20.2版本的hadoop。一切都运行良好，我也可以启动所有五个守护进程。在同一台机器上，我下载了eclipse并将所有基于hadoop的库添加到其中。我也可以直接从EclipseIDE运行我的map减少字数示例。唯一困扰我的是，当我运行字数统计示例时，它会在控制台中打印如下内容:13/09/2316:11:05WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...us

mapreduce mapred JobClient INFO java eclipse hadoop

hadoop - 如何选择${mapred.local.dir}？

如果我配置了几个${mapred.local.dir}目录来存储MapTask的即时结果，这些目录挂载在不同的磁盘上。我的问题是:1.LocalDirAllocator.java是否用于管理${mapred.local.dir}目录？2.LocalDirAllocator.java的方法getLocalPathForWrite()是用来选择一个${mapred.local.dir}目录的？最佳答案 1.WhetherLocalDirAllocator.javaisusedtomanage${mapred.local.dir}dir

hadoop mapred the code LocalDirAllocator dictionary mapreduce hadoop-streaming

hadoop - HiveServer2在hdfs/tmp/hive/hive中生成了很多目录

我们使用Hiveserver2(在HortonworksHDP2.2发行版上)创建新集群。一段时间后，我们在hdfs上的/tmp/hive/hive中有超过1048576个目录，因为hive服务器在这个位置生成它。有人遇到过类似的问题吗？来自hive服务器的日志:2015-08-3106:48:15,828WARN[HiveServer2-Handler-Pool:Thread-1104]:conf.HiveConf(HiveConf.java:initialize(2499))-HiveConfofnamehive.heapsizedoesnotexist2015-08-3106:4

中生 hive HiveConf session HiveServer2-Handler-Pool hadoop hdfs bigdata hortonworks-data-platform

hadoop - 在 hadoop 集群中每天限制 cleaning/tmp 是否正确

我们有HDP集群版本–2.6.4集群安装在redhat机器版本–7.2我们注意到JournalNodes机器(master机器)上存在以下问题我们有3台JournalNodes机器，在/tmp文件夹下我们有数千个空文件夹drwx------.2hivehadoop6Dec2009:00a962c02e-4ed8-48a0-b4bb-79c76133c3ca_resources还有很多文件夹drwxr-xr-x.4hivehadoop4096Dec1209:02hadoop-unjar6426565859280369566内容为beeline-log4j.propertiesBeeLin

hadoop cleaning tmp section strong hive hdp hive-configuration

java - Hadoop:从 o.a.h.mapred 实现接口(interface)，还是从 o.a.h.mapreduce 扩展类？

我正在学习Hadoop(0.20.205)，我有点困惑。推荐哪种方式:A)从org.apache.hadoop.mapred实现Mapper和Reducer接口(interface)，并使用JobConf，如PiEstimator示例中所示。B)从org.apache.hadoop.mapreduce扩展Mapper和Reducer类，并使用Job，如WordCount示例中所示。哪一个更有可能在未来被淘汰？Hbase(0.90.4)似乎更喜欢第二种方式，因为o.a.h.h.mapred中的TableOutputFormat已被弃用，而中的TableOutFormat>o.a.h.h.

interface mapreduce code section mapred java hadoop hbase