Hadoop-Solr

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

java - 如何将 Hadoop MapReduce 作业限制在一定数量的节点上？

所以，基本上我有一个包含4个数据节点的系统。但是，为了检查我的hadoop应用程序的可伸缩性，我想用1、2和4个节点对其进行测试。那么，如何将hadoop使用的节点数限制为1或2个。我使用的是hadoop2.5.1，我没有系统的管理员权限。此外，如何控制hadoop用于节点的内核数？最佳答案您需要管理员权限才能执行所有操作如何将hadoop使用的节点数限制为1或2个。Decommission2-3个节点如何控制hadoop为节点使用的内核数在yarn-site.xml中设置以下配置，为每个节点分配8个vcoreyarn.node

定数 MapReduce section hadoop strong java bigdata hadoop-yarn

hadoop - MRUnit 不适用于 MultipleOutputs

当我运行带有MultipleOutputs的基本MRUnit时，出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.Path.(Path.java:105)atorg.apache.hadoop.fs.Path.(Path.java:94)atorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.getDefaultWorkFile(FileOutputFormat.java:264)atorg.apache.hadoop.mapreduce.lib.outpu

MultipleOutputs hadoop apache java hdfs mrunit

hadoop - 我如何关联 Amazon EC2、S3 和我的 HDFS？

本人是伪分布式学习hadoop，对集群了解不多。因此，当浏览集群时，我发现S3是一种数据存储设备。而EC2是一个计算服务，却无法理解它的真正用途。我的HDFS可以在S3中使用吗？如果是的话，当我学习hive时，我遇到了将数据从HDFS移动到S3的情况，这被称为归档逻辑。hadoopdistcp/data/log_messages/2011/12/02s3n://ourbucket/logs/2011/12/02我的HDFS登陆S3那么它有什么好处呢？这可能很愚蠢，但如果有人能给我一个对我有帮助的概述。最佳答案 S3只是存储，不允许

hadoop Amazon section HDFS amazon-ec2 amazon-s3

java - 我如何从 Hadoop 中的 map 程序输出具有列表等数据结构的自定义类

我是Hadoop和MapReduce编程的新手。我有一个数据集，其中包含943个用户对电影的评分。每个用户最多评价了20部电影。现在我希望我的Mapper的输出是用户ID和一个自定义类，它将有两个列表用于电影(用户评分的电影ID)和评级(每部电影的评级)。但是我不确定在这种情况下如何从Map方法输出这些值。代码片段如下:-publicclassUserRatingsimplementsWritableComparable{privateListmovieId;privateListmovieRatings;publicListgetMovieRatings(){returnmovieR

自定 Hadoop String public input java mapreduce

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢？

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢？但是如果我将它配置得太低，那么我会任务失败。而且我认为在这种情况下，我在hadoop上的内存配置是没有必要的......你能给我解释一下吗？最佳答案当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时，您的环境中可能会发生什么>

performance mapreduce section 容器 hadoop memory hadoop-yarn

security - Hadoop 无法访问/logs/。在安全模式

我正在使用hadoop-2.6.0并启用了kerberos的安全性。一切正常。但我无法从浏览器访问日志文件。它显示Problemaccessing/logs/.Reason:Userbabuisunauthorizedtoaccessthispage.我尝试了所有用户，但没有成功。谁能帮我如何授权任何用户访问日志文件？最佳答案您不应该直接在FS中访问日志，访问仅限于NM用户和yarn组。使用日志聚合服务检索/查看日志。参见Simplifyinguser-logsmanagementandaccessinYARN.

security Hadoop section logs access kerberos

hadoop - 不同 block 大小的 Hadoop

我需要做什么才能在Hadoop中拥有更小/更大的block？具体来说，我希望有更多的映射器，这样可以处理更小的数据。似乎我需要减小块大小，但我很困惑(我是Hadoop的新手)——我是否需要在将文件放在HDFS上时做一些事情，或者我是否需要指定与输入拆分大小相关的内容，或两者兼而有之？我正在共享集群，所以我无法执行全局设置，所以如果可能的话，需要在每个作业的基础上进行设置吗？我正在通过代码(稍后可能来自Oozie)运行该作业。最佳答案映射器运行的内容由输入拆分控制，完全取决于您如何指定它。HDFSblock大小与它无关(除了大多数

hadoop 射器 section noreferrer

hadoop - 如何使用MR代码处理hadoop中的单个文件

我有一个文件，其中包含meterid、hour、watts...和其他一些字段。我为每个meterid制作了复合键meterid和hour以及每小时的瓦特总和。MR代码适用于单个文件。我有多个文件，文件名是日期之类的14-05-2015.txt,15-05-2015.txtetc.我执行相同的代码并添加与meterid和小时对应的所有瓦特。但我希望瓦特将为与电表ID和小时相对应的每个文件求和，而不是为所有文件求和。最佳答案要轻松解决此问题，您可以在编写的组合键中也包含文件名。这将帮助您在缩减阶段之前对为每个文件单独生成的key进

hadoop 如何 section meterid 求和 mapreduce

hadoop - 使用 Apache Giraph 时出错

我在ApacheGiraph中运行SimpleOutDegreeCountComputation程序时收到以下错误。我使用JsonLongDoubleFloatDouble作为输入格式。$HADOOP_HOME/bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleOutDe

时出 hadoop apache giraph org

109 110 111112113 114 115