MAPREDUCE

java - 合并大量小文件以进行 mapreduce 输入

我是Hadoop和MapReduce的新手。我们正在开发一个网络监控工具(在java中)。我们定期收集被监控设备的各种信息，比如每5秒一次。并通过java客户端将该信息作为新文件写入HDFS(因为我们没有使用hdfs附加工具)。在HDFS中，我们的数据组织将是这样的:/monitored_info/f1.txt/f2.txt......./f1020010.txt因此每个文件的大小通常小于2KB。我知道每个maptask最多可以占用1个文件，它会产生与maptask一样多的文件，并且工作效率低下。为了摆脱这种情况，我们在提交作业之前使用了FileUtil的合并功能:FileUtil.c

optimization - Hadoop 作业 - 使用我机器中的所有内核

我使用默认配置的hadoop作业->本地文件系统上的本地模式没有使用我系统中的所有内核(16)->通过使用所有内核，我的意思是，我可以在各种实例中看到所有内核的事件。但是，我的CPU使用率[fromtop]从未超过200%，因此我在conf中更改了这些配置。mapred.tasktracker.map.tasks.maximum将其设置为8，mapred.tasktracker.reduce.tasks.maximum也将其设置为8。我的核心使用率仍然低于300%。如何通过使用所有核心从机器获得最大吞吐量？此外，我的文件大小约为1TB。这是作业运行的示例日志。我看到它在运行作业时创建了

optimization Hadoop mapred 12 INFO configuration mapreduce

python - Hadoop Streaming "comparator.options"未被尊重

我有一个python映射器和缩减器，我正在使用它和Hadoop流式API。在命令行上，这些脚本可以正常工作并执行预期的工作。我有一个NASA网络访问日志示例，您可以在此处看到它已正确处理和排序。tail-n10NASA_access_log_Jul95|./mapper.py|sort|./reducer.py|sort-r-k1,14163.205.53.141tornado.umd.edu在mapreduce作业中尝试相同的操作时，排序没有得到遵守。hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-st

comparator Streaming section reducer mapper python hadoop mapreduce bigdata

java - 如何用eclipse配置hadoop

我是hadoop的新手，我已经下载了hortonworkssanbox镜像并使用virtualBox安装了它。当我在Chrome中输入192.168.56.101/时，sanboxui将进入本地主机。我也可以使用hue/hadoop用户名密码登录到hadoopshell。现在我想在eclipse中运行一个简单的程序。我已将hadoop-0.18.3-eclipse-plugin添加到eclipse，然后尝试了以下步骤。1.choosedmap/reducefromeclipse.2.wenttohadooplocationediterlocalhostname:localhostund

何用 eclipse section hadoop java mapreduce

java - 在 Hadoop 2.2.0 中打开缓存文件

在使用job.addCacheFile()将缓存文件添加到作业并使用我的映射器使用context.getCacheFiles()将其拉下后。如何打开缓存文件。我试过使用:BufferedReaderreader=newBufferedReader(newFileReader(filename));(下面注释)其中文件名是URI的toString()，但我收到一个IOException，指出该文件不存在。谁能帮我吗？importjava.io.*;importjava.net.*;importjava.util.*;importjava.util.regex.*;importorg.ap

Hadoop java String class LongWritable mapreduce hadoop-yarn

Hadoop Reducer 执行重现

所以映射器只在包含给定数据block的给定从节点上执行一次，对吗？但是Reducer可能会执行多次，因为同一个键可能来自许多Mapper节点，对吗？此外，对于单个MapReduce作业，每个Mapper都会进行Shuffle和Sort是否正确？最佳答案一般来说，我认为说Mapper/Reducer被执行了多少次是不合适的，因为它们广泛分布在不同的节点中，由MRv1中的JobTracker或MRv2中的ResourceManager调度。但希望我下面的回答可以帮助您更好地理解。问:“所以映射器只在包含给定数据block的给定从节点

Reducer Hadoop 射器 section 给定 mapreduce reduce

java - MapReduce 与 Hive 的结合

我们能否使用Hive和MapReduce的组合说:我有一个csv文件。我需要找到一列的mean并将空数据替换为平均值(replacenullwithmean)。所以我们是否可以在驱动程序中编写一个hive查询(以找到均值)，然后编写一个mapreduceblock以用均值替换null。哪种方式更好只编写mapreduce代码或结合使用Hive和MapReduce。最佳答案这是可以使用(仅配置单元)解决的另一个答案假设您的csv输入是这样的:firstname,secondname,score,group维杰，库马尔，123，cs

MapReduce java code section 库马 hadoop hive

hadoop - 分布式系统-主服务器故障

我最近在分布式系统上阅读了一些内容，例如Google的MapReduce和GSF研究论文。这两个系统都依赖于Master节点的存在，该节点协调其他“worker”节点。我想知道设计师如何保护自己免受主失效的影响？在MapReduce论文中，我们可以阅读:Itiseasytomakethemasterwriteperiodiccheckpointsofthemasterdatastructuresdescribedabove.Ifthemastertaskdies,anewcopycanbestartedfromthelastcheckpointedstate我不清楚世卫组织负责监测主故

hadoop 分布式系统 section MapReduce Zookeeper distributed failover master

Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?

这个问题特别来自认证机构的实践测试，对我来说没有意义。谁能帮忙？问题:映射器发出键和值对的字数问题，其中每个词作为键，文字1作为值发出。然后，reducer为它接收到的每个文字“1”递增一个计数器。qn是“我们可以使用现有的reducer代码作为组合器吗”？正确答案描述为。"is"，我们可以，因为求和任务是可交换和结合的。但我的理解是，答案应该是“否”，因为这两种情况会导致两个不同的答案。而且我相信只有在我们采用另一种方法将计数器增加它接收到的值而不是“为它接收到的每个文字1增加一个计数器”时，才能使用相同的reducer和combiner代码。举个例子让我们先考虑一个没有组合器的假设

mapreduce combiner reducer section to hadoop word-count combiners

hadoop - eclipse wordcount 程序中找不到类异常

我正在从eclipse运行一个字数统计程序，它说找不到类。我导出了与jar文件相同的程序并从命令行执行，它工作正常。错误堆栈跟踪14/02/1423:46:16WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.14/02/1423:46:16WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#se

wordcount eclipse java hadoop mapred mapreduce elastic-map-reduce

23 24 252627 28 29