MAPREDUCE

java - 在 hadoop 中使用 Reducer 类

这个问题在这里已经有了答案:HowdoIcomparestringsinJava?(23个回答)关闭7年前。我正在构建一个mapreduce作业。问题是比较工作不正常。如何比较这些字符串？publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intnumItems1=0;for(Textval1:values){if(val1.toString()=="view")///ifnotworking{numItems1=numItems1+1;numItem

python - hadoop 流 : where are application logs?

我的问题类似于:hadoopstreaming:howtoseeapplicationlogs?(答案中的链接目前无法使用。所以我必须再次发布它并提出一个额外的问题)我可以在/usr/local/hadoop/logs路径下看到所有hadoop日志但是我在哪里可以看到应用程序级别的日志？例如:reducer.py-importlogging....logging.basicConfig(level=logging.ERROR,format='MAP%(asctime)s%(levelname)s%(message)s')logging.error('Test!')...我在stderr

application python hadoop java apache logging mapreduce hadoop-streaming

hadoop - 为什么 YARN 会为一个简单的计数操作占用大量内存？

我有一个标准配置的HDP2.2环境，其中包含Hive、HBase和YARN。我使用Hive(/wHBase)对具有大约1000万行的表执行简单的计数操作，结果YARN消耗了10gb的内存。如何减少这种内存消耗？为什么它需要这么多内存来计算行数？最佳答案一个简单的计数操作涉及后端的mapreduce作业。在您的案例中，这涉及1000万行。看here为了更好的解释。好吧，这只是针对在后台和执行时发生的事情，而不是关于内存需求的问题。至少，它会提醒您要寻找的地方。This也几乎没有解决方案可以加快速度。快乐编码

hadoop YARN section stackoverflow why-is-select-count-slower-than-s mapreduce hive hadoop-yarn hortonworks-data-platform

java - MapReduce 中的 N 轮减少

我正在使用Map/Reduce算法，我试图在单个reducer中合并两棵或多棵树(稍后将尝试微调在一个reducer中合并的树的数量)。我正在尝试使用Nreducerrounds来实现这个算法。我曾尝试使用ChainReducer解决这个问题，但它只允许定义一个reducer(我可能能够使用循环创建该链来实现)。此外，我想定义自定义逻辑来指定何时发出结果。这是我的算法架构图: 最佳答案您可以使用作业控制，您可以按顺序执行多个mapreduce作业。在您的情况下，reducer中有三个阶段，而映射器中只有一个阶段。您可以拥有三个ma

MapReduce java section reducer 射器 hadoop

hadoop - hadoop如何分配jobs到map和reduce

谁能解释一下hadoop如何决定将作业传递给map和reduce。Hadoop作业被传递到map和reduce，但我无法弄清楚它是如何完成的。提前致谢。最佳答案请参阅Hadoop权威指南第6章“MapReduce作业运行剖析”主题。快乐学习关于hadoop-hadoop如何分配jobs到map和reduce，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/30678872/

hadoop reduce section mapreduce

Hadoop映射过程

如果有一个job只有map没有reduce，如果所有要处理的datavalue映射到一个key，这个job会不会只在一个node上处理？最佳答案没有。基本上，节点的数量将由映射器的数量决定。1个映射器将在1个节点上运行，N个映射器将在N个节点上运行，每个映射器一个节点。您的作业所需的映射器数量将由Hadoop设置，具体取决于数据量以及您的数据将被拆分的block的大小。每个数据block将由1个映射器处理。因此，例如，如果您有大量数据，被分成N个block，您将需要N个映射器来处理它。

Hadoop 映射射器 section stackoverflow mapreduce

java - 找不到 Hadoop 作业类

您好，我遇到了麻烦，但我还无法从类似的话题中获得帮助。我正在做一个hadoop作业的例子，我现在只是想从IDE运行它。这是我的源代码packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.util.*;publicclassWo

Hadoop java IntWritable class eclipse mapreduce classpath

hadoop - 如何使用spark for map-reduce flow来选择文件夹下所有csv文件的N列，前M行？

具体来说，假设我们有一个包含10k制表符分隔的csv文件的文件夹，这些文件具有以下属性格式(每个csv文件大约10GB):idnameaddresscity...1Mattadd1LA...2Willadd2LA...3Lucyadd3SF......而且我们有一个基于上面“name”的查找表namegenderMattMLucyF...现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:idnamegender1MattM...我们可以使用pyspark来有效地处理这个问题吗？如何并行处理这些10k的csv文件？最佳答案

map-reduce hadoop section code pre mapreduce apache-spark spark-streaming pyspark

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手，正在从事一个大数据项目，我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列，那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分，我必须检查日期列的日期格式是否正确，并将所有格式更改为单一格式，如DD-MM-YYYY。到目前为止，我可以读取给定的文件，但是您能否建议如何选择特定的列以及如何检查日期格式？最佳答案您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件

csv Hadoop section 给定 pig-java-udf-validate-date-format java file-io mapreduce bigdata

java - 获取 Hadoop 集群和作业统计信息

有什么方法可以获取集群上存活(运行)、提交、失败的不同作业的详细统计信息？我还想获得每个作业的插槽利用率和每个队列的资源利用率。HadoopResourceManager的Web控制台已经做到了这一点，但我想要一些工具(具有更好的表示)或一些可以派生相同的java库。最佳答案尝试http://host:port/jmx以JSON格式获取(相应资源的)JMX的响应。如果您想要与工作相关的统计信息，请使用:http://:50030/jmx(在Hadoop1中，我不确定Hadoop2)。

Hadoop java section stackoverflow mapreduce resources

5 6 789 10 11