customer_actions

java - 具有 "customized"键的 MapReduce

我有以下问题:我有很多键值对形式的数据。关键是一些id和值-一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是MapReduce的任务，如果将我的文本片段作为键，并将id作为值。但是这样的键不是MapReduce使用的传统方式，并且由于我并不真正了解MapReduces框架的内部实现，所以我不确定这种方式是否有效。所以我的详细想法是:1.在Java中使用一些MapReduce(Hadoop、GridGain)2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals()，在这里打包文本比较逻辑(比如levenstein距离比较，或其

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求，我们需要自定义使用avrostorage在pig中加载文件的方式:例如，我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是，如果

avrostorage customize 34 section code hadoop apache-pig avro

Hadoop in action 专利实例讲解

我正在浏览Hadoop中的专利数据示例。您能否详细解释一下所使用的数据集？专利引用数据集该数据集包含两列引用和被引用专利。引用列是指提交专利的所有者ID？Cited列是指专利ID，它构成了第二个数据集的关键？专利描述数据集此数据集中有多个字段。要为这两个数据集形成映射，是第一个数据集中的引用还是被引用列在第二个数据集的第一列中具有相应的键(专利)? 最佳答案首先让我们澄清一些与专利相关的术语。什么是引用？Citationsaredocumentsthatarelinkedtogetherwhenonedocumentmention

Hadoop action section strong 3858241 hadoop-streaming hadoop-partitioning

xml - Spark master 不调用 Custom InputFormat

我正在尝试探索ApacheSpark，作为其中的一部分，我想自定义InputFormat。就我而言，我想阅读xml文件并转换每次出现的到新记录。我确实写了定制TextInputFormat(XMLRecordInputFormat.java)返回自定义**XMLRecordReaderextendsorg.apache.hadoop.mapreduce.RecordReader**但我不明白为什么Sparkmaster不调用自定义输入格式(XMLRecordInputFormat.class)？由于某种原因，它继续表现得像普通的分线器。代码如下:importjava.util.Iter

InputFormat Custom import apache hadoop xml apache-spark

hadoop - Oozie Hive Action 挂起，心跳永远

我正在尝试通过我在Hue中创建的Oozie工作流来运行Hive操作，但是操作“心跳”永远不会执行HiveSQL。我读过其他关于永远心跳的文章，但这篇文章似乎发生在不同的时间点，在SQL语句被解析之后。我检查了集群中每个节点的内存，并验证了任务计数参数是否合理。这是hive-config.xml文件:javax.jdo.option.ConnectionURLjdbc:hive://10.1.10.250:10000/testdbJDBCconnectstringjavax.jdo.option.ConnectionDriverNameorg.apache.hadoop.hive.jdb

hadoop Action hive apache oozie

hadoop - map-reduce 中不同组件/ Action 的执行顺序

map-reduce中Action/组件的执行顺序是什么-Mapper-->Combiner-->Shuffling/Sorting-->Partitioner-->Reducer顺序一样吗？？最佳答案这个过程几乎是正确的，但让我们深入了解它。第一个Map阶段将从运行map开始。一旦map处理了输入，它会在保存到本地文件系统之前进行排序，这被称为sort然后copy到本地文件系统，接下来这个数据将被复制到reducer这是shuffle阶段。由于数据已经在每个mapper输出中排序，它根据每个到达reducer所在节点的键执

map-reduce hadoop code section reducer mapreduce

hadoop - 在重新启 Action 业跟踪器之前，我们是否需要将名称节点置于安全模式？

我有一个Hadoop集群运行Cloudera的CDH3，ApacheHadoop的0.20.2等价物。我想重新启动工作跟踪器，因为有些工作没有被杀死。我尝试从命令行杀死它们，命令成功执行，但作业仍处于JobCleanup:Pending状态。无论如何，我想重新启动job-tracker并查看是否清理了作业。我知道重新启Action业跟踪器的命令，但我不确定在重新启Action业跟踪器之前是否需要将name-node置于安全模式。最佳答案您可以尝试使用hadoopjob-kill终止不需要的作业并检查命令状态echo"$?".如果

跟踪器置于 code section hadoop namenode

java - 为什么java action System.out 在Oozie 中执行时消失了？

我正在使用oozie环境。成功完成作业后，我无法在oozie日志中找到System.out.println输出。我用谷歌搜索了好几个小时，然后找到了this但没有结果。从oozieweb控制台我得到了作业ID“0000011-180801114827014-oozie-oozi-W”，然后我尝试使用以下命令获取有关该作业的更多信息:ooziejob-ooziehttp://localhost:11000/oozie/-info0000011-180801114827014-oozie-oozi-W然后我从JobCompleted"16546"操作中获取externalId，我认为作业I

行时 java strong oozie section hadoop logging hadoop-yarn

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业，以便能够正确编写它们。现在我有一个Hbase实例，其中包含一个名为dns的表，其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在，我只使用IntWritable或Text，我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做，但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre

reducer custom code MapTask IntWritable java hadoop mapreduce hbase

159 160 161162163 164 165