custom_modules

unit-testing - MR单元 : Tests fail with custom writable

我正在尝试使用MRUnit为我的hadoop作业实现单元测试.对于我自己的Writable，断言在withOutput(K2k2,V2v2)失败。我已经尝试覆盖Object的equals(Objecto)方法，但这没有帮助。当两个Writable实际上相同时，有什么想法可以告诉MRUnit吗？最佳答案为了使runTest()成功，必须覆盖inthashCode()。关于unit-testing-MR单元:Testsfailwithcustomwritable，我们在StackOve

java - Apache 紧缩 : how to create custom counters

我想添加自定义counters到我的ApacheCrunch使用org.apache.hadoop.mapreduce.Reducer.Context.getCounterAPI的作业。有人知道如何从Crunch管道访问上下文吗？最佳答案最明显的地方是org.apache.crunch.DoFn#getCounter你猜怎么着？它在那里... 关于java-Apache紧缩:howtocreatecustomcounters，我们在StackOverflow上找到一个类似的问题：

counters Apache section noreferrer java hadoop mapreduce

java - 亚马逊电子病历 : Passing java system property to custom jar

AmazonEMR是否允许将系统属性传递给自定义jar，例如hadoopjar-Dkey=valuemyjob.jar?(上面的key，value在应用程序本身的初始化期间使用，而不是属于hadoop的Configuration对象。)相关话题Howtospecifymapredconfigurations&javaoptionswithcustomjarinCLIusingAmazon'sEMR?讨论了仅通过引导操作将系统属性传递给hadoop守护进程的方法，显然，这不允许对java入口点类执行相同的操作。最佳答案如果您不想将

病历 java code section hadoop amazon-emr system-properties

hadoop - 使用哪个 : Custom datatype or TwoDArrayWritable

为了发出2个矩阵作为键值对:Key-MatrixA值-矩阵B。我应该创建一个自定义数据类型还是可以直接使用TwoDArrayWritable？那么自定义类中的compareTo()方法呢？最佳答案您肯定需要为您的Key编写一个自定义类，因为TwoDArrayWritable没有实现WritableComparable(即使您只是扩展TwoDArrayWritable类添加接口(interface)和compareTo方法)。至于是否应该在自定义类上使用TwoDArrayWritable-取决于几个因素(在我看来):您的数组的大小

TwoDArrayWritable datatype 自定 code section hadoop mapreduce

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本，它运行良好。当我在oozie中运行时，同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

python ImportError gt lt argument python-2.7 hadoop oozie cloudera-cdh

java - 无法找到 LoginModule 类 : com. sun.security.auth.module.UnixLoginModule

尝试使用Kerberose身份验证访问HDFS位置，但收到以下错误消息:java.io.IOException:failuretologinatorg.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:839)atorg.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:775)atorg.apache.hadoop.security.Use

UnixLoginModule LoginModule java security apache hadoop authentication kerberos

java - 具有 "customized"键的 MapReduce

我有以下问题:我有很多键值对形式的数据。关键是一些id和值-一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是MapReduce的任务，如果将我的文本片段作为键，并将id作为值。但是这样的键不是MapReduce使用的传统方式，并且由于我并不真正了解MapReduces框架的内部实现，所以我不确定这种方式是否有效。所以我的详细想法是:1.在Java中使用一些MapReduce(Hadoop、GridGain)2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals()，在这里打包文本比较逻辑(比如levenstein距离比较，或其

customized amp section MapReduce 本片 java hadoop equals gridgain

python - 为什么从PyHive包导入hive后出现 "ImportError: No module named builtins"？

我有一个简单的问题要问。我一直在尝试使用impyla从Python执行HIVE查询包裹。但我坚持cursorproblem，已经在stackoverflow上提出了一个问题。在这个问题中，一位用户回答并建议使用PyHive。相反。因此，现在我正在尝试使用PyHive从Python执行HIVE查询。但不幸的是，我陷入了另一个似乎并不复杂的问题。一旦我在python中执行以下行，我就会收到错误消息:In[18]:frompyhiveimporthiveTraceback(mostrecentcalllast):File"",line1,infrompyhiveimporthiveFile"

ImportError amp section strong stackoverflow python hadoop hive

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求，我们需要自定义使用avrostorage在pig中加载文件的方式:例如，我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是，如果

avrostorage customize 34 section code hadoop apache-pig avro

226 227 228229230 231 232