Using-Elastic-Map-Reduce-via-Comm

hadoop - java.io.IOException : org. apache.hadoop.security.AccessControlException : Client cannot authenticate via:[TOKEN, KERBEROS]

我的配置如下:运行Spark1.2.0，Hadoop2.5.0/YARN，ClouderaCDH5VMCentos6.2运行Windows64位平台8GBRAM下面是从spark-shell运行的命令序列，但在尝试打印custRDD时，我收到Kerberos身份验证错误。我已经从cloudera用户登录到spark-shell，ClouderaVM是Kerberos认证的，默认主体是cloudera@HADOOP.LOCALDOMAIN对于正常的RDD操作，有什么方法可以从spark-shell验证Kerberos吗？或者我遗漏了什么？感谢任何正当的帮助，将得到返回下面是SparkSh

hadoop - 如何设置 Hive reduce 运算符，因为 reduce 运算符始终为 0

我正在尝试将数据上传到配置单元rc和orc文件，但reducer的数量始终为0。我尝试使用setmapred.reducer.tasks=1在配置单元中设置reducer，但它不起作用。我发现互联网上每个reducer的默认大小是1G，所以我尝试上传3G数据，这样reducer至少是2个。我需要做什么来减少运算符？最佳答案我需要有关查询的更多信息才能确定，但我的猜测是您正在运行的查询是仅映射作业，因此不需要任何缩减程序。您可以添加DISTRIBUTEBY语句以强制Hadoop使用缩减程序。例如，SELECTtxn_idFRO

hadoop - 如何向 Elastic Search 数据库添加计算？

我正在使用ElasticSearch为大量传感器数据编制索引以用于分析目的。该表有超过400万行并且增长迅速-预计明年将达到4000万。这使得ElasticSearch看起来很自然，尤其是使用Kibana等工具可以轻松显示数据。ElasticSearch看起来很棒，但是还必须执行一些更复杂的计算。一种这样的计算是针对我们的“平均用户时间”，我们在其中获取两个数据点(元素拾取的时间戳和元素放回的时间戳)，将它们相互减去，然后对一个特定客户的所有这些进行平均具体时间范围。SQL查询看起来像“select*fromeventswhereevent_type='objectpickedup'o

perl - 将 Hadoop 流与 perl 结合使用以进行 map reduce

我想将hadoop流功能与perl脚本一起用作映射器和缩减器。我发现了thisexplanation这部分回答了我的问题，但是它不包含reducer为每个键一起处理所有值的功能。例如，mapper可能会提取对，reducer会输出每个产品的类别列表。这当然可以通过将所有reducer数据保存在内存中来实现(就像我之前提到的示例中那样)，但在许多情况下这是不可扩展的。有没有办法让perl脚本一次获取每个键的所有值(就像普通的map-reduce作业一样)？最佳答案您可以使用cpan库Hadoop::Streamingsubredu

json - 如何使用 hadoop map-reduce 和 es-hadoop 将 json 索引到 elasticsearch？

我在HDFS中存储了大量数据，我们希望将其索引到Elasticsearch中。琐碎的想法是使用Elasticsearch-hadoop库。我遵循了thisvideo中的概念，这是我为这项工作编写的代码。publicclassTestOneFileJobextendsConfiguredimplementsTool{publicstaticclassTokenizerextendsMapReduceBaseimplementsMapper{privatefinalMapWritablemap=newMapWritable();privatefinalTextkey=newText("te

Hadoop 集群。 Map reduce 作业停留在 map 100% 和 reduce 0%

我是Hadoop新手。我尝试根据ApacheHadoopsite上给出的示例创建一个hadoop集群。.但是，当我运行mapreduce示例时，应用程序卡在map100%和reduce0%。请帮忙我已经使用Vagrant和Virtualbox设置了环境。创建了两个实例。我在一个实例中运行名称节点和数据节点，在另一个实例中运行资源管理器和节点管理器。mapred-siet.xml配置mapreduce.framework.nameyarnmapreduce.map.memory.mb1536mapreduce.map.java.opts-Xmx1024Mmapreduce.reduce.

java - 从 java map reduce 代码中跳过 header

我正在尝试获取csv文件的摘要，文件的第一行是标题。有没有一种方法可以使每个列的值及其标题名称作为Java代码中的键值对。例如:输入文件是这样的A,B,C,D1,2,3,45,6,7,8我希望映射器的输出为(A,1),(B,2),(C,3),(D,4),(A,5),....注意:我尝试使用覆盖Mapper类中的运行函数来跳过第一行。但据我所知，每次输入拆分都会调用运行函数，因此不适合我的需要。对此的任何帮助将不胜感激。这是我的映射器的样子:publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,I

java - 强制hadoop将 map task 的数量设置为1

我觉得我的问题让每个人都感到困惑。再说清楚一点。我正在尝试订购我的数据。说我的数据(几条记录)是这样的012341389228797我的block大小是128MB，文件大小是380Mb(3个block)我正在尝试为我的记录提供订单号。1,012342,138923,28797为了给出正确的数字，我需要将数据放入1个map中，否则如果我得到3个maptask，我的编号将不正确。所以如果我这样做，我会得到完整的数据吗？输入到我的映射器类的数据不会发生任何变化，这将是我的原始数据，不是吗？一旦我使用noofmappers设置为1-Dmapreduce.job.maps=1或conf.setI

hadoop - 在哪里调用 Map 方法？

我正在寻找hadoop中map方法的内部工作。在哪里调用map方法？它是调用map方法的运行方法吗？最佳答案我引用了Apache文档中的示例代码page进一步回答您的问题。Driver类，其中有用于字数统计示例的main方法，定义如下。publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"wordcount");job.setJarByClass(Wor

java - Map Reduce 程序抛出异常 IOException "Type mismatch in key from map"

您好，请在下面找到我的代码，它抛出异常。packageHadoopMapReduce;importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.h