Hadoop

hadoop - Reducer 数量和输出顺序

当我使用函数job.setNumReduceTasks(1);时，我得到按键排序的输出。但是，当我删除此功能时，输出不会按键排序。那么，当我们有多个reducer任务时，我们是否应该期望从reducer获得排序的输出？谢谢。最佳答案输出在单个Reducer中按键排序。然而，默认的Partitioner是哈希函数的结果，因此虽然每个文件在使用多个Reducer时都会被排序，但一个文件不会是最后一个文件的排序延续。例如:我们有一个包含三个Reducer的字数统计作业。映射器输出:(A,1)(zebra,1)(bat,1)(zebra

hadoop - 将相同的 EBS 快照附加到每个 EMR 卷？

我想在EMR作业中使用EBS快照。因为映射器从快照中读取，所以我希望快照安装在每个节点上。除了登录到每个节点之外，有没有一种简单的方法可以做到这一点？我想我可以在mapreduce作业的第一步中安装它，但这似乎是错误的。有更简单的方法吗？最佳答案这是可能的，但您必须克服一些困难才能让它发挥作用。假设您有在shell脚本中从EBS快照创建EBS卷的方法。EMR提供引导操作，它们只是您可以创建和运行的shell脚本。在允许运行任何作业(EMR中的步骤)之前运行引导操作。以下是执行shell脚本所需的步骤:根据您的快照创建一个新的EB

hadoop EBS section latest amazon emr mrjob

Hadoop MapReduce 获取每个单词的百分比

我正在使用HadoopMapreduce来获取单词和单词计数信息。除了每个单词的计数，我还需要找到每个单词在文档中显示的百分比。输出是这样的。如果文档只包含三个词“hello”、“world”和“kitty”。结果应该是这样的。字数百分比你好400.4世界500.5小猫100.1我可以设置一个TOTAL_KEY来统计所有的单词，问题是每个单词统计返回时，结果会同时返回。将每个单词输出到hdfs时，无法计算当时的百分比。最佳答案您可以在Mapper中设置一个计数器。在您从映射器发出单词时增加一个全局计数器以计算单词总数。在你的re

单词 MapReduce section 中设 hadoop percentage word

hadoop - 如何从 Oozie 查询 Active NameNode

在我的hadoop集群中，我们有一个namenode和一个secondaryNameNode。我正在我的oozie作业中执行一个步骤，该步骤必须具有“事件”名称节点。有什么东西可以让我从Oozie查询“事件”名称节点吗？请注意，这是一个相当大的集群，不能保证Oozie和HDFS位于同一位置。编辑:请注意，我的问题与Oozie配置无关。配置已经完成。我的问题是查询工作流中的事件名称节点。最佳答案如果您有主动-被动/HA配置-oozie应该使用命名空间而不是主动名称节点进行配置。关于h

NameNode hadoop section Oozie stackoverflow

oracle - 不使用 Scoop 将 Oracle 数据存储到 hadoop 层

我尝试使用以下脚本将oracle输出保存到hadoop空间中的文本文件中。#!/bin/bashDBUSER='scott'DBUSERPASSWORD='tiger'DB='oracle'sqlplus-s脚本是从Hive命令提示符调用的，有没有办法将上述查询的输出作为文件保存在hive目录中，我知道我的oracle服务器不同，需要更改编码。但是我不想使用sqoop，而是想将输出文件保存到hadoop中最佳答案当您可以使用JDBC连接将Oracle数据直接“抽取”到Hive表中时，为什么要使用命令行实用程序(顺便说一下，一个需

oracle section Hive-JDBC-Storage-Handler hadoop hive sqoop

python - Hadoop MapReduce 如何将字符串参数传递给 Mapper

我一直在像这样在SSH上使用HadoopMapReduce命令:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/python_2.7.3/bin/pythonmapper.py'-reducer'/usr/lib/python_2.7.3/bin/pythonr

MapReduce 传递 section python code hadoop

hadoop - SalesForce 与 Hadoop 哪个更好？

我有4年的.net经验，我想学习新技术，学习Hadoop或SalesForce什么对我最好？最佳答案这个问题没有答案。Hadoop和SalesForce是完全不同的技术。Hadoop是分布式存储和处理，非常适合大数据。SalesForce是一种基于云的CRM工具。问自己的问题是，您接下来想要什么？你在找一份稳定的工作吗？您是否正在寻找其中一种技术会更有帮助的特定领域的职业？你想要什么？关于hadoop-SalesForce与Hadoop哪个更好？，我们在StackOverflow上

SalesForce hadoop section

shell - 如何使用oozie执行shellScript

我在sqoopJob.sh中编写了以下sqoop作业------------myscript.sh--------------------TARGET_DIR=date+"%Y_%m_%d"sqoopimport--connectjdbc:mysql://localhost/mydb--usernameroot--passwordroot--tableCustomer--m1--target-dir/temp/$TARGET_DIR我想使用oozie执行。它给了我以下错误Cannotrunprogram"CustomerImportScript.sh"(indirectory"/had

shellScript shell section strong 1449233755312 hadoop oozie sqoop

r - as(x, class(k)) 错误 : no method or default for coercing “NULL” to “data.frame”

我目前正面临下面提到的错误，该错误与将NULL值强制转换为数据框有关。数据集确实包含空值，但是我尝试了is.na()和is.null()函数来用其他值替换空值。数据存储在hdfs上，以pig.hive格式存储。我还附上了下面的代码。如果我从key中删除v[,25]，代码可以正常工作。代码:AM=c("AN");UK=c("PP");sample.map错误:WarninginasMethod(object):NAsintroducedbycoercionWarninginsplit.default(1:rmr.length(y),unique(ind),drop=TRUE):datal

ldquo rdquo 34 code data r hadoop dataframe rhadoop

datetime - 在 Hive 中转换日期格式

我已经在hdfs中下载了twitter数据，并成功地在上面创建了hive表。Twitter在json文件中给出了日期格式'ThuDec1006:21:00+00002015'我想将这种格式转换为'yyy-MM-dd'我已经尝试过hive提供的内置函数但它们不是接受推特提供的格式。谁能帮我转换这种格式。最佳答案也许UDF有点矫枉过正，您想要的只是快速修复，例如对这种丑陋格式进行一些RegExp处理(注意:你的工作是针对各种Twitter日期对其进行彻底测试，并相应地调整处理方式)selectTWITTER_VOMIT,regexp

datetime Hive 39 TWITTER_VOMIT then hadoop twitter

53 54 555657 58 59