作业队

hadoop - 如何列出特定用户运行的所有 hadoop 作业？

我试图找到一个命令，我可以用它来列出我当前正在运行的所有作业。“hadoopjob-list”列出所有作业。有没有办法按用户过滤列表？最佳答案您可以简单地使用用户名grep输出hadoopjob-list|grep 关于hadoop-如何列出特定用户运行的所有hadoop作业？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/12609267/

hadoop 如何 section stackoverflow

java - 在多个 map-reduce 作业之间传递数据库连接对象

从根本上说，这个问题是关于:同一个数据库连接是否可以跨多个进程使用(因为不同的map-reduce作业在真正不同的独立进程中)。我知道这是一个微不足道的问题，但如果有人也能回答这个问题那就太好了:如果与数据库的最大连接数(在托管数据库的服务器上预先配置)有筋疲力尽，一个新的进程试图建立一个新的连接？它是否等待一段时间，如果是，是否有办法为此等待时间设置超时。在这种特殊情况下，我是在谈论PostGres数据库，用于与数据库对话的语言是java。为了让您了解问题的背景，我有多个并行运行的map-reduce作业(大约40个reducer)，每个作业都想更新一个PostGres数据库。我如何

map-reduce 传递 section code noreferrer java database postgresql hadoop mapreduce

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

我想尝试在Windows上使用Hadoop。我已将WindowsAzureHDInsightPreview作为单个节点安装在我的Windows7笔记本电脑上。仪表板和节点已启动并正在运行，并且HDFS正在运行。但是，当我运行MapReduce作业时，它失败并显示错误消息“不是有效的Inet地址”:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted/FrunSamples.ps1w3csmalljavatotalhitsMovedtotrash:hdfs://localhost:8020/w3c/out12/12

时出 MapReduce java mapred hadoop windows azure-hdinsight

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业？

我目前正在开发一个项目，该项目使用JDK1.7进行编译，使用Cascading1.2(即将升级到2.1)创建和运行Hadoop作业，并使用Hadoop的Cloudera发行版(0.20.2-cdh3u3)。我正在研究如何修改我的级联/Hadoop作业以从MySQL数据库读取和写入所有数据。看起来SQOOP或许能够处理这个问题。然而，据我目前所见，关于如何在Java中执行此操作的信息或文档很少(我知道SQOOP主要用于从shell调用的批处理作业)——我拥有的Java示例followed没有为我工作。我已经尝试使用SQOOP1.4并将我的项目切换为使用JDK1.6，因为我认为这是必需的，

Hadoop SQOOP section java mysql cascading

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如，我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

时出 FileNotFoundException java hadoop apache mapreduce hbase cloudera-cdh

hadoop - 如何在单个 MapReduce 作业中实现多个 reducer

我有一个庞大的数据集，我需要对相同的数据执行不同的功能。我想要四个输出文件。由于四个操作不同，我可以使用四个partitioner和四个reducer来实现相同的操作吗？是否有可能或者我是否需要编写四个作业来执行此操作？请帮助我! 最佳答案第一种方法我认为您应该在一个独特的reduce方法中实现代码，并根据执行的过程发出n个键。例如:您实现A、B、C和D技术，然后，在您的映射器中您可以实现此(伪代码):dataA=ProcessA(key,value)context.write("A",dataA)dataB=ProcessB(k

何在 MapReduce section strong context hadoop hadoop2

java - Apache Crunch 管道如何生成 map reduce 作业？

我是Crunch/Cascading等Hadoop管道框架的新手。我想知道在这些框架的底部，它们是否生成原始的映射器和缩减器类，就像原始的MapReduce程序一样？从Crunch源代码中，我没有找到将管道转换为原始MapReduce类的代码。最佳答案您可以使用代码中的以下行可视化MapReduce计划紧缩创建。将在pipeline.dot中创建的DOT代码复制到graphviz中以查看计划。Stringdot=pipeline.getConfiguration().get("crunch.planner.dotfile");F

Apache Crunch section MapReduce pipeline java hadoop bigdata apache-crunch

hadoop - 如何从 Oozie 触发的流式 Map Reduce 作业输出 Hadoop EL 计数器？

我正在使用Oozie触发流式MapReduce作业，为此我想收集以下HadoopEL常量:MAP_IN:Hadoop映射器输入记录计数器名称。MAP_OUT:Hadoopmapper输出记录计数器名称。REDUCE_IN:Hadoopreducer输入记录计数器名称。REDUCE_OUT:Hadoopreducer输入记录计数器名称。我看到这些可以使用${hadoop:counters('mr-action')[RECORDS][REDUCE_OUT]}但是，我不知道如何让这些值通过STDOUT输出回屏幕，或者输出到我启动Oozie工作流的服务器上HDFS中的文件。我试过将这些值传递给

流式 hadoop section action oozie hadoop-streaming

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

我正在尝试确定存储在S3中的文件的理想大小，该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时，S3文件会被并行复制到HDFS。但是，是使用单线程将单个大文件复制到HDFS，还是将该文件作为多个部分并行复制？另外，Gzip压缩是否影响将单个文件分成多个部分复制？最佳答案有两个因素需要考虑:压缩文件不能在任务之间拆分。例如，如果您有一个大型压缩输入文件，则只有

amazon-web-services services strong section 大文 hadoop amazon-s3 emr amazon-emr

python - 我的 boto elastic mapreduce jar 作业流参数有什么问题？

我正在使用boto库在Amazon的ElasticMapReduceWeb服务(EMR)中创建工作流。以下代码应创建一个步骤:step2=JarStep(name='Findsimiliaritems',jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar',main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob',step_args=['s3n://bucket/output/'+run_id+'/a

mapreduce elastic hadoop apache java python boto mahout amazon-emr

188 189 190191192 193 194