草庐IT

作业队

全部标签

hadoop - 如何列出特定用户运行的所有 hadoop 作业?

我试图找到一个命令,我可以用它来列出我当前正在运行的所有作业。“hadoopjob-list”列出所有作业。有没有办法按用户过滤列表? 最佳答案 您可以简单地使用用户名grep输出hadoopjob-list|grep 关于hadoop-如何列出特定用户运行的所有hadoop作业?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12609267/

java - 在多个 map-reduce 作业之间传递数据库连接对象

从根本上说,这个问题是关于:同一个数据库连接是否可以跨多个进程使用(因为不同的map-reduce作业在真正不同的独立进程中)。我知道这是一个微不足道的问题,但如果有人也能回答这个问题那就太好了:如果与数据库的最大连接数(在托管数据库的服务器上预先配置)有筋疲力尽,一个新的进程试图建立一个新的连接?它是否等待一段时间,如果是,是否有办法为此等待时间设置超时。在这种特殊情况下,我是在谈论PostGres数据库,用于与数据库对话的语言是java。为了让您了解问题的背景,我有多个并行运行的map-reduce作业(大约40个reducer),每个作业都想更新一个PostGres数据库。我如何

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

我想尝试在Windows上使用Hadoop。我已将WindowsAzureHDInsightPreview作为单个节点安装在我的Windows7笔记本电脑上。仪表板和节点已启动并正在运行,并且HDFS正在运行。但是,当我运行MapReduce作业时,它失败并显示错误消息“不是有效的Inet地址”:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted/FrunSamples.ps1w3csmalljavatotalhitsMovedtotrash:hdfs://localhost:8020/w3c/out12/12

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业?

我目前正在开发一个项目,该项目使用JDK1.7进行编译,使用Cascading1.2(即将升级到2.1)创建和运行Hadoop作业,并使用Hadoop的Cloudera发行版(0.20.2-cdh3u3)。我正在研究如何修改我的级联/Hadoop作业以从MySQL数据库读取和写入所有数据。看起来SQOOP或许能够处理这个问题。然而,据我目前所见,关于如何在Java中执行此操作的信息或文档很少(我知道SQOOP主要用于从shell调用的批处理作业)——我拥有的Java示例followed没有为我工作。我已经尝试使用SQOOP1.4并将我的项目切换为使用JDK1.6,因为我认为这是必需的,

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如,我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

hadoop - 如何在单个 MapReduce 作业中实现多个 reducer

我有一个庞大的数据集,我需要对相同的数据执行不同的功能。我想要四个输出文件。由于四个操作不同,我可以使用四个partitioner和四个reducer来实现相同的操作吗?是否有可能或者我是否需要编写四个作业来执行此操作?请帮助我! 最佳答案 第一种方法我认为您应该在一个独特的reduce方法中实现代码,并根据执行的过程发出n个键。例如:您实现A、B、C和D技术,然后,在您的映射器中您可以实现此(伪代码):dataA=ProcessA(key,value)context.write("A",dataA)dataB=ProcessB(k

java - Apache Crunch 管道如何生成 map reduce 作业?

我是Crunch/Cascading等Hadoop管道框架的新手。我想知道在这些框架的底部,它们是否生成原始的映射器和缩减器类,就像原始的MapReduce程序一样?从Crunch源代码中,我没有找到将管道转换为原始MapReduce类的代码。 最佳答案 您可以使用代码中的以下行可视化MapReduce计划紧缩创建。将在pipeline.dot中创建的DOT代码复制到graphviz中以查看计划。Stringdot=pipeline.getConfiguration().get("crunch.planner.dotfile");F

hadoop - 如何从 Oozie 触发的流式 Map Reduce 作业输出 Hadoop EL 计数器?

我正在使用Oozie触发流式MapReduce作业,为此我想收集以下HadoopEL常量:MAP_IN:Hadoop映射器输入记录计数器名称。MAP_OUT:Hadoopmapper输出记录计数器名称。REDUCE_IN:Hadoopreducer输入记录计数器名称。REDUCE_OUT:Hadoopreducer输入记录计数器名称。我看到这些可以使用${hadoop:counters('mr-action')[RECORDS][REDUCE_OUT]}但是,我不知道如何让这些值通过STDOUT输出回屏幕,或者输出到我启动Oozie工作流的服务器上HDFS中的文件。我试过将这些值传递给

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在S3中的文件的理想大小,该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时,S3文件会被并行复制到HDFS。但是,是使用单线程将单个大文件复制到HDFS,还是将该文件作为多个部分并行复制?另外,Gzip压缩是否影响将单个文件分成多个部分复制? 最佳答案 有两个因素需要考虑:压缩文件不能在任务之间拆分。例如,如果您有一个大型压缩输入文件,则只有

python - 我的 boto elastic mapreduce jar 作业流参数有什么问题?

我正在使用boto库在Amazon的ElasticMapReduceWeb服务(EMR)中创建工作流。以下代码应创建一个步骤:step2=JarStep(name='Findsimiliaritems',jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar',main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob',step_args=['s3n://bucket/output/'+run_id+'/a