作业组

java - 如何使用新 API 以编程方式获取 Hadoop 集群中所有正在运行的作业？

我有一个软件组件可以将MR作业提交到Hadoop。我现在想在提交之前检查是否还有其他作业在运行。我发现新API中有一个Cluster对象，可用于查询集群中正在运行的作业，获取它们的配置并从中提取相关信息。但是我在使用它时遇到了问题。只需执行newCluster(conf)，其中conf是有效的Configuration，可用于访问此集群(例如，提交jobs)使对象保持未配置状态，并且Cluster的getAllJobStatuses()方法返回null。从配置中提取mapreduce.jobtracker.address，从中构造一个InetSocketAddress并使用Cluste

hadoop - 如何将参数传递给 Oozie 中的 mapreduce 作业

我有一个打包为jar文件(mymapreduce.jar)的mapreduce作业。运行时，它需要一些参数，例如hadoopjarmymapreduce.jarStartClass-i输入-p参数1-u参数2。如何将它写为Oozie工作流文件中的一个Action？最佳答案在job.properties文件中写入你要在oozie工作流中使用的参数如下nameNode=hdfs://localhost:9000hdfs://abc.xyz.yahoo.com:8020jobTracker=localhost:9001queueNam

mapreduce 传递 gt lt name hadoop oozie oozie-coordinator

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中，但提供的python示例以相同的方式结束。集群是Cloudera，运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

scala HBase TableInputFormatBase section java hadoop apache-spark cloudera

java - Hadoop - 在作业配置中设置自定义 jdk 路径/版本

我有一个需要JDK1.8的mapreducejar文件和一个安装并配置了JDK1.7的Hadoop集群。是否可以在不更改Hadoop配置(即不更改hadoop-env.sh)的情况下运行我的jar？所有Hadoop节点也可以访问JDK1.8，我可以轻松地将JAVA_HOME更改为指向JDK1.8，但如果不更改Hadoop环境变量，这似乎没有任何效果。我已经看了submittingHadoopjobwithProcessBuilder和runningmapreducejobfromsimpleJavaprogram但不清楚如何处理您通常拥有的作业配置。例如，我正在使用它来运行我的Hado

自定 Hadoop job class java mapreduce

NNDL 作业13 优化算法3D可视化

编程实现优化算法，并3D可视化1.函数3D可视化分别画出和的3D图NNDL实验优化算法3D轨迹鱼书例题3D版_优化算法3d展示-CSDN博客代码：frommpl_toolkits.mplot3dimportAxes3Dimportnumpyasnpfrommatplotlibimportpyplotaspltimporttorchfromnndl.opimportOp#画出x**2classOptimizedFunction3D(Op):def__init__(self):super(OptimizedFunction3D,self).__init__()self.params={'x':

可视化可视 self model 61 算法 3d

hadoop - 用于从 Netezza 到 HDFS 的数据传输的 Sqoop 作业

我编写了一个sqoop作业，用于将数据从Netezza中的表导入到HDFS。该作业已成功创建，并且在执行时也会启动MapReduce作业。作业一直运行到map100%reduce0%并卡住。作业永远不会完成，数据根本不会传输。没有观察到错误或异常。对于同一数据库的其他表，我几乎没有类似的工作。那些正确执行并传输数据。这种行为的可能原因是什么。以下是选项文件中给出的sqoop作业的配置。--直接-连接jdbc:netezza://url/database_name-用户名ABCD-密码xyz-table表名--拆分primary_key_column--目标目录hdfs_path-m

Netezza hadoop section strong sqoop

java - 如何在hadoop中的mapreduce java代码中限制reduce作业的数量

我是Hadoop的新手，我想限制我的应用程序中减少作业的数量。在集群中，reduce作业的最大数量是120。但是，我不想使用所有这些，因为我的应用程序不需要那么多的reduce作业。我尝试了下面的解决方案，但没有任何改变。我的应用程序仍然使用120个reduce作业。如何设置reduce作业的数量？https://stackoverflow.com/questions/33237361/unable-to-set-mapreduce-job-reduces-through-generic-option-parser感谢您的回复。最佳答案

java 何在 section reduce stackoverflow hadoop mapreduce

Hadoop 2.7.0 - MapReduce 作业未运行 - 因 AM 容器错误而失败

我在Fedora22虚拟机上以伪节点模式使用Hadoop2.7.0。几天前，MapReduce作业运行良好，但在安装Oozie并对yarn-site.xml进行了修改之后。我在运行Pi示例作业时遇到以下错误，我可能无法调试错误，已编辑-我使用命令行运行作业，不使用oozie工作流引擎..命令-hadoopjar10100StartingJob15/12/1715:22:05INFOclient.RMProxy:ConnectingtoResourceManagerat/192.168.122.1:803215/12/1715:22:06INFOinput.FileInputFormat

容器 MapReduce hadoop property

java - 作业完成后，hadoop 2.7.2 多节点中的作业历史 Web ui-19888 不显示任何内容

在hadoop2.7.2中用2个从属运行作业后，我可以在终端中看到结果，但在master:19888/jobhistory中什么也没有。我上传了图片和我的配置文件。jobhistorywebui19888这是我的配置文件。核心.site.xmlfs.default.namehdfs://master:9000hadoop.tmp.dir/app/hadoop/tmphdfs.site.xmldfs.replication2dfs.name.dirfile:/usr/local/hadoop/hadoop_tmp/hdfs/namenodedfs.data.dirfile:/usr/lo

点中 hadoop property gt lt java maven hadoop-yarn hadoop2

hadoop 作业与 pyspark 和 oozie 陷入僵局

我正在尝试使用oozie在yarn上运行pyspark，提交工作流后，hadoop作业队列中有2个作业，一个是oozie作业，其应用程序类型为“mapreduce”，另一个作业被触发通过前一个，应用程序类型为“Spark”，当第一个作业正在运行时，第二个作业仍处于“已接受”状态。问题来了，而第一个作业正在等待第二个作业完成继续，第二个是等待第一个完成运行，我可能陷入死锁，我怎么能摆脱这个麻烦，应用程序类型为“mapreduce”的hadoop作业是否与不同应用程序的其他作业并行运行类型？感谢任何建议，谢谢! 最佳答案请将属性值检查

陷入僵局僵局 section hadoop stackoverflow pyspark oozie

52 53 545556 57 58