作业队_草庐IT

hadoop - yarn Spark 作业调度较慢

我有两个具有以下配置的mapr集群，cluster1:hostedonaws,3nodeswith32gofmemory/32coreseachcluster2:hostedonbare-metalservers,8nodeswith128gofmemory/32coreseach我在两个集群上通过yarn运行一段pyspark代码df=hc.sql("select*fromhive_table")df.registerTempTable("df")df.cache().count()for:100timesresult=hc.sql('selectxxxxfromdf')result

java - 如何从 Java 中停止 Hadoop 作业

我有一个由8台机器组成的服务器设置，我在这些机器上运行Hadoop作业来下载某些Assets。客户端代理使用JobConf启动Hadoop作业。代理从服务器获取响应代码，根据该代码可以确定下载的进行方式。在下面的代码中，invoke()创建到服务器公开的RESTAPI的连接。ResponseData是一个自定义类，可以从与响应关联的连接中读取下载的数据，如下所示:ResponseDatares=invoke(downloadUrl,contentType);downloadedAssetStream=NewObjectInputStream(res.connection.getInpu

Hadoop java section killJob

hadoop - 在 Hadoop 中，我们能否以编程方式控制每个作业的节点数？

我正在运行作业时序分析。我有一个带有8个节点的预配置集群。我想分别运行8个节点、6个节点、4个节点和2个节点的给定作业，并记下相应的运行时间。有没有办法以编程方式执行此操作，即通过在Java代码的作业配置中使用适当的设置？最佳答案有几种方法。更喜欢以相同的顺序。exclude文件可用于不允许某些任务跟踪器/数据节点连接到作业跟踪器/名称节点。检查这个faq.要使用的属性是mapreduce.jobtracker.hosts.exclude.filename和dfs.hosts.exclude。请注意，一旦文件被更改，名称节点和作

点数 hadoop 跟踪器 code section

hadoop - 使用 hadoop mapreduce 作业从日志文件分析时间范围内的总错误条目发生率

我在HDFS中存储了大量日志文件，如下所示:2012-10-2000:05:00;BEGIN...SQLERROR-678:Errormessage...2012-10-2000:47:20;END我想知道某个时间范围内某些sql错误代码出现的频率，例如:从2012年10月20日凌晨0:00到2012年10月20日凌晨1:00，发生了多少678SQL错误。由于文件通常被分成几个block，它们可以分布在所有数据节点之间。这样的查询可能吗？我想使用hadoopmapreduceJavaAPI或ApachePig，但我不知道如何应用时间范围条件。最佳答案

hadoop 发生率射器 section mapreduce apache-pig hdfs bigdata

python - 如何将 EMR 流作业的输出写入 HDFS？

我看到examples的人将EMR输出写入HDFS，但我无法找到它是如何完成的示例。最重要的是，thisdocumentation似乎是说EMR流作业的--output参数必须是S3存储桶。当我实际尝试运行脚本时(在本例中，使用python流和mrJob)，它会抛出“无效的S3URI”错误。命令如下:pythonmy_script.py-remr\--emr-job-flow-id=j-JOBID--conf-path=./mrjob.conf--no-output\--outputhdfs:///my-output\hdfs:///my-input-directory/my-file

python HDFS site-packages 34 output hadoop emr mrjob

hadoop hbase cdh4 作业启动失败，出现权限错误

在CDH4生态系统中，我正在尝试将mapreduce作业输出到hbase表。由于某种原因，它在配置设置的addDependencyJars调用期间失败。据我所知，hbase配置没有选择hadoop配置(请参阅作业输出中的警告)。我提供了hdfs-site.xml、作业配置、带堆栈跟踪的作业输出和文件权限。任何有关如何进一步调试的帮助或见解将不胜感激。hdfs-site.xmldfs.permissions.enabledfalsedfs.permissions.superusergrouphadoopdfs.namenode.name.dir/var/hadoop/namenodedf

hadoop hbase Configuration 08 hdfs cloudera

用于提交作业的 Hadoop HDInsight .NET SDK API

我正在使用HDInsight.NETHadoopAPI在asp.net应用程序中提交MapReduce作业。使用Microsoft.Hadoop.Mapreduce；varhadoop=Hadoop.Connect();varresult=hadoop.MapReduceJob.ExecuteJob();//也试过这个，但同样的异常(exception)//varresult=hadoop.MapReduceJob.ExecuteJob(config);ExecuteJob()调用失败并在运行时抛出异常。这个世界上有没有人能够成功地运行这个电话。是否可以通过添加更多输入参数或对象来自定

HDInsight Hadoop section mrJobDefinition azure-hdinsight

xml - 无法在 hadoop 作业中读取 bz2 压缩文件

我有一个XML文件要在MapReduce作业中处理。虽然我可以在未压缩时处理它，但当我将它压缩为bz2格式并将其存储在hdfs中时它不起作用。我是否需要进行一些更改，例如指定要使用的编解码器-我不知道在哪里做。任何例子都会很棒。我正在使用mahaout的XMLInputFormat来读取未压缩的XML文件。我用了bzip2命令压缩文件和hadoopdfs-copyFromLocal将文件复制到DFS。我有兴趣阅读和处理里面的内容xml文档的标签。我正在使用hadoop-1.2.1发行版。我可以看到有FileOutputFormat.setOutputCompressorClass，但F

hadoop xml code wordcount mapreduce

hadoop - 从 RecordReader/InputFormat 访问作业的配置

我正在使用Hadoop，我必须创建自定义InputFormat。为此，我覆盖了InputFormat和RecordReader类，就像解释的那样here我想访问作业的配置(在运行作业之前访问一些变量集)。我可以访问“TaskAttemptContext”并从中获取配置对象，但这不是作业的全局配置。我不知道我想要的东西是否可行，但如果您有想法，那将非常有帮助。谢谢。最佳答案最后，TaskAttemptContext包含全局配置，我可能弄错了。因此，可以将变量从启动器main()传递到InputFormat。

RecordReader InputFormat section strong hadoop mapreduce

python - 是否可以将 Conda 环境用作 Hadoop 流作业(在 Python 中)的 "virtualenv"？

我们目前正在使用Luigi、MRJob和其他框架来运行使用Python的Hadoo流作业。我们已经能够使用自己的virtualenv运送作业，因此节点中没有安装特定的Python依赖项(seethearticle)。我想知道是否有人对Anaconda/Conda包管理器做过类似的事情。PD。我也知道Conda-Cluster，但是它看起来像是一个更复杂/更复杂的解决方案(并且它在付费专区后面)。最佳答案 2019年更新:答案是肯定的，方法是使用conda-packhttps://conda.github.io/conda-pack

用作 virtualenv section noreferrer noopener python hadoop anaconda mrjob