草庐IT

jython-2.7

全部标签

python-2.7 - Hadoop 命令在 python3 下失败并在 python 2.7 上工作

我有一台macbookpro,我已经在上面安装了hadoop2.7.3,如下所示:https://www.youtube.com/watch?v=06hpB_Rfv-w我正在尝试通过python3运行hadoopMRJob命令,它给了我这个错误:。bhoots21304s-MacBook-Pro:2.7.3bhoots21304$python3/Users/bhoots21304/PycharmProjects/untitled/MRJobs/Mr_Jobs.py-rhadoop/Users/bhoots21304/PycharmProjects/untitled/MRJobs/Fil

rest - 通过 REST API [MapR 6.1/Hadoop-2.7] 从 Yarn 查询节点标签拓扑

有一个Java和CLI接口(interface)可以查询YarnRM的节点到节点标签(和反向)映射。有没有办法通过REST-API来做到这一点?最初的RM-API搜索显示只有基于节点标签的作业提交是一个选项。遗憾的是,这实际上在MapR-Hadoop(截至6/6/19的6.1)中被破坏了,所以我的代码必须通过实现正确的调度本身来解决这个问题。这可以使用YarnClientJavaAPI(几乎没有-这里还有更多损坏的API)。但由于我想同时针对不同的资源管理器安排作业,在防火墙后面,REST-API是实现此目的最引人注目的选择,而YarnClientAPI的RPC后端不容易传输。我目前最

python-2.7 - pig 过滤器不工作

有人遇到Pig过滤器无法正常工作的问题吗?而且通常表现得很愚蠢。例如,我有一些看起来像这样的日志。a1(2013-12-2502:55:08,000085594,15468,80365991,1387940111723)(2013-12-2502:55:08,000085594,63943,80365991,1387940111723)(2013-12-2502:55:08,000085594,64014,80365991,1387940111723)decribea1a1:{time:chararray,id:chararray,buckets::bucket:int,chararr

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本,它运行良好。当我在oozie中运行时,同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

java - 无法在 hadoop 2.7 中运行 map reduce 作业 - 类型不匹配

在运行程序时出现错误:java.io.IOException:映射中的键类型不匹配:预期的org.apache.hadoop.io.Text,收到org.apache.hadoop.io.LongWritable我尝试了来自google/stack站点的更多建议。但没有运气。仍然有同样的异常(exception)。知道我错过了什么吗?我的导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.

python - Apache Pig - Jython UDF 内存错误

我正在使用Jython在pig中编写我的PythonUDF,但是当我的UDF的输入很大时(即超过分配给我的JVM的内存),我遇到了内存问题。在Pig文档中,诸如COUNT、MAX等函数通过使用Algebraic和更重要的Accumulator接口(interface)来克服这个问题。Accumulator接口(interface)允许将来自Pig的数据以block的形式发送到UDF,这很适合我的问题。有没有人有用Jython做这件事的例子?(或将输入流式传输到Python的任何想法)任何帮助将不胜感激!:) 最佳答案 PythonU

maven - Oozie 4.2.0 使用 Java 1.8 使用 Hadoop 2.7 构建错误

我在伪hadoop模式下运行。具有以下组件-Hadoopv2.7.0-Java1.8+-奥齐4.2.0-操作系统-Fedora22虚拟机-Maven3.3我对Java或Maven一无所知,而且我对使用Maven构建这个世界完全陌生。我正在探索Oozie并想构建它,但每次我尝试构建它时,它都会失败并出现以下错误。我有搜索博客和已知博客(人们提到了gauravkohli博客,但这对我也没有帮助)但没有太多帮助。有人可以帮我吗?其次,虽然我关注了一些博客,其中提到只有hadoop版本需要更改,但即便如此,我认为我需要更改Hbase和其他组件版本,因为它们的版本比文中提到的要高得多oozeDi

python-2.7 - Hadoop Streaming 永无止境

我正在尝试学习如何使用hadoop流。我正在尝试运行一个非常简单的映射器,并且没有缩减器。当我运行该程序时,它完成了100%的maptask,然后在十分钟内什么都不做,然后报告它已完成所有maptask的0%。我认为这意味着节点管理器不得不终止工作,不确定。过去我已经等了半个小时,但一直没有结束。我正在使用hadoop1.2.1。它的文档说它带有hadoopstreamingjar,但我找不到它,所以我从中央maven存储库下载了hadoop-streaming-1.2.1。这是命令行:[msknapp@localhostdata]$hadoopjar/hadoop/hadoop-st

python - PySpark(Python 2.7): How to flatten values after reduce

我正在使用带有自定义分隔符的SparkContext.newAPIHadoopFile读取多行记录文件。反正我已经准备好了,减少了我的数据。但是现在我想再次将key添加到每一行(条目),然后将其写入ApacheParquet文件,然后将其存储到HDFS中。这个图应该可以解释我的问题。我正在寻找的是红色箭头,例如写入文件前的最后一次转换。任何的想法?我尝试了flatMap,但时间戳和浮点值导致了不同的记录。Python脚本可以是downloadedhere和样本textfilehere.我在JupyterNotebook中使用Python代码。 最佳答案

python-2.7 - java.io.IOException : Broken pipe on increasing number of mappers/reducers, 很多

我在6个节点的hadoop集群上运行MapReduce作业,配置了4个映射任务和10个缩减任务。Mapper/Reducer在增加map/reduce任务数量时失败很多,如下所示,我遇到以下错误:标准错误日志java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode143atorg.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)atorg.apache.hadoop.streamin