草庐IT

Py_Initialize

全部标签

python - hadoop中的语法错误: word unexpected (expecting "do") map. py

我已经为单词计数概念编写了一个程序map.py和reduce.py程序。我已经成功运行了单独执行的程序。但最后一步执行不成功。我得到了错误(意外的行为)。我该如何解决这个问题。我正在上传我的map.py、reduce.py程序和下面的错误声明。map.py:importsysforlineinsys.stdin:line=line.strip()words=line.split()forwordinwords:print'%s\t%s'%(word,"1")reduce.py:importsysc_count={}forlineinsys.stdin:line=line.strip()

hadoop - 错误 2997 : Encountered IOException. 文件 foo.py 不存在

我的PIG脚本有以下行register'foo.py'USINGjythonasfoo;文件foo.py存在于HDFS根目录中。但是当我运行我的代码时出现错误ERROR2997:EncounteredIOException.Filefoo.pydoesnotexist我谷歌了一下,找到了这个帖子EncounteredIOExceptionwhileregisteringpythonUDFinpig.Filehelloworld.pydoesnotexist该解决方案似乎暗示必须将foo.py复制到本地文件系统才能使其工作。但这不是我的选择。我想在HDFS上复制foo.py,然后从pig

hadoop - namenode.NameNode : Could not initialize shared edits dir

您好,我在HA集群配置时间遇到了所有这些错误。请帮助我哪里错了。14/09/0811:13:38INFOnamenode.AclConfigFlag:ACLsenabled?false14/09/0811:13:38INFOcommon.Storage:Lockon/usr/local/hadoop/dfs/tmp/dfs/name/in_use.lockacquiredbynodename1170@n314/09/0811:13:38WARNnamenode.FSNamesystem:Encounteredexceptionloadingfsimagejava.io.IOExcept

python - 在 pig 中注册 python UDF 时遇到 IOException。文件 helloworld.py 不存在

Pytjon用户定义函数:@outputSchema("word:chararray")defhelloworld():return'Hello,World'register'/user/hdfs/helloworld.py'usingjythonasmyfunc;错误:grunt>REGISTER'helloworld.py'USINGorg.apache.pig.scripting.jython.JythonScriptEngineasmyfuncs;2016-05-1612:08:04,909[main]ERRORorg.apache.pig.tools.grunt.Grunt-

hadoop - YARN-Cgroups : Failed to initialize container executor in non-secure cluster

我正在尝试在非安全模式下将cgroups与YARN2.6.0结合使用。有用如果我使用DefaultContainerExecutor就好了。但是,当我尝试使用LinuxContainerExecutor时出现错误。现在,当我执行-->$yarnnodemanager时,它失败了ExitCodeExceptionexitCode=24:File/home/hduser2/hadoop/hadoop-2.6.0/etc/hadoopmustbeownedbyroot,butisownedby1001atorg.apache.hadoop.util.Shell.runCommand(Shel

python - python : os. environ ["map_input_file"中的 MapReduce ] 在 map.py 中不起作用

这是我第一次用python学习HadoopMapReduce。为了学习如何连接两个文件,我写了一个map.py来获取两个文件的文件名。这里有两个CSV文件:worksheet1.csvsno,name1,name12,name23,name34,name4worksheet2.csvsno,courseno,grade1,1,801,2,902,1,822,2,95map.py:#!/bin/bash#-*-coding:utf-8-*-importosimportsysdefmapper():filepath=os.environ["map_input_file"]filename=

python - 如何在 hadoop 分布式文件系统 (hdfs) 上执行 python 文件 (.py)

Hadoop提供了使用直接在集群上运行java应用程序的可能性hadoopjar现在我有一个python脚本而不是java应用程序。下面是没有所有功能的.py文件的构造,只剩下“从文件夹中删除文件”部分importos.pathdeftransform():inputfolder="input"forfilenameinos.listdir(inputfolder):path=inputfolder+"\\"+filenameos.remove(path)defmain():transform()if__name__=="__main__":main()有没有一种方法可以像我执行.ja

hadoop - 错误 : Could not initialize class org. xerial.snappy.Snappy

我使用sqoop1.4.6将数据从RDBMS导入到hdfs,使用snappyCodec作为压缩和avro作为文件格式。我安装了以下组件Hadoop2.8.0Spark2.1.0hive1.2.2斯卡拉2.11.8Cassandra3.10当我尝试使用以下命令将mysql表导入hdfs时:sqoopimport--connectjdbc:mysql://******:****/retail_db--username****--password****--tableorder_items--compress--compression-codecorg.apache.hadoop.io.co

linux - 运行 hadoop 集群时在 Google Cloud Platform 上获取 'sudo: unknown user: hadoop' 和 'sudo: unable to initialize policy plugin error'

我正在尝试部署Google在https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop提供的示例Hadoop应用程序在谷歌云平台上。我逐步按照那里给出的所有设置说明进行操作。我能够设置环境并成功启动集群。但是我无法运行MapReduce部分。我正在我的终端上执行这个命令:./compute_cluster_for_hadoop.pymapreduce[--prefix]--inputgs://\--outputgs://\--mappersample/shortest

apache-spark - 错误 : User did not initialize spark context

记录错误:TestSuccessfull2018-08-2004:52:15INFOApplicationMaster:54-Finalappstatus:FAILED,exitCode:132018-08-2004:52:15ERRORApplicationMaster:91-Uncaughtexception:java.lang.IllegalStateException:Userdidnotinitializesparkcontext!atorg.apache.spark.deploy.yarn.ApplicationMaster.runDriver(ApplicationMas