草庐IT

多启动

全部标签

python - 在没有 PuTTy/SSH 的情况下通过 Python 启动 Hadoop MapReduce 作业

我一直在通过PuTTy登录SSH来运行HadoopMapReduce作业,这需要我在PuTTY中输入主机名/IP地址、登录名和密码才能获得SSH命令行窗口。进入SSH控制台窗口后,我会提供适当的MR命令,例如:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/py

hadoop - 启动器错误,原因 : Main class [org. apache.oozie.action.hadoop.HiveMain],退出代码 [12]

在oozie中运行配置单元操作时出现以下错误:015-12-2019:48:40,368WARNHiveActionExecutor:523-SERVER[sandbox.hortonworks.com]USER[root]GROUP[-]TOKEN[]APP[oozie_hive_root]JOB[0000013-151220142557945-oozie-oozi-W]ACTION[0000013-151220142557945-oozie-oozi-W@oozie_hive_root]LauncherERROR,reason:Mainclass[org.apache.oozie.

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群,它运行良好,我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点),我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装,并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗? 最佳答案 如果日志正常,则确保打开必要的Hadoop端口。与您的本地设置不同,在AWS中,您应该询问他们要打开的特定端口。在这种情况下,您必须请求打开所需的Hadoophttp和RPC

hadoop - 连接拒绝快速启动.cloudera :8020

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭2年前。Improvethisquestion我正在使用Cloudera-quickstart5.5.0virtualbox尝试在终端上运行它。正如您在下面看到的,有一个异常(exception)。我在Internet上搜索了解决此问题的解决方案并找到了一些东西。1-)配置core-site.xml文件。https://datashine.wordpress.com/2014/09/06/java-net-connectexception-c

hadoop - reducer 后映射器启动缓慢

我正在使用ChainReducer构建以下模式Map1-->Reduce-->Map2我希望Map2步骤仅在Reduce步骤完成后才开始。hadoopmapreduce中是否有一个属性来设置它。 最佳答案 你应该做的是:ChainMapper.addMapper(generalConf,Map1.class,...,newJobConf(false));ChainReducer.setReducer(generalConf,Reduce.class,...,newJobConf(false));ChainReducer.addMap

python - Hadoop MapReduce(使用 Python)在 Pandas DataFrame 上启动 KeyError

我正在尝试使用MapReduce处理数据帧。我最初为映射器创建了脚本并尝试从本地终端运行它,它工作正常:映射器.pyimportsysimportstringimportpandasaspddf=pd.read_csv(sys.stdin)#cleaningrelevantfieldsdf['Time']=pd.to_datetime(df['Time'],unit='s').apply(lambdax:x.year)df['Summary']=df['Summary'].str.lower()df['Summary']=df['Summary'].str.replace('[{}]'

hadoop - Datanode 已启动但未显示在 dfsadmin -report 中

我正在尝试将Hadoop3.1.0安装到两个虚拟机中:第一台机器包含一个名称节点和一个数据节点,第二台机器包含一个数据节点。我关注了这篇文章InstallHadoop3.0.0multi-nodeclusteronUbuntu.在我执行start-dfs.sh和start-yarn.sh命令之前,一切都很顺利。当我在Name节点上运行Jps命令时,它显示以下结果:16488NameNode16622DataNode17215NodeManager17087ResourceManager17530Jps16829SecondaryNameNode当我在数据节点上运行它时,它显示:2306

hadoop - EMR 5.16.0 - 启动了太多映射器

尝试将EMREC2实例从5.3C4.4Xlarge(HIVEver2.1.1)升级到EMR5.16.0C5.4XLarge(Hive2.3.3)我的简单查询selectmax(date)fromtablein2.1.1EMR5.3.0仅启动1个映射器和1个缩减器,而当我升级并运行相同的查询时,它启动了1300多个映射器。尝试比较两者的设置属性,发现没有区别。有人可以帮我吗 最佳答案 尝试以下设置。在从hive2.1.1到2.3.3的过程中,他们将其从true翻转为false。sethive.optimize.metadataonly

java - hbase Regionserver 启动,zookeeper 启动但 hmaster 未启动(regionserver.HRegionServer : Failed construction RegionServer)

Hbasezookeeper启动,regionserver在多节点集群上启动,但hmaster未启动并生成以下日志文​​件。hbase-site.xml快照hbase.masternamenode:60000hbase.rootdirhdfs://namenode:9001hbase.cluster.distributedtruehbase.zookeeper.quorumdatanodehbase.zookeeper.property.dataDir/hadoop2/zookeeperhbase.zookeeper.property.clientPort2181两台机器datanod

hadoop守护进程没有启动

我已经在linux集群中安装了Hadoop。当我尝试通过命令启动服务器时$bin/start-all.sh,我收到以下错误:mkdir:cannotcreatedirectory`/var/log/hadoop/spuri2':Permissiondeniedchown:cannotaccess`/var/log/hadoop/spuri2':Nosuchfileordirectory/home/spuri2/spring_2012/Hadoop/hadoop/hadoop-1.0.2/bin/hadoop-daemon.sh:line136:/var/run/hadoop/hadoo