草庐IT

HA集群

全部标签

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时,出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行?我使用本地文件作为输入。我必须使用HDFS文件吗?我相信RDD是并行化的,输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

hadoop - 无法在 Hadoop 集群上启动 H2O - ClassNotFound 异常

我正在尝试在Hadoop集群上启动H2O。可悲的是,它不起作用,并给我一个错误,即找不到类water.hadoop.h2omapper。Hadoop环境是2.6版本的HDP,包括5个节点,其中1个运行YARN资源管理器,3个节点是带有YARN客户端的数据节点。每个数据节点都有32GBRAM和4个CPU内核的资源。它们上没有运行其他应用程序。我在Ambari中的每个节点上为每个YARN应用程序配置了最多16GB和3个内核。我从终端启动H2O集群(尝试了所有节点,到处都是同样的错误),输出如下:[root@host3h2o-3.14.0.6-hdp2.6]#sudo-uhdfshadoop

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明,但使用Hadoop版本2.7.4。集群似乎工作正常,但我无法运行mapreduce作业。特别是,在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

hadoop - 为学习目的构建小型Hadoop集群的建议

我有一个大数据类测试,我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的Ubuntu16.04上以独立模式安装了Hadoop2.8.1和Spark2.2.0(我使用PySpark构建程序)。其实我很乐意自己去做我的事情。问题是,我的一些friend正在努力配置所有这些,我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。我的笔记本电脑有12GBRAM和IntelCorei5。 最佳答案 如果我没理解错的话,您的friend在独立模式下设置spark有困难(意味着根本没有集

sorting - Hadoop 在单节点集群上运行排序示例

我正在尝试在Hadoop单节点集群上运行排序示例。首先,我启动守护进程:hadoop@ubuntu:/home/user/hadoop$bin/start-all.sh然后我运行随机编写器示例以生成顺序文件作为输入文件。hadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrandhadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrand正在运行0个map。Jobstarted:T

netbeans - 在 Hadoop 集群上运行 mapreduce jar

我正在尝试在Hadoop上运行二次筛算法的mapreduce实现。为此,我将karmasphereHadoop社区插件与Netbeans一起使用。该程序使用该插件运行良好。但我无法在实际集群上运行它。我正在运行这个命令bin/hadoopjarMRIF.jar689其中MRIF.jar是构建netbeans项目生成的jar文件,689是要分解的数字。输入和输出目录在程序本身中是硬编码的。在实际集群上运行时,内部java类似乎没有被处理,因为在map本身处于0%之前,reduce完成到100%。并且创建的输入和输出文件没有内容。但这在使用Karmasphere插件运行时工作正常。

ubuntu - Hadoop 集群不启动

我刚刚设置了一个hadoop集群(名称节点+一个数据节点)。但是,当我尝试启动hdfs时出现以下错误:hadoop@namenode:/opt/hadoop-2.2.0$start-dfs.sh14/01/3020:18:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[JavaHotSpot(TM)64-BitServerVMwarning:Youhaveload

Hadoop集群启动后命令JPS没有DataNode或者NameNode

问题原因1)需要检查core-site.xml和hdfs-site.xml这俩文件,配置没错的话再看第二条2)可能已经执行格式化NameNode后,但是格式之前并没有停止之前的进程并删除相关数据。解决方案(记得你的集群删除前需要停止,每个副本都要进行一次下面操作)1)删除dfs文件夹里的文件和删除nm-local-dir目录    a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir    b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/

Hadoop双节点集群环境,NameNode的web UI显示活节点数为1,死节点数为0

我为Hadoop正确配置了两节点集群环境,Master也为datanode配置好了。所以目前我有两个数据节点,我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

hadoop - 随着集群规模的增加,每个节点并发运行的映射器数量在 Elastic MapReduce w/AMI 3.1.0 和 Hadoop 2.4.0 上急剧下降

在相关问题(HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce)中,我要求提供将并发运行的映射器/缩减器的数量与YARN和MR2内存参数相关联的公式。事实证明,在ElasticMapReduce上,当我的集群有2到10个c3.2xlarge节点时,那里提到的公式的变体工作正常,每个节点有7-9个并发运行的映射器;但是当c3.2xlarges的数量为20或40时,我发现集群未充分利用:每个节点仅运行1-4个映射器。由于我的工作受CPU限制,这尤其糟糕:MR2