HA集群_草庐IT

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时，出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行？我使用本地文件作为输入。我必须使用HDFS文件吗？我相信RDD是并行化的，输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

hadoop - 无法在 Hadoop 集群上启动 H2O - ClassNotFound 异常

我正在尝试在Hadoop集群上启动H2O。可悲的是，它不起作用，并给我一个错误，即找不到类water.hadoop.h2omapper。Hadoop环境是2.6版本的HDP，包括5个节点，其中1个运行YARN资源管理器，3个节点是带有YARN客户端的数据节点。每个数据节点都有32GBRAM和4个CPU内核的资源。它们上没有运行其他应用程序。我在Ambari中的每个节点上为每个YARN应用程序配置了最多16GB和3个内核。我从终端启动H2O集群(尝试了所有节点，到处都是同样的错误)，输出如下:[root@host3h2o-3.14.0.6-hdp2.6]#sudo-uhdfshadoop

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明，但使用Hadoop版本2.7.4。集群似乎工作正常，但我无法运行mapreduce作业。特别是，在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

hadoop - 为学习目的构建小型Hadoop集群的建议

我有一个大数据类测试，我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的Ubuntu16.04上以独立模式安装了Hadoop2.8.1和Spark2.2.0(我使用PySpark构建程序)。其实我很乐意自己去做我的事情。问题是，我的一些friend正在努力配置所有这些，我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。我的笔记本电脑有12GBRAM和IntelCorei5。最佳答案如果我没理解错的话，您的friend在独立模式下设置spark有困难(意味着根本没有集

sorting - Hadoop 在单节点集群上运行排序示例

我正在尝试在Hadoop单节点集群上运行排序示例。首先，我启动守护进程:hadoop@ubuntu:/home/user/hadoop$bin/start-all.sh然后我运行随机编写器示例以生成顺序文件作为输入文件。hadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrandhadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrand正在运行0个map。Jobstarted:T

netbeans - 在 Hadoop 集群上运行 mapreduce jar

我正在尝试在Hadoop上运行二次筛算法的mapreduce实现。为此，我将karmasphereHadoop社区插件与Netbeans一起使用。该程序使用该插件运行良好。但我无法在实际集群上运行它。我正在运行这个命令bin/hadoopjarMRIF.jar689其中MRIF.jar是构建netbeans项目生成的jar文件，689是要分解的数字。输入和输出目录在程序本身中是硬编码的。在实际集群上运行时，内部java类似乎没有被处理，因为在map本身处于0%之前，reduce完成到100%。并且创建的输入和输出文件没有内容。但这在使用Karmasphere插件运行时工作正常。

ubuntu - Hadoop 集群不启动

我刚刚设置了一个hadoop集群(名称节点+一个数据节点)。但是，当我尝试启动hdfs时出现以下错误:hadoop@namenode:/opt/hadoop-2.2.0$start-dfs.sh14/01/3020:18:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[JavaHotSpot(TM)64-BitServerVMwarning:Youhaveload

Hadoop集群启动后命令JPS没有DataNode或者NameNode

问题原因1）需要检查core-site.xml和hdfs-site.xml这俩文件，配置没错的话再看第二条2）可能已经执行格式化NameNode后，但是格式之前并没有停止之前的进程并删除相关数据。解决方案（记得你的集群删除前需要停止，每个副本都要进行一次下面操作）1）删除dfs文件夹里的文件和删除nm-local-dir目录 a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/

Hadoop双节点集群环境，NameNode的web UI显示活节点数为1，死节点数为0

我为Hadoop正确配置了两节点集群环境，Master也为datanode配置好了。所以目前我有两个数据节点，我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

hadoop - 随着集群规模的增加，每个节点并发运行的映射器数量在 Elastic MapReduce w/AMI 3.1.0 和 Hadoop 2.4.0 上急剧下降

在相关问题(HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce)中，我要求提供将并发运行的映射器/缩减器的数量与YARN和MR2内存参数相关联的公式。事实证明，在ElasticMapReduce上，当我的集群有2到10个c3.2xlarge节点时，那里提到的公式的变体工作正常，每个节点有7-9个并发运行的映射器；但是当c3.2xlarges的数量为20或40时，我发现集群未充分利用:每个节点仅运行1-4个映射器。由于我的工作受CPU限制，这尤其糟糕:MR2