$集群_草庐IT

hadoop - 为学习目的构建小型Hadoop集群的建议

我有一个大数据类测试，我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的Ubuntu16.04上以独立模式安装了Hadoop2.8.1和Spark2.2.0(我使用PySpark构建程序)。其实我很乐意自己去做我的事情。问题是，我的一些friend正在努力配置所有这些，我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。我的笔记本电脑有12GBRAM和IntelCorei5。最佳答案如果我没理解错的话，您的friend在独立模式下设置spark有困难(意味着根本没有集

小型 hadoop section 大数 noreferrer apache-spark cluster-computing distributed-computing

sorting - Hadoop 在单节点集群上运行排序示例

我正在尝试在Hadoop单节点集群上运行排序示例。首先，我启动守护进程:hadoop@ubuntu:/home/user/hadoop$bin/start-all.sh然后我运行随机编写器示例以生成顺序文件作为输入文件。hadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrandhadoop@ubuntu:/home/user/hadoop$bin/hadoopjarhadoop-*-examples.jarrandomwriterrand正在运行0个map。Jobstarted:T

sorting Hadoop JobClient mapred ubuntu random

netbeans - 在 Hadoop 集群上运行 mapreduce jar

我正在尝试在Hadoop上运行二次筛算法的mapreduce实现。为此，我将karmasphereHadoop社区插件与Netbeans一起使用。该程序使用该插件运行良好。但我无法在实际集群上运行它。我正在运行这个命令bin/hadoopjarMRIF.jar689其中MRIF.jar是构建netbeans项目生成的jar文件，689是要分解的数字。输入和输出目录在程序本身中是硬编码的。在实际集群上运行时，内部java类似乎没有被处理，因为在map本身处于0%之前，reduce完成到100%。并且创建的输入和输出文件没有内容。但这在使用Karmasphere插件运行时工作正常。

mapreduce netbeans code section jar hadoop

ubuntu - Hadoop 集群不启动

我刚刚设置了一个hadoop集群(名称节点+一个数据节点)。但是，当我尝试启动hdfs时出现以下错误:hadoop@namenode:/opt/hadoop-2.2.0$start-dfs.sh14/01/3020:18:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[JavaHotSpot(TM)64-BitServerVMwarning:Youhaveload

ubuntu Hadoop not hostname resolve hdfs

Hadoop集群启动后命令JPS没有DataNode或者NameNode

问题原因1）需要检查core-site.xml和hdfs-site.xml这俩文件，配置没错的话再看第二条2）可能已经执行格式化NameNode后，但是格式之前并没有停止之前的进程并删除相关数据。解决方案（记得你的集群删除前需要停止，每个副本都要进行一次下面操作）1）删除dfs文件夹里的文件和删除nm-local-dir目录 a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/

DataNode NameNode code language-bash pre hadoop 大数据 hdfs

Hadoop双节点集群环境，NameNode的web UI显示活节点数为1，死节点数为0

我为Hadoop正确配置了两节点集群环境，Master也为datanode配置好了。所以目前我有两个数据节点，我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

点数死节 section NameNode DataNode hadoop bigdata

hadoop - 随着集群规模的增加，每个节点并发运行的映射器数量在 Elastic MapReduce w/AMI 3.1.0 和 Hadoop 2.4.0 上急剧下降

在相关问题(HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce)中，我要求提供将并发运行的映射器/缩减器的数量与YARN和MR2内存参数相关联的公式。事实证明，在ElasticMapReduce上，当我的集群有2到10个c3.2xlarge节点时，那里提到的公式的变体工作正常，每个节点有7-9个并发运行的映射器；但是当c3.2xlarges的数量为20或40时，我发现集群未充分利用:每个节点仅运行1-4个映射器。由于我的工作受CPU限制，这尤其糟糕:MR2

射器急剧 section stackoverflow hadoop amazon-web-services amazon-ec2 elastic-map-reduce hadoop-yarn

hadoop - 将 hadoop 集群连接到多个 Google 项目中的多个 Google Cloud Storage 存储桶

可以同时将我的Hadoop集群连接到多个GoogleCloud项目吗？我可以通过GoogleCloudStorageConnector在单个GoogleProject中轻松使用任何GoogleStorage存储桶，如本线程中所述Migrating50TBdatafromlocalHadoopclustertoGoogleCloudStorage.但是我找不到任何文档或示例如何从单个map-reduce作业连接到两个或多个GoogleCloud项目。你有什么建议/技巧吗？非常感谢。最佳答案确实，可以同时将您的集群连接到来自多个不同

hadoop Google section stackoverflow google-cloud-storage google-hadoop

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护进程时出错。Datanode 未启动

我正在尝试设置hadoop集群并在连接数据节点时出现以下错误。Namenode已启动并运行良好，但数据节点正在产生问题。/etc/hosts文件在两个节点上都可用。IP表已停止(f/w)。ssh发生。2015-05-2020:54:05,008INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:nn1.cluster1.com/192.168.1.11:9000.Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=1

时出 hadoop section

hadoop - 通过 socks 代理将 YARN 作业提交到远程 Hadoop 集群

我正在尝试通过SOCKS代理访问运行YARN的防火墙Hadoop集群。集群本身没有使用代理连接——只有我在本地机器(例如笔记本电脑)上运行的客户端通过ssh-D9999user@gateway-host连接到可以看到Hadoop的机器簇。在Hadoop配置core-site.xml(在我的笔记本电脑上)中，我有以下几行:hadoop.socks.serverlocalhost:9999hadoop.rpc.socket.factory.class.defaultorg.apache.hadoop.net.SocksSocketFactory以这种方式访问HDFS效果很好。但是，当我

交到 hadoop code section proxy hadoop-yarn