$集群_草庐IT

Hadoop 客户端和集群分离

我是hadoop的新手，也是linux的新手。我的教授要求我们使用端口映射或VPN将Hadoop客户端和集群分开。我不明白这种分离的意义。谁能给我一个提示？现在我明白了集群客户端分离的想法。我认为需要在客户端机器上安装hadoop。当客户端提交一个hadoop作业时，它被提交给集群的主人。还有一些天真的想法:1.创建客户端机器并安装hadoop。2.设置fs.default.name为hdfs://master:90003.设置dfs.namenode.name.dir为file://master/home/hduser/hadoop_tmp/hdfs/namenode是否正确？4.然

Hadoop 客户端 code gt lt cluster-computing vpn hadoop2

hadoop - "No common protection layer between client and server"尝试与 Kerberized Hadoop 集群通信时

我正在尝试以编程方式与Kerberized(CDH5.3/HDFS2.5.0)的Hadoop集群进行通信。我在客户端有一个有效的Kerberostoken。但是我收到如下错误，“客户端和服务器之间没有公共(public)保护层”。这个错误是什么意思，有什么方法可以修复或解决它吗？这与HDFS-5688有关吗？？该票似乎暗示必须设置属性“hadoop.rpc.protection”，大概是“身份验证”(也根据例如this)。这是否需要在集群中的所有服务器上设置，然后集群反弹？我无法轻松访问集群，因此我需要了解“hadoop.rpc.protection”是否是真正的原因。看起来'auth

Kerberized protection hadoop java Client hdfs kerberos cloudera-cdh

apache-spark - 如何将作业提交到其他集群上的 yarn ？

我有一个安装了spark的docker容器，我正在尝试使用marathon将作业提交到其他集群上的yarn。docker容器具有yarn和hadoopconf目录的导出值，yarn文件还包含emrmasterip的正确地址，但我不确定它从哪里作为本地主机？ENVYARN_CONF_DIR="/opt/yarn-site.xml"ENVHADOOP_CONF_DIR="/opt/spark-2.2.0-bin-hadoop2.6"yarn.xmlyarn.resourcemanager.hostnamexx.xxx.x.xx命令:"cmd":"/opt/spark-2.2.0-bin-h

交到 apache-spark spark code INFO hadoop hadoop-yarn amazon-emr

java - 如何调整hadoop集群中的 "DataNode maximum Java heap size"

我在google中搜索以查找有关如何调整值的信息-DataNodemaximumJavaheapsize，除了这个-https://community.hortonworks.com/articles/74076/datanode-high-heap-size-alert.htmlhttps://docs.oracle.com/cd/E19900-01/819-4742/abeik/index.html但未找到计算DataNode最大Java堆大小值的公式DataNode最大Java堆大小的默认值为1G我们将这个值增加到5G，因为在某些情况下我们从数据节点日志中看到关于堆大小的错误但这

amp DataNode strong hortonworks https java hadoop ambari

java - 有没有webhdfs的Java接口(interface)从hadoop集群获取数据

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我想写一个hadoop集群外的项目，可以从集群中读取数据，但是office网站提供的文档只给出了“curl”的方法。有Java访问hadoop集群的接口(interface)吗？

interface webhdfs section class notice java hadoop

hadoop - 多节点hadoop集群安装推荐

安装Hadoop1.0的最佳方式是什么(无论是Apachehadoop还是CDH)？CDH似乎有某种安装管理器，但不知何故，经过几个小时的搜索后，我无法在Web上找到好的信息。我只找到有关伪模式安装的文档。最佳答案只需访问Cloudera地点。他们都有ClouderaManager免费，这是非常好的开始点和独立CDH包裹。他们也有完整的setofdocumentation例如此类产品每个版本的安装指南。当然，我会推荐Cloudera博客和官方ApacheHadoop站点文档，以便更好地理解。

hadoop 多 cloudera section noreferrer cluster-computing

java - 重命名 HDFS 上的文件在本地模式下有效，但在集群模式下无效

我有一个对象负责在HDFS上打开一个文件进行写入。一旦close()方法被调用，该对象就会重命名它刚刚写入的文件。该机制在本地模式下运行时有效，但在集群模式下无法重命名文件。//ConstructorpublicWriteStream(){path=String.format("in_progress/file");try{OutputStreamoutputStream=fileSystem.create(newPath(hdfs_path+path),newProgressable(){publicvoidprogress(){System.out.print(".");}});w

下有命名 section path hdfs_path java hadoop hdfs

Hadoop 迷你集群模拟 (MiniDFSCluster)

关于hadoop-minicluster我需要你的帮助我正在使用scala(使用sbt)并尝试模拟HDFS的调用。我播种hadoop-minicluster用于部署一个小集群并在其上进行测试。但是，当我添加sbt依赖时:libraryDependencies+="org.apache.hadoop"%"hadoop-minicluster"%"3.1.0"%测试没有添加源，我无法导入包org.apache.hadoop.hdfs.MiniDFSCluster你知道我怎么解决这个问题吗？谢谢你的回答最佳答案令人惊讶的是，它不在ha

MiniDFSCluster Hadoop section strong testing mocking sbt hdfs

hadoop - 我们可以在同一个 hadoop 集群中同时使用 Fair scheduler 和 Capacity Scheduler

我们可以在同一个hadoop集群中同时使用Fairscheduler和CapacityScheduler吗？哪个调度器是好的和有效的。谁能帮帮我？最佳答案我认为两者不能同时使用。这也没有意义。为什么要在同一个集群中使用这两种类型的调度？由于特定的用例，两种调度算法都出现了。Fairschedulingisamethodofassigningresourcestojobssuchthatalljobsget,onaverage,anequalshareofresourcesovertime.Whenthereisasinglejo

hadoop Scheduler section 的 mapreduce job-scheduling

hadoop - 如何设置集群中每个节点的 tasktracker 数量？

我看到我们可以设置每个tasktracker的map/reduce任务数量，但我如何设置集群中每个节点的tasktracker数量？如何关闭安全性以便我可以在每个节点上运行多个tasktracker？在hdfs-site.xml中将dfs.permissions设置为false就足够了吗？阿伦最佳答案为什么需要多个任务跟踪器？您可以根据您在tasktracker中设置的槽数运行多个作业。JobTracker与tasktracker对话以查找它在服务器上是否有任何空闲插槽(从数据所在的同一节点开始，如果没有则在其他地方)如果您有多

tasktracker hadoop section 跟踪器