Hadoop 客户端和集群分离

coder 2024-01-07 原文

我是 hadoop 的新手，也是 linux 的新手。我的教授要求我们使用端口映射或 VPN 将 Hadoop 客户端和集群分开。我不明白这种分离的意义。谁能给我一个提示？

现在我明白了集群客户端分离的想法。我认为需要在客户端机器上安装hadoop。当客户端提交一个 hadoop 作业时，它被提交给集群的主人。

还有一些天真的想法:

1.创建客户端机器并安装hadoop。

2.设置fs.default.name为hdfs://master:9000

3.设置dfs.namenode.name.dir为file://master/home/hduser/hadoop_tmp/hdfs/namenode 是否正确？

4.然后不知道怎么设置dfs.namenode.name.dir等配置

5.我认为主要的想法是设置配置文件使作业在hadoop集群中运行，但我没有不知 Prop 体怎么做。

最佳答案

首先..这个链接有关于客户端如何与namenode通信的详细信息

http://www.informit.com/articles/article.aspx?p=2460260&seqNum=2

据我了解，您的教授希望有一个单独的节点作为客户端，您可以从中运行 hadoop 作业，但该节点不应该是 hadoop 集群的一部分。

考虑这样一种情况，您必须从客户端计算机提交 Hadoop 作业，而客户端计算机不是现有 Hadoop 集群的一部分。预计该作业将在 Hadoop 集群上执行。

Namenode和Datanode组成Hadoop Cluster，Client向Namenode提交作业。为此，客户端应具有与 Namenode 上相同的 Hadoop 分发和配置副本。然后只有Client会知道Job tracker在哪个节点上运行，以及访问HDFS数据的Namenode的IP。

在Namenode上完成配置，

core-site.xml 将具有此属性-

<code><property></code>
        <code><name>fs.default.name</name></code>
        <code><value>192.168.0.1:9000</value></code>
<code></property></code>

mapred-site.xml 将具有此属性-

<code><property></code>
      <code><name>mapred.job.tracker</name></code>
      <code><value>192.168.0.1:8021</value></code>
 <code></property></code>

这是必须复制到客户端机器的 Hadoop 配置中的两个重要属性。并且您需要在 mapred-site.xml 文件中设置一个附加属性，以克服 Privileged Action Exception。

<code><property></code>
      <code><name>mapreduce.jobtracker.staging.root.dir</name></code>
      <code><value>/user</value></code>
<code></property></code>

您还需要使用名称节点和数据节点的 IP 地址和主机名更新客户端计算机的/ets/hosts。

现在您可以使用 hadoop jar 命令从客户端机器提交作业，作业将在 Hadoop 集群上执行。请注意，您不应在客户端计算机上启动任何 hadoop 服务。

关于Hadoop 客户端和集群分离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35314130/

Hadoop 客户端 code gt lt cluster-computing vpn hadoop2

有关Hadoop 客户端和集群分离的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 在 TCPServer (Ruby) 中，我如何从客户端获取 IP/MAC？ - 2
我想在Ruby的TCPServer中获取客户端的IP地址。以及(如果可能的话)MAC地址。例如，Ruby中的时间服务器，请参阅评论。tcpserver=TCPServer.new("",80)iftcpserverputs"Listening"loopdosocket=tcpserver.acceptifsocketThread.newdoputs"Connectedfrom"+#HERE!HowcanigettheIPAddressfromtheclient?socket.write(Time.now.to_s)socket.closeendendendend非常感谢!
ruby-on-rails - 为什么我必须在使用客户验证器后重新加载 rspec 中的记录？ - 2
我有一个模型User，它在创建后的回调中创建了选项#Userhas_one:user_optionsafter_create:create_optionsprivatedefcreate_optionsUserOptions.create(user:self)end我对此有一些简单的Rspec覆盖:describe"newuser"doit"createsuser_optionsaftertheuseriscreated"douser=create(:user)user.user_options.shouldbe_kind_of(UserOptions)endend一切正常，直到我将自
ruby - 如何获得带有 SSL 客户端证书的 HTTPS 请求以与 Ruby EventMachine 一起使用？ - 2
我正在尝试使用RubyEventMachine访问使用SSL证书身份验证的HTTPSWeb服务，但我没有让它工作。我编写了以下简单代码块来对其进行端到端测试:require'rubygems'require'em-http'EventMachine.rundourl='https://foobar.com/'ssl_opts={:private_key_file=>'/tmp/private.key',:cert_chain_file=>'/tmp/ca.pem',:verify_peer=>false}http=EventMachine::HttpRequest.new(url).g
ruby-on-rails - 在 Ruby on Rails 应用程序中使用客户端 SSL - 2
我正在为需要与API建立SSL连接的客户端开发应用程序。我得到了三个文件；一个信任根证书(.cer)文件、一个中间证书(.cer)文件和一个签名的响应文件。我得到的安装说明与IIS或Javakeytool程序有关；我正在用RubyonRails构建应用程序，所以这两种方法都不是一个选项(据我所知)。证书由运行API服务的组织自签名，看来我获得了客户端证书以相互验证https连接。我不确定如何使用我的应用程序中的证书连接和使用API签名响应文件的作用我读过"Usingaself-signedcertificate"和thisarticleonOpenSSLinRuby但两者似乎都不是很到
ruby - 为什么这个启用 SSL 的 Ruby 服务器/客户端测试有效？ - 2
我正在努力在Ruby中创建启用SSL的服务器，以及与服务器一起使用的相应Ruby客户端。为了进行测试，我使用以下命令创建了自己的根CA证书。$:~/devel/ssl-test/ssl/CA$opensslgenrsa-outTestCA.key2048GeneratingRSAprivatekey,2048bitlongmodulus............+++...........................+++eis65537(0x10001)$:~/devel/ssl-test/ssl/CA$opensslreq-new-keyTestCA.key-outTestCA.
【详解】Docker安装Elasticsearch7.16.1集群 - 2
开门见山|拉取镜像dockerpullelasticsearch:7.16.1|配置存放的目录#存放配置文件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/config#存放数据的文件夹mkdir-p/opt/docker/elasticsearch/node-1/data#存放运行日志的文件夹mkdir-p/opt/docker/elasticsearch/node-1/log#存放IK分词插件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/plugins若你使用了moba，直接右键新建即可如上图所示依次类推创建
企业大数据发展面临问题之存算分离技术思考 - 2
文章目录概述背景为何要存算分离优势**应用场景**存算分离产品技术流派华为JuiceFSHashDataXSKY概述背景Hadoop一出生就是奔存算一体设计，当时设计思想就是存储不动而计算(code也即是代码程序)动，负责调度Yarn会把计算任务尽量发到要处理数据所在的实例上，这也是与传统集中式存储最大的不同。为何当时Hadoop设计存算一体的耦合？要知道2006年服务器带宽只有100Mb/s~1Gb/s,但是HDD也即是磁盘吞吐量有50MB/s，这样带宽远远不够传输数据，网络瓶颈尤为明显，无奈之举只好把计算任务发到数据所在的位置。众观历史常言道天下分久必合合久必分，随着云计算技术的发展，数据
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - 在处理电子邮件回复时，我怎样才能忽略任何电子邮件客户端细节和历史记录？ - 2
我有一个通过IMAP处理传入电子邮件的Rails应用程序。当前使用一种方法来搜索TMail对象的各个部分以查找给定的content_type:defself.search_parts_for_content_type(parts,content_type='text/html')parts.eachdo|part|ifpart.content_type==content_typereturnpart.bodyelseifpart.multipart?ifbody=self.search_parts_for_content_type(part.parts,content_type)ret

Hadoop 客户端和集群分离

有关Hadoop 客户端和集群分离的更多相关文章

随机推荐