草庐IT

hadoop - 从另一个运行 Spark 的 Docker 容器写入在 Docker 中运行的 HDFS

coder 2024-01-06 原文

我有一个 spark + jupyter 的 docker 镜像 ( https://github.com/zipfian/spark-install )

我有另一个 hadoop 的 docker 镜像。 ( https://github.com/kiwenlau/hadoop-cluster-docker )

我在 Ubuntu 中运行来自上述 2 个图像的 2 个容器。 对于第一个容器: 我能够成功启动 jupyter 并运行 python 代码:

   import pyspark
   sc = pyspark.sparkcontext('local[*]')
   rdd = sc.parallelize(range(1000))
   rdd.takeSample(False,5)

对于第二个容器:

在主机Ubuntu操作系统中,我能够成功进入

  • web browser localhost:8088 : 并浏览Hadoop所有应用
  • localhost:50070: 并浏览 HDFS 文件系统。

现在我想从 jupyter(在第一个容器中运行)写入 HDFS 文件系统(在第二个容器中运行)。

所以我添加了额外的行

rdd.saveAsTextFile("hdfs:///user/root/input/test")

我得到错误:

HDFS URI,无主机:hdfs:///user/root/input/test

我提供的 hdfs 路径不正确吗?

我的理解是,我应该能够从另一个运行 spark 的容器与运行 hdfs 的 docker 容器通信。我错过了什么吗?

感谢您的宝贵时间。

我还没有尝试过 docker compose。

最佳答案

URI hdfs:///user/root/input/test 缺少权限(主机名)部分和端口。要写入另一个容器中的 hdfs,您需要完全指定 URI 并确保两个容器位于同一网络上,并且 HDFS 容器具有公开的名称节点和数据节点的端口。

例如,您可能已将 HDFS 容器的主机名设置为 hdfs.container。然后,您可以使用 URI hdfs://hdfs.container:8020/user/root/input/test 写入该 HDFS 实例(假设 Namenode 在 8020 上运行)。当然,您还需要确保您要写入的路径也具有正确的权限。

所以做你想做的:

  • 确保您的 HDFS 容器公开了名称节点和数据节点端口。您可以使用 dockerfile 中的 EXPOSE 指令(您链接的容器没有这些指令)或在调用 docker run< 时使用="">--expose 参数来执行此操作。默认端口为 8020 和 50010(分别用于 NN 和 DN)。
  • 在同一网络上启动容器。如果你只是执行 docker run 而没有 --network 它们将在默认网络上启动,你会没事的。使用 --name 参数启动具有特定名称的 HDFS 容器。
  • 现在修改您的 URI 以包括适当的权限(这将是您传递的 docker --name 参数的值)和端口,如上所述,它应该可以工作

关于hadoop - 从另一个运行 Spark 的 Docker 容器写入在 Docker 中运行的 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46613603/

有关hadoop - 从另一个运行 Spark 的 Docker 容器写入在 Docker 中运行的 HDFS的更多相关文章

  1. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  2. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  3. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

  4. Ruby 写入和读取对象到文件 - 2

    好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信

  5. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

    如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

  6. ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串? - 2

    关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?

  7. ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2

    我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案

  8. ruby - 用 Ruby 编写一个简单的网络服务器 - 2

    我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b

  9. ruby - 一个 YAML 对象可以引用另一个吗? - 2

    我想让一个yaml对象引用另一个,如下所示:intro:"Hello,dearuser."registration:$introThanksforregistering!new_message:$introYouhaveanewmessage!上面的语法只是它如何工作的一个例子(这也是它在thiscpanmodule中的工作方式。)我正在使用标准的ruby​​yaml解析器。这可能吗? 最佳答案 一些yaml对象确实引用了其他对象:irb>require'yaml'#=>trueirb>str="hello"#=>"hello"ir

  10. ruby - Rails 关联 - 同一个类的多个 has_one 关系 - 2

    我的问题的一个例子是体育游戏。一场体育比赛有两支球队,一支主队和一支客队。我的事件记录模型如下:classTeam"Team"has_one:away_team,:class_name=>"Team"end我希望能够通过游戏访问一个团队,例如:Game.find(1).home_team但我收到一个单元化常量错误:Game::team。谁能告诉我我做错了什么?谢谢, 最佳答案 如果Gamehas_one:team那么Rails假设您的teams表有一个game_id列。不过,您想要的是games表有一个team_id列,在这种情况下

随机推荐