hdfs_rtp

hadoop - 通过 WebHDFS API 对 HDFS 进行用户访问控制

是否可以在HDFS的文件级别进行用户访问控制？目前，每个人都可以通过点击像http:///webhdfs/v1/xxx.txt?op=OPEN这样的链接来访问数据。.我可以设置特定的人群，他们只能访问特定的文件或目录吗？目的是不让其他人访问不属于他们的文件。如果不能在HDFS上设置，有什么建议吗？最佳答案当安全关闭时，经过身份验证的用户是在user.name查询参数中指定的用户名。如果未设置user.name参数，服务器可能会将经过身份验证的用户设置为默认Web用户(如果有)，或者返回错误响应。启用安全性后，身份验证由Hadoo

rest - 是否可以构建查询HDFS数据的REST接口(interface)？

我们目前正在对我们的HDFS集群执行各种转换。作为堆栈的新手，我被告知转换后的数据以容器的形式以二进制格式存储。目前，查询此数据的唯一方法是通过CLI通过密集命令。我的问题是——是否可以构建一个RESTful接口(interface)来搜索这些容器中的数据？解密后的数据为JSON格式。我这样做的原因是为了扩展测试——如果我可以以可读、可解析的格式(而不是二进制)检索数据，我就可以创建可以根据更新触发的自动测试Hook。然后可以轻松地根据源验证更改。最佳答案一切皆有可能™“以容器的形式”是很不明确的。“容器”意味着很多东西——YA

interface rest section 容器 stackoverflow hadoop hdfs

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表)，但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

amp hadoop plantoutput code section hive hdfs

hadoop - Hadoop 集群 kerberized 时无法访问 HDFS

我成功地对一个测试Hortonworks集群进行了Kerberized。Ambari为服务创建了key表，它们都已启动。名称节点有HA。备用名称节点启动速度快，事件名称节点需要更长的时间。NamenodeUI显示一切正确。可以使用kerberos登录。名称节点是nn1.zim.com和nn2.zim.com这个配置有什么问题？以hdfs身份登录，使用kinit-kt加载key表。在列表HDFS尝试中我得到这个错误:[root@nn1hdfs]#hdfsdfs-ls/18/12/0216:18:22WARNipc.Client:Exceptionencounteredwhileconne

kerberized hadoop com zim section hdfs kerberos ambari

hadoop - kafka connect - 使用 hdfs 接收器连接器的 ExtractTopic 转换抛出 NullPointerException

我正在使用confluenthdfssinkconnector5.0.0和kafka2.0.0，我需要使用ExtractTopic转换(https://docs.confluent.io/current/connect/transforms/extracttopic.html)。我的连接器工作正常，但是当我添加此转换时，我得到NullPointerException，即使是在只有2个属性的简单数据样本上也是如此。ERRORTaskhive-table-test-0threwanuncaughtandunrecoverableexception(org.apache.kafka.conn

NullPointerException ExtractTopic connect code transforms hadoop apache-kafka apache-kafka-connect

hadoop - Apache Hadoop HDFS 能否帮助加快大型文件上传(通过网络浏览器)到服务器的速度？

据我所知，HadoopHDFS不能提高网络速度，但我在与一些人讨论时试图集思广益，讨论如何显着加快上传速度，有人说他们能够显着提高使用HDFS的上传速度。如果用户在LAN(100MBPS)上，当用户使用浏览器上传大于100GB的大文件时，HadoopHDFS是否可以通过某种方式帮助提高上传速度？最佳答案网络浏览器和网络服务器本身将成为瓶颈。与hadoopfs-copyFromLocal的直接数据节点编写器相比，他们必须在那个服务器上缓冲文件，然后上传到HDFSHUE(使用WebHDFS)以这种方式运行，我认为没有一种简单的方法可

大型 hadoop section HDFS strong

hadoop - 让多个 reduce 任务组装一个 HDFS 文件作为输出

Hadoop中是否有任何低级API允许在不同机器上运行的多个reduce任务组装单个HDFS作为其计算输出？类似于，在作业开始时创建stubHDFS文件，然后每个reducer创建可变数量的数据block作为输出，并根据特定顺序将它们分配给该文件最佳答案答案是否定的，对于罕见的用例来说，这将是不必要的复杂化。你应该做什么选项1-在hadoop命令末尾添加一些代码intresult=job.waitForCompletion(true)?0:1;if(result==0){//statuscodeOK//lsjoboutputdi

hadoop reduce section strong hdfs

linux - HDFS + 在 HDFS 文件夹到本地文件系统文件夹之间创建符号链接(symbolic link)

我用谷歌搜索但没有找到，是否可以在HDFS文件夹与本地文件夹之间创建链接？例子我们想在HDFS中的folder_1到/home/hdfs_mirror本地文件夹之间创建链接HDFS文件夹:suhdfs$hdfsdfs-ls/hdfs_home/folder_1Linux本地文件夹:ls/home/hdfs_mirror 最佳答案我认为这是不可能的。这是因为我们在谈论两种不同的文件系统(HDFS和本地文件系统)。如果我们想继续将本地数据目录同步到HDFS目录，则需要使用ApacheFlume等工具。

HDFS symbolic section strong linux hadoop

hadoop - HDFS dfs 完整路径

如何在我的系统中找到HDFS存储的完整路径？例如我在hdfs存储上有/user/cloudera/文件夹，但是“/user/cloudera”的路径是什么？有没有具体的命令？HDFSdfs-ls和HDFSdfs-ls-R只返回目录列表，不返回路径。我的问题很独特，因为在here你最终没有得到HDFS路径。最佳答案如果您是HDFS管理员，您可以运行:hdfsfsck/user/cloudera-files-blocks-locations引用资料:HDFSCommandsGuide:fsckhdfsfileactualblockp

hadoop HDFS section noreferrer cloudera

hadoop - 如何配置HDFS监听0.0.0.0

我有一个hdfs集群在192.168.50.1:9000上监听，这意味着它只接受通过该IP的连接。我希望它在0.0.0.0:9000上收听。当我在/etc/hosts中输入127.0.0.1localhostmaster时，它从127.0.0.1:9000开始，这会阻止所有节点连接。这个问题和这个问题很相似HowtomakeHadoopserverslisteningonallIPs，但对于hdfs，不是yarn。core-site.xml是否有类似yarn.resourcemanager.bind-host的等效设置或任何其他配置方式？如果不是，那么这背后的原因是什么？这是一项安全功

hadoop HDFS code section noreferrer

115 116 117118119 120 121