草庐IT

hdfs_clusters

全部标签

hadoop - Hadoop 集群 kerberized 时无法访问 HDFS

我成功地对一个测试Hortonworks集群进行了Kerberized。Ambari为服务创建了key表,它们都已启动。名称节点有HA。备用名称节点启动速度快,事件名称节点需要更长的时间。NamenodeUI显示一切正确。可以使用kerberos登录。名称节点是nn1.zim.com和nn2.zim.com这个配置有什么问题?以hdfs身份登录,使用kinit-kt加载key表。在列表HDFS尝试中我得到这个错误:[root@nn1hdfs]#hdfsdfs-ls/18/12/0216:18:22WARNipc.Client:Exceptionencounteredwhileconne

hadoop - kafka connect - 使用 hdfs 接收器连接器的 ExtractTopic 转换抛出 NullPointerException

我正在使用confluenthdfssinkconnector5.0.0和kafka2.0.0,我需要使用ExtractTopic转换(https://docs.confluent.io/current/connect/transforms/extracttopic.html)。我的连接器工作正常,但是当我添加此转换时,我得到NullPointerException,即使是在只有2个属性的简单数据样本上也是如此。ERRORTaskhive-table-test-0threwanuncaughtandunrecoverableexception(org.apache.kafka.conn

hadoop - Apache Hadoop HDFS 能否帮助加快大型文件上传(通过网络浏览器)到服务器的速度?

据我所知,HadoopHDFS不能提高网络速度,但我在与一些人讨论时试图集思广益,讨论如何显着加快上传速度,有人说他们能够显着提高使用HDFS的上传速度。如果用户在LAN(100MBPS)上,当用户使用浏览器上传大于100GB的大文件时,HadoopHDFS是否可以通过某种方式帮助提高上传速度? 最佳答案 网络浏览器和网络服务器本身将成为瓶颈。与hadoopfs-copyFromLocal的直接数据节点编写器相比,他们必须在那个服务器上缓冲文件,然后上传到HDFSHUE(使用WebHDFS)以这种方式运行,我认为没有一种简单的方法可

hadoop - 让多个 reduce 任务组装一个 HDFS 文件作为输出

Hadoop中是否有任何低级API允许在不同机器上运行的多个reduce任务组装单个HDFS作为其计算输出?类似于,在作业开始时创建stubHDFS文件,然后每个reducer创建可变数量的数据block作为输出,并根据特定顺序将它们分配给该文件 最佳答案 答案是否定的,对于罕见的用例来说,这将是不必要的复杂化。你应该做什么选项1-在hadoop命令末尾添加一些代码intresult=job.waitForCompletion(true)?0:1;if(result==0){//statuscodeOK//lsjoboutputdi

linux - HDFS + 在 HDFS 文件夹到本地文件系统文件夹之间创建符号链接(symbolic link)

我用谷歌搜索但没有找到,是否可以在HDFS文件夹与本地文件夹之间创建链接?例子我们想在HDFS中的folder_1到/home/hdfs_mirror本地文件夹之间创建链接HDFS文件夹:suhdfs$hdfsdfs-ls/hdfs_home/folder_1Linux本地文件夹:ls/home/hdfs_mirror 最佳答案 我认为这是不可能的。这是因为我们在谈论两种不同的文件系统(HDFS和本地文件系统)。如果我们想继续将本地数据目录同步到HDFS目录,则需要使用ApacheFlume等工具。

hadoop - HDFS dfs 完整路径

如何在我的系统中找到HDFS存储的完整路径?例如我在hdfs存储上有/user/cloudera/文件夹,但是“/user/cloudera”的路径是什么?有没有具体的命令?HDFSdfs-ls和HDFSdfs-ls-R只返回目录列表,不返回路径。我的问题很独特,因为在here你最终没有得到HDFS路径。 最佳答案 如果您是HDFS管理员,您可以运行:hdfsfsck/user/cloudera-files-blocks-locations引用资料:HDFSCommandsGuide:fsckhdfsfileactualblockp

hadoop - 如何配置HDFS监听0.0.0.0

我有一个hdfs集群在192.168.50.1:9000上监听,这意味着它只接受通过该IP的连接。我希望它在0.0.0.0:9000上收听。当我在/etc/hosts中输入127.0.0.1localhostmaster时,它从127.0.0.1:9000开始,这会阻止所有节点连接。这个问题和这个问题很相似HowtomakeHadoopserverslisteningonallIPs,但对于hdfs,不是yarn。core-site.xml是否有类似yarn.resourcemanager.bind-host的等效设置或任何其他配置方式?如果不是,那么这背后的原因是什么?这是一项安全功

hadoop - 如何将数据目录从 hdfs 复制到本地 fs?

我从需要备份整个hadoopdatanode数据目录开始,使用:hdfsdfs-copyToLocal/var/hadoop/dfs/name/data/home/ubuntu/hadoopfiles我得到一个错误:"Nosuchfileoprdirectory"for/var/hadoop/dfs/name/data经过一番搜索后,我找到了这个带有示例的StackOverflow主题:https://stackoverflow.com/questions/28213116/hadoop-copy-a-local-file-system-folder-to-hdfs#=但即使我这样做了

hadoop - 如何使用 Pyspark - Hadoop HDP 2.6.6 将 hdfs 文件与 Wand 一起用于图像转换

我正在尝试将pdf文件转换为图像,然后使用pytesseract对文件进行ocr。我能够在linux本地路径中存在的文件上成功完成此操作,但没有使用hdfs路径。fromwand.imageimportImageaswi>>>wi(filename='hdfs://boboda02.boobo.com:8020/bda/clamsops/raw/personal_brella_test/09_29_2015_090902.pdf',resolution=300)Traceback(mostrecentcalllast):File"",line1,inFile"/home/sam/my_

mysql - 将 mysql 数据导入 HDFS 时出现异常

我正在尝试将MySQL数据导入HDFS,但出现异常。Ihaveatable(products)inMYSQLandIamusingthefollowingcommandtoimportdataintoHDFS.bin/sqoop-import--connectjdbc:mysql://localhost:3306/test--usernameroot--passwordroot--tableproducts--target-dir/user/nitin/productsIamgettingthefollowingexception:Error:java.io.IOException:S