hdfs_草庐IT

hadoop - 让多个 reduce 任务组装一个 HDFS 文件作为输出

Hadoop中是否有任何低级API允许在不同机器上运行的多个reduce任务组装单个HDFS作为其计算输出？类似于，在作业开始时创建stubHDFS文件，然后每个reducer创建可变数量的数据block作为输出，并根据特定顺序将它们分配给该文件最佳答案答案是否定的，对于罕见的用例来说，这将是不必要的复杂化。你应该做什么选项1-在hadoop命令末尾添加一些代码intresult=job.waitForCompletion(true)?0:1;if(result==0){//statuscodeOK//lsjoboutputdi

linux - HDFS + 在 HDFS 文件夹到本地文件系统文件夹之间创建符号链接(symbolic link)

我用谷歌搜索但没有找到，是否可以在HDFS文件夹与本地文件夹之间创建链接？例子我们想在HDFS中的folder_1到/home/hdfs_mirror本地文件夹之间创建链接HDFS文件夹:suhdfs$hdfsdfs-ls/hdfs_home/folder_1Linux本地文件夹:ls/home/hdfs_mirror 最佳答案我认为这是不可能的。这是因为我们在谈论两种不同的文件系统(HDFS和本地文件系统)。如果我们想继续将本地数据目录同步到HDFS目录，则需要使用ApacheFlume等工具。

HDFS symbolic section strong linux hadoop

hadoop - HDFS dfs 完整路径

如何在我的系统中找到HDFS存储的完整路径？例如我在hdfs存储上有/user/cloudera/文件夹，但是“/user/cloudera”的路径是什么？有没有具体的命令？HDFSdfs-ls和HDFSdfs-ls-R只返回目录列表，不返回路径。我的问题很独特，因为在here你最终没有得到HDFS路径。最佳答案如果您是HDFS管理员，您可以运行:hdfsfsck/user/cloudera-files-blocks-locations引用资料:HDFSCommandsGuide:fsckhdfsfileactualblockp

hadoop HDFS section noreferrer cloudera

hadoop - 如何配置HDFS监听0.0.0.0

我有一个hdfs集群在192.168.50.1:9000上监听，这意味着它只接受通过该IP的连接。我希望它在0.0.0.0:9000上收听。当我在/etc/hosts中输入127.0.0.1localhostmaster时，它从127.0.0.1:9000开始，这会阻止所有节点连接。这个问题和这个问题很相似HowtomakeHadoopserverslisteningonallIPs，但对于hdfs，不是yarn。core-site.xml是否有类似yarn.resourcemanager.bind-host的等效设置或任何其他配置方式？如果不是，那么这背后的原因是什么？这是一项安全功

hadoop HDFS code section noreferrer

hadoop - 如何将数据目录从 hdfs 复制到本地 fs？

我从需要备份整个hadoopdatanode数据目录开始，使用:hdfsdfs-copyToLocal/var/hadoop/dfs/name/data/home/ubuntu/hadoopfiles我得到一个错误:"Nosuchfileoprdirectory"for/var/hadoop/dfs/name/data经过一番搜索后，我找到了这个带有示例的StackOverflow主题:https://stackoverflow.com/questions/28213116/hadoop-copy-a-local-file-system-folder-to-hdfs#=但即使我这样做了

hadoop hdfs section blockquote get

hadoop - 如何使用 Pyspark - Hadoop HDP 2.6.6 将 hdfs 文件与 Wand 一起用于图像转换

我正在尝试将pdf文件转换为图像，然后使用pytesseract对文件进行ocr。我能够在linux本地路径中存在的文件上成功完成此操作，但没有使用hdfs路径。fromwand.imageimportImageaswi>>>wi(filename='hdfs://boboda02.boobo.com:8020/bda/clamsops/raw/personal_brella_test/09_29_2015_090902.pdf',resolution=300)Traceback(mostrecentcalllast):File"",line1,inFile"/home/sam/my_

Pyspark hadoop code section pre pdf image-processing wand

mysql - 将 mysql 数据导入 HDFS 时出现异常

我正在尝试将MySQL数据导入HDFS，但出现异常。Ihaveatable(products)inMYSQLandIamusingthefollowingcommandtoimportdataintoHDFS.bin/sqoop-import--connectjdbc:mysql://localhost:3306/test--usernameroot--passwordroot--tableproducts--target-dir/user/nitin/productsIamgettingthefollowingexception:Error:java.io.IOException:S

时出 mysql java MysqlIO hadoop sqoop

hadoop - 无法在 HDFS "datanode"中写入数据 - 节点已添加到排除列表中

我在同一个jvm中运行“namenode”和“datanode”，当我尝试写入数据时出现以下异常org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy$NotEnoughReplicasException:在org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseRandom(BlockPlacementPolicyDefault.java:836)在org.apache.hadoop.hdfs.serve

amp datanode BlockPlacementPolicyDefault hadoop apache hdfs

hadoop - Flume HDFS 接收器写入错误 "no protocol: value"

尝试运行flume作业时出现以下错误。我在cloudera设置上运行它。Kafka是源Morphline用作拦截器，并从中创建avro记录。接收器是HDFS测试环境中的完全相同的文件(morphline、avro模式等、flume配置)。但是在另一个环境中它会抛出这个错误。2019-07-1514:24:17,669WARNorg.apache.flume.sink.hdfs.BucketWriter:CaughtIOExceptionwritingtoHDFSWriter(noprotocol:value).Closingfile(hdfs://8.8.8.8:8020/user/h

amp protocol java flume BucketWriter hadoop hdfs

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

我已经在AmazonEC2上使用NameNode/DataNode和其他一些服务设置了一个Hadoop集群。我的摄取工作将数据带入EC2HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有一个每周批量运行的管道。我正在启动一个新的AmazonEMR集群来运行我的计算。处理完成后，我将终止EMR集群。需要在EMR中运行的我的spark作业的输入位于EC2HDFS(hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问它？我相信在EMR集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。最佳答案

amazon-web-services HDFS section code apache-spark hadoop amazon-ec2