草庐IT

hdfs_rtp

全部标签

hadoop - 集群配置和hdfs

我正在尝试按照本教程配置我的集群-https://developer.yahoo.com/hadoop/tutorial/module2.htmlfs.default.namehdfs://192.168.71.128:9000dfs.data.dir/home/hadoop-user/hdfs/datadfs.name.dir/home/hadoop-user/hdfs/name我还使用以下命令将本地文件复制到/user/prema/hadoop-user@hadoop-desk:~/hadoop$bin/hadoopdfs-put/home/hadoop-user/googlebo

mongodb - 将 HDFS 数据移动到 MongoDB

我正在尝试将HDFS数据移动到MongoDB。我知道如何使用sqoop将数据导出到mysql。我认为我不能将sqoop用于MongoDb。我需要帮助了解如何做到这一点。 最佳答案 本节将使用MongoOutputFormat类从HDFS实例加载数据进入MongoDB集合。Gettingready开始使用MongoHadoop适配器的最简单方法是克隆Mongo-Hadoop来自GitHub的项目并构建为特定版本的Hadoop配置的项目。一个Git必须安装客户端才能克隆此项目。本节假设您使用的是Hadoop的CDH3发行版。官方Git客

hadoop - 如何使用 Flume 在源上执行预处理并在 hdfs 接收器中保留真实文件名

我是ApacheFlume的新手,我很难理解它的确切工作原理。为了说明我的问题,所以我说明了我的需求和我做了什么。我想在csv文件目录(这些文件每5分钟构建一次)和HDFS集群之间配置一个流。我确定“假脱机目录”源和HDFS接收器是我需要的。那就是给我这个flume.conf文件agent.sources=seqGenSrcagent.channels=memoryChannelagent.sinks=hdfsSink#Foreachoneofthesources,thetypeisdefinedagent.sources.seqGenSrc.type=spooldiragent.so

Spring-xd 不会在 HDFS 上写入来自 Twitter 的流

我正在写我的期末论文,但我对Spring-xd有疑问:我从我的xd-shell运行:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|log"--deploy而且它有效。我的xd-singlenode向我显示推文。但是当我尝试在HDFS上写入时:streamcreate--namecyrustweets--definition"twitterstream--track='mileycyrus,mileycyrus'|hdfs"--deployxd-singleno

hadoop - hdfs fsck 显示错误的复制因子

我刚开始使用Hadoop并且一直在尝试使用它。我用谷歌搜索了一下,发现我必须更改hdfs-site.xml中的属性更改默认复制因子...这就是我所做的,老实说奇迹般有效。当我添加新文件时,它们将自动与新的复制因子。但是当我做类似的事情时:hdfsfsck/然后输出显示默认复制为1。我可能只是对它迂腐。但我宁愿把它修好……或者我应该说。我一直依赖于那个输出,因此我花了很长时间才意识到没有错......或者也许有有什么问题吗?有人可以帮助解释该fsck输出。..Status:HEALTHYTotalsize:1375000000BTotaldirs:1Totalfiles:2Totalsy

hadoop - 不正确的 HDFS 文件 URL

我试图访问HDFS中存在的文件(位置:/user/input/UsageSummary.txt)。我不确定该文件的URL是什么。我试过这个网址,但没有用:hdfs://127.0.0.1:9000/user/input/UsageSummary.txt即使我尝试了这些,但都没有用:hdfs://localhost:9000/user/input/UsageSummary.txthdfs://localhost/user/input/UsageSummary.txt请告诉我如何找到正确的URL。编辑这是core-site.xml文件的内容:fs.default.namehdfs://lo

hadoop - HDFS 中的压缩文件提取

我在HDFS中上传了一个.gz文件,我正在尝试提取该文件的内容并将其放入HDFS的同一目录中。这是我试过的代码:finalStringuri="hdfs://localhost:8020/user/input1/output.gz";Pathpt=newPath(uri);FileSystemfs=FileSystem.get(newConfiguration());Configurationconf=newConfiguration();CompressionCodecFactoryfactory=newCompressionCodecFactory(conf);Compressio

hadoop - 通过 Hue 更新 HDFS 中的文件

我知道HDFS是一次写入多次读取类型。据我所知,不可能在HDFS中(随机地)更新文件,因为文件存储在分布式环境中(作为block),每个block都复制在其他节点上,这对于数据节点来说很难更新,即使是这些复制的block.但是,我的问题是可以使用hue工具更新HDFS中的文件吗?因为,我已经使用hue工具更新了许多文件(存储在HDFS中)并在其上运行了map-reduce作业。那么,hue怎么可能更新HDFS中的文件呢。hue是否在后台执行某些操作?通过hue进行的更新是否真的更新到同一个文件?或者hue删除文件并重新写入整个文件(包括我们要更新的新数据)?

python - 使用带有子进程、管道、Popen 的 python 从 hdfs 读取/写入文件给出错误

我正在尝试在python脚本中读取(打开)和写入hdfs中的文件。但是有错误。谁能告诉我这里出了什么问题。代码(完整):sample.py#!/usr/bin/pythonfromsubprocessimportPopen,PIPEprint"BeforeLoop"cat=Popen(["hadoop","fs","-cat","./sample.txt"],stdout=PIPE)print"AfterLoop1"put=Popen(["hadoop","fs","-put","-","./modifiedfile.txt"],stdin=PIPE)print"AfterLoop2"

hadoop - 如何将子目录中的文件复制到 HDFS 中的单个目录

我在Impala中有一个由两列分区的外部表,因此在您访问实际数据文件之前,HDFS目录有两级目录。该表在元存储中已损坏,无法查询。我只想将单个(~10k)文件复制到一个目录中,这样我就可以删除损坏的表,删除现有目录,然后使用Impala中的LOADDATAINTO表查询将数据运行回表中。问题是我找不到只复制文件的方法,因为加载数据不支持子目录加载,所以它们最终都在一个目录中。结构如下:我的根我的sub1a我的sub2a文件1.txt文件2.txt在mysub1和mysub2级别有数百个目录我已经能够获得正确的文件列表:hadoopfs-lsr/我的根/|grep.parq但我不知道如何