hdfs_rtp

hadoop - 在 HDFS 文件的一部分上运行 MR 作业

假设您有一个存储在hdtf中的大文件，其中包含结构化数据。现在的目标是只处理文件中的一部分数据，就像文件中第二列值介于某某之间的所有行一样。是否可以启动MR作业，以便hdfs仅流式传输文件的相关部分，而不是将所有内容流式传输到映射器。原因是我想通过只处理我需要的部分来加快工作速度。可能一种方法是运行MR作业来创建新文件，但我想知道是否可以避免这种情况？请注意，我的目标是将数据保存在HDFS中，我不想从数据库中读取和写入数据。最佳答案 HDFS将文件存储为block中的一堆字节，没有索引，因此无法只读入文件的一部分(至少在撰写本文时

bash - 如何让 HBase 等到 HDFS 准备好后才开始？

我正在为Hadoop构建一个自动安装脚本，我遇到了HBase无法启动的问题，因为HDFS尚未完全启动和准备就绪。我如何以编程方式(理想情况下来自Bash)判断HDFS系统是否已准备好启动HBase，以便我可以等到它启动？我尝试使用“hadoopdfsadmin-report”并搜索正确数量的节点，但显然在集群真正准备好开展业务之前，它仍会返回。最佳答案使用hadoopdfsadmin-safemodewait检查HDFS是否已经退出安全模式。像这样的东西应该可以解决问题:while$HADOOP_HOME/bin/hadoopd

HBase bash section code strong hadoop hdfs

hadoop - HDFS如何删除 block ？

我是Hadoop新手。部署后，我运行了基准测试，$hadoopjarhadoop-0.20.0-test.jarTestDFSIO-write-nrFiles1000-fileSize10。完成工作后，我查看了集群摘要，假设有1000个文件和目录，1000个block=总共2000个。然后我使用shellcmd删除相应的文件。那么ClusterSummary是:0个文件和目录1000个block=总共1000个。我认为删除后ClusterSummary中应该没有文件和block。但实际情况是:在我问这个问题之前是1000个区block。但是现在有0个block。这怎么会发生？

hadoop block section 1000 hdfs

hadoop - 如何通过sqoop从sql server导入表到hdfs

我已经安装了hadoop、hive、sqoop。我将表从我的数据库导入到hdfs但无法将其导入配置单元。我需要在配置单元中配置任何文件吗？另外，当我浏览网页时，会显示MySQL的配置，但我使用的是驱动程序jdbc:sqlserver。任何人都请帮助我，因为我已经坚持了很多天了。最佳答案 jdbc:mysql用于mysql，它不适用于sqlserver，我已经尝试使用它，但它给出了错误。我已经尝试了以下命令并且效果很好。命令——导入从数据库表复制数据到HDFS文件系统在下面的示例中，我们的数据库和hdfs配置为:服务器名称:-lab

hadoop server section sqlserver sqoop hive

hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

我写了一个perl脚本，其中调用了copyFromLocal来上传文件。当它运行时，WARNipc.Client:interruptedwaitingtosendparamstoserver发生。我检查了刚刚上传的HDFS上的所有文件。看来都复制成功了。谁知道那个警告是什么意思？完整的警告信息12/10/2311:41:07WARNipc.Client:interruptedwaitingtosendparamstoserverjava.lang.InterruptedExceptionatjava.util.concurrent.locks.AbstractQueuedSynchro

interrupted to java apache hadoop hdfs

hadoop - 将整个 HDFS 从一个集群转移到另一个集群

我在具有5个节点的测试集群上的HDFS中存储了很多配置单元表。数据应约为70Gb*3(复制)。不，我想将整个设置转移到具有更多节点的不同环境。两个集群之间的网络连接是不可能的。问题是我没有太多时间使用新集群，也没有可能使用其他测试环境测试传输。因此我需要一个可靠的计划。:)我有哪些选择？如何在新集群上以最少的配置工作转移配置单元设置？是否可以只将5个节点的hdfs目录复制到新集群的5个节点，然后将其余节点添加到新集群并启动平衡器？最佳答案没有网络连接，这将很棘手!我愿意将文件从HDFS复制到某种可移动存储设备(USB内存棒、外部

hadoop HDFS 新集 section 配置单 hive

Java/Scala 远程 HDFS 使用

我正在尝试连接到远程HDFS集群。我已经阅读了一些文档并开始使用，但没有找到如何做到这一点的最佳解决方案。情况:我在xxx-something.com上有HDFS。我可以通过SSH连接到它，一切正常。但我想做的是，将文件从它获取到我的本地机器。我做了什么:我已经在我的conf文件夹中创建了core-site.xml(我正在创建Play!应用程序)。我已经将fs.default.name配置更改为hdfs://xxx-something.com:8020(不确定端口)。然后我尝试启动一个简单的测试:valconf=newConfiguration()conf.addResource(ne

Scala Java hadoop apache hdfs

hadoop - 将数据从网站加载到 hdfs

我需要上传存在于网络链接中的数据，例如“博客”到hdfs。现在我正在寻找完成这个的选项可以找到下面的链接:http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/但是通过阅读flume文档，我不清楚如何设置flume源指向博客内容所在的网站。根据我对fluem文档的理解，需要有一个网络服务器，我需要在其中部署一个应用程序，然后将生成网络日志，这些日志将由flume传输到hdfs。但我不想要Web服务器日志，实际上我正在寻找博客内容(即所有数据+博客上的评论，如果有的话)这是一种非结构化数据，然后我

hadoop hdfs strong section noreferrer

hadoop - 将 HDFS 数据写入外部磁盘/磁带

我在HDFS上有1TB的数据。我的本地磁盘上没有那么多空间来将数据传输到本地。有什么方法可以将HDFS数据直接写入外接硬盘吗？最佳答案如果磁盘映射到你的机器上，你应该可以使用-get命令来完成它关于hadoop-将HDFS数据写入外部磁盘/磁带，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/16185610/

hadoop HDFS section stackoverflow questions

hadoop - 如何检查hdfs上的分布式数据

我们知道，Hadoop将数据复制到hdfs中的多个数据节点上，有没有命令可以查看分布在不同节点上的数据。最佳答案我想你可能正在寻找这个命令hdfsfsck/hdfs/path/to/data-files-blocks-locations您会收到如下所示的报告。它报告所有block的列表、它们的复制因子以及block所在的主机集。/hdfs/path/to/data/file.txt4771082824bytes,36block(s):OK0.BP-22525430-10.14.103.78-1355873316066:blk_-

hadoop hdfs 50010 10 14

169 170 171172173 174 175