hdfs

hadoop - hadoop能否让mapper将部分数据发送给reducer，剩下的数据直接输出到HDFS？

正如标题所说，我有一个关于map-reduce的任务设计:经过思考，我认为只需要将部分数据(可能是10%的数据)送入reducer，剩下的数据直接输出到HDFS即可。然后最后，我只是合并了mapper和reducer的这两个输出文件(我必须得到一个关于这个总数据的统一文件或目录)。我认为，通过这样做，可以降低此任务运行的带宽成本。那么我的想法能实现吗？(我知道如何直接从mapper输出到HDFS，但这需要mapper既输出到HDFS又将数据发送到reducer) 最佳答案一种解决方案是使用MultipleOutputs'swrit

hadoop 送给 section code

hadoop - distcp hdfs和hftp有什么区别，为什么distcp hdfs有效？

distcphdfs和hftp有什么区别，为什么distcphdfs有效？我们正在两个不同版本的集群之间复制HFDS文件。最佳答案 distcphftp应该在两个不同版本的集群(不同版本的hadoop)之间复制数据时使用。该命令应该从目标集群执行，(更具体地说，在可以写入目标集群的TaskTracker上)应使用hftp:///指定来源。关于hadoop-distcphdfs和hftp有什么区别，为什么distcphdfs有效？，我们在StackOverflow上找到一个类似的问题：

distcp hdfs section hadoop version

hadoop - HDFS 在私有(private)云中使用 Cloudera Manager

这让我发疯。我已经为此工作了好几天，但似乎无法解决这个问题。我有一个在桉树上运行的私有(private)云用于测试，还有4个运行Ubuntu12.04的虚拟机。我试图让cloudera运行HDFS和map-reduce但是当我尝试启动它时，数据节点似乎永远无法与名称节点通信。它安装良好并通过了所有启动前检查。主机文件全部设置为127.0.0.1本地主机和其他虚拟机的ip和主机名，防火墙全部禁用，安全组设置为允许一切。我可以使用名称节点上的telnet和netstat连接到从数据节点到名称节点的8022端口，如下所示:tcp00172.31.254.119:90000.0.0.0:*听6

私有 Cloudera section strong tcp hadoop hdfs

twitter - 如何在 HDFS 中存储推文？

如何在HDFS中存储特定网站的推文？假设一个网站www.abcd.com，我想收集该网站所有用户的推文并存储到HDFS或Hive中。Flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在HDFS中存储推文？最佳答案 Sqoop不是为此目的而制作的。Flume就是用来满足这些需求的。您可以编写您的自定义Flume源代码，它将提取推文并将它们转储到您的HDFS中。参见this例如。它展示了如何使用Flume从TwitterStreamingAPI收集数据，并将其转发到HDFS。您可以在officialdo

何在 twitter section strong HDFS hadoop sqoop flume

java - 安装 HDFS/HBase 客户端库

如何在我的Windows机器上安装包org.apache.hadoop和org.apache.hbase，以便我可以开发客户端以连接到现有的HBase集群？最佳答案从http://hadoop.apache.org/releases.html#Download下载hadoop转储直接链接下载1.2版本-http://mirror.tcpdiag.net/apache/hadoop/common/stable/hadoop-1.2.1.tar.gz(您也可以选择其他镜像和版本)。从各种文件夹(lib等)中提取jar并添加到ecli

HBase java apache section hadoop nosql bigdata

hadoop - HDFS安全模式问题

我遇到了HDFS问题。错误如下:Problemaccessing/nn_browsedfscontent.jsp.Reason:Cannotissuedelegationtoken.Namenodeisinsafemode.Thereportedblocks428needsadditional2blockstoreachthethreshold0.9990oftotalblocks430.Safemodewillbeturnedoffautomatically.我什至尝试使用命令离开安全模式。但是我遇到了super用户权限问题，即使我以root用户身份尝试也是如此。我正在使用CDH4。

hadoop HDFS section blocks apache-pig

java - Pig UDF 将文件写入 HDFS

我想通过PigUDF读取一个完整的文件，然后使用Java中的PrintWriter库准备一个输出文件并将其存储在HDFS上。这可能吗，遵循的步骤1)我能够读取UDF中的输入文件。从该文件准备一个HashMap。[已实现]2)通过过滤输入文件将数据写入输出文件。使用HashMap完成过滤[YETTOBEACHIEVED]任何人都可以在我的步骤2中提供帮助。目的是在PigUDF中创建一个文件并写入该文件。谢谢，问候，DheerajRampally。最佳答案没问题...我已经找到了替代方案...我现在不再写入文件，而是从PigUDF返

java HDFS section 该文 UDF hadoop apache-pig

hadoop - HDFS是如何下载文件的？

如果Hadoop复制设置为3并且我使用hadoopdfs-get下载文件，有多少数据节点同时向我传输数据？下载方式是类似RAID的并行方式，还是依次一个一个读取datanode？最佳答案只从一个节点顺序读取数据。请注意，文件可能是多个block，在这种情况下，block是从不同的节点拉取的。关于hadoop-HDFS是如何下载文件的？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questi

hadoop HDFS section strong stackoverflow

hadoop - 有什么办法可以在 Windows 环境中从虚拟机的 hdfs 系统打开文件？

也许我的问题有点愚蠢，但我想在主机Windows环境中访问hdfs文件，特别是在eclipse中。Hadoop和所有相关的东西都安装在VirtualBox上(使用HortonworksSandbox环境。使用CentosOS)。在虚拟机上，我可以毫无问题地使用hdfs，尝试访问hdfs://192.168.56.101:8020/user/root/vectors/dictionary.file-0。尝试在eclipse上访问它，但出现异常。那么，有什么办法吗？如果可能的话，最好能得到一个例子。最佳答案问题的主要原因是系统不知道

Windows hadoop section code hdfs hortonworks-data-platform

hadoop - hdfs 会保留 CSV 文件的列标题吗？

我有一个带有列标题的巨大csv文件。我的问题是，当我将csv文件放入HDFS时，集群中的所有文件会保留header还是会少header。最佳答案如果您只是使用命令行或API将文件复制到HDFS，那么是的，文件不会以任何方式更改(标题将保留)。但如果您打算将其用作配置单元表，那么您需要在加载文件之前删除header，然后创建适当的配置单元表。关于hadoop-hdfs会保留CSV文件的列标题吗？，我们在StackOverflow上找到一个类似的问题： ht

hadoop hdfs section 配置单 header

194 195 196197198 199 200