草庐IT

hadoop - hadoop能否让mapper将部分数据发送给reducer,剩下的数据直接输出到HDFS?

正如标题所说,我有一个关于map-reduce的任务设计:经过思考,我认为只需要将部分数据(可能是10%的数据)送入reducer,剩下的数据直接输出到HDFS即可。然后最后,我只是合并了mapper和reducer的这两个输出文件(我必须得到一个关于这个总数据的统一文件或目录)。我认为,通过这样做,可以降低此任务运行的带宽成本。那么我的想法能实现吗?(我知道如何直接从mapper输出到HDFS,但这需要mapper既输出到HDFS又将数据发送到reducer) 最佳答案 一种解决方案是使用MultipleOutputs'swrit

hadoop - distcp hdfs和hftp有什么区别,为什么distcp hdfs有效?

distcphdfs和hftp有什么区别,为什么distcphdfs有效?我们正在两个不同版本的集群之间复制HFDS文件。 最佳答案 distcphftp应该在两个不同版本的集群(不同版本的hadoop)之间复制数据时使用。该命令应该从目标集群执行,(更具体地说,在可以写入目标集群的TaskTracker上)应使用hftp:///指定来源。 关于hadoop-distcphdfs和hftp有什么区别,为什么distcphdfs有效?,我们在StackOverflow上找到一个类似的问题:

hadoop - HDFS 在私有(private)云中使用 Cloudera Manager

这让我发疯。我已经为此工作了好几天,但似乎无法解决这个问题。我有一个在桉树上运行的私有(private)云用于测试,还有4个运行Ubuntu12.04的虚拟机。我试图让cloudera运行HDFS和map-reduce但是当我尝试启动它时,数据节点似乎永远无法与名称节点通信。它安装良好并通过了所有启动前检查。主机文件全部设置为127.0.0.1本地主机和其他虚拟机的ip和主机名,防火墙全部禁用,安全组设置为允许一切。我可以使用名称节点上的telnet和netstat连接到从数据节点到名称节点的8022端口,如下所示:tcp00172.31.254.119:90000.0.0.0:*听6

twitter - 如何在 HDFS 中存储推文?

如何在HDFS中存储特定网站的推文?假设一个网站www.abcd.com,我想收集该网站所有用户的推文并存储到HDFS或Hive中。Flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在HDFS中存储推文? 最佳答案 Sqoop不是为此目的而制作的。Flume就是用来满足这些需求的。您可以编写您的自定义Flume源代码,它将提取推文并将它们转储到您的HDFS中。参见this例如。它展示了如何使用Flume从TwitterStreamingAPI收集数据,并将其转发到HDFS。您可以在officialdo

java - 安装 HDFS/HBase 客户端库

如何在我的Windows机器上安装包org.apache.hadoop和org.apache.hbase,以便我可以开发客户端以连接到现有的HBase集群? 最佳答案 从http://hadoop.apache.org/releases.html#Download下载hadoop转储直接链接下载1.2版本-http://mirror.tcpdiag.net/apache/hadoop/common/stable/hadoop-1.2.1.tar.gz(您也可以选择其他镜像和版本)。从各种文件夹(lib等)中提取jar并添加到ecli

hadoop - HDFS安全模式问题

我遇到了HDFS问题。错误如下:Problemaccessing/nn_browsedfscontent.jsp.Reason:Cannotissuedelegationtoken.Namenodeisinsafemode.Thereportedblocks428needsadditional2blockstoreachthethreshold0.9990oftotalblocks430.Safemodewillbeturnedoffautomatically.我什至尝试使用命令离开安全模式。但是我遇到了super用户权限问题,即使我以root用户身份尝试也是如此。我正在使用CDH4。

java - Pig UDF 将文件写入 HDFS

我想通过PigUDF读取一个完整的文件,然后使用Java中的PrintWriter库准备一个输出文件并将其存储在HDFS上。这可能吗,遵循的步骤1)我能够读取UDF中的输入文件。从该文件准备一个HashMap。[已实现]2)通过过滤输入文件将数据写入输出文件。使用HashMap完成过滤[YETTOBEACHIEVED]任何人都可以在我的步骤2中提供帮助。目的是在PigUDF中创建一个文件并写入该文件。谢谢,问候,DheerajRampally。 最佳答案 没问题...我已经找到了替代方案...我现在不再写入文件,而是从PigUDF返

hadoop - HDFS是如何下载文件的?

如果Hadoop复制设置为3并且我使用hadoopdfs-get下载文件,有多少数据节点同时向我传输数据?下载方式是类似RAID的并行方式,还是依次一个一个读取datanode? 最佳答案 只从一个节点顺序读取数据。请注意,文件可能是多个block,在这种情况下,block是从不同的节点拉取的。 关于hadoop-HDFS是如何下载文件的?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questi

hadoop - 有什么办法可以在 Windows 环境中从虚拟机的 hdfs 系统打开文件?

也许我的问题有点愚蠢,但我想在主机Windows环境中访问hdfs文件,特别是在eclipse中。Hadoop和所有相关的东西都安装在VirtualBox上(使用HortonworksSandbox环境。使用CentosOS)。在虚拟机上,我可以毫无问题地使用hdfs,尝试访问hdfs://192.168.56.101:8020/user/root/vectors/dictionary.file-0。尝试在eclipse上访问它,但出现异常。那么,有什么办法吗?如果可能的话,最好能得到一个例子。 最佳答案 问题的主要原因是系统不知道

hadoop - hdfs 会保留 CSV 文件的列标题吗?

我有一个带有列标题的巨大csv文件。我的问题是,当我将csv文件放入HDFS时,集群中的所有文件会保留header还是会少header。 最佳答案 如果您只是使用命令行或API将文件复制到HDFS,那么是的,文件不会以任何方式更改(标题将保留)。但如果您打算将其用作配置单元表,那么您需要在加载文件之前删除header,然后创建适当的配置单元表。 关于hadoop-hdfs会保留CSV文件的列标题吗?,我们在StackOverflow上找到一个类似的问题: ht