hdfs_clusters

python - 我想调用 HDFS REST api 来上传文件

我想调用HDFSRESTapi以使用httplib上传文件。我的程序创建了文件，但其中没有内容。===================================================这是我的代码:importhttplibconn=httplib.HTTPConnection("localhost:50070")conn.request("PUT","/webhdfs/v1/levi/4?op=CREATE")res=conn.getresponse()printres.status,res.reasonconn.close()conn=httplib.HTTPConn

python HDFS redirect 34 conn hadoop httplib

hadoop - HDFS的文件更新要求是什么？

在theHDFSArchiectiureguide的简单一致性模型部分下，它指出(强调我的):HDFSapplicationsneedawrite-once-read-manyaccessmodelforfiles.Afileoncecreated,written,andclosedneednotbechanged.Thisassumptionsimplifiesdatacoherencyissuesandenableshighthroughputdataaccess.AMap/Reduceapplicationorawebcrawlerapplicationfitsperfectly

求是 hadoop section noreferrer noopener hdfs

hadoop - 如何在 HDFS 中存储和分析带时间戳的日志

我有很多日志行，每行都有一个时间，我想将它们存储在HDFS中并进行分析。我想运行MapReduce作业，这些作业将只处理给定时间范围内的行(最后5分钟，最后一小时)。我正在寻找入门指南。并且，任何替代方案(例如，将行存储在hbase中？其他平台？) 最佳答案我的2美分:您可以为此使用Hbase。读入文件的每一行，取出TS字段并将其用作行键，并将该行的其余部分存储在一列中。所以我们的表将只有一列。这将允许您进行更快的范围查询，就像您需要的那样(最后5分钟、最后一小时等)。为了避免区域服务器热点，您可以创建预拆分表。或者，您可以将数据

何在 hadoop section 并将 stackoverflow mapreduce hdfs

hadoop - 可以使用 distcp 将文件目录从 S3 复制到 HDFS 吗？

我想知道hadoopdistcp是否可以用于一次将多个文件从S3复制到HDFS。它似乎只适用于具有绝对路径的单个文件。我想复制整个目录，或使用通配符。参见:HadoopDistCpusingwildcards?我知道s3distcp,但为了简单起见，我更愿意使用distcp。这是我尝试将目录从S3复制到HDFS的尝试:[root@ip-10-147-167-56~]#/root/ephemeral-hdfs/bin/hadoopdistcps3n://:@mybucket/dirhdfs:///input/13/05/2319:58:27INFOtools.DistCp:srcPath

hadoop distcp java apache amazon-s3 hdfs

hadoop - HDFS 文件位置/副本放置提示

有什么方法可以告诉HDFS在某些文件创建期间我想从哪里获取文件副本？好的，我知道这可能只是提示，在任何情况下都不能保证。谢谢。为什么我需要这个？我有MapReduce作业(实际上是它们的链)，并且由于我可以控制输入拆分位置，所以我希望以前的作业缩减器能够说明下一个作业映射器的“最可能”位置。这是解决我的问题的替代方法之一。有什么想法吗？最佳答案应该可以用this.它允许您编写Java代码来指定HDFS应如何分配文件block的副本。HTH 关于hadoop-HDFS文件位置/副本放置

hadoop HDFS section stackoverflow mapreduce

hadoop - hadoop能否让mapper将部分数据发送给reducer，剩下的数据直接输出到HDFS？

正如标题所说，我有一个关于map-reduce的任务设计:经过思考，我认为只需要将部分数据(可能是10%的数据)送入reducer，剩下的数据直接输出到HDFS即可。然后最后，我只是合并了mapper和reducer的这两个输出文件(我必须得到一个关于这个总数据的统一文件或目录)。我认为，通过这样做，可以降低此任务运行的带宽成本。那么我的想法能实现吗？(我知道如何直接从mapper输出到HDFS，但这需要mapper既输出到HDFS又将数据发送到reducer) 最佳答案一种解决方案是使用MultipleOutputs'swrit

hadoop 送给 section code

hadoop - distcp hdfs和hftp有什么区别，为什么distcp hdfs有效？

distcphdfs和hftp有什么区别，为什么distcphdfs有效？我们正在两个不同版本的集群之间复制HFDS文件。最佳答案 distcphftp应该在两个不同版本的集群(不同版本的hadoop)之间复制数据时使用。该命令应该从目标集群执行，(更具体地说，在可以写入目标集群的TaskTracker上)应使用hftp:///指定来源。关于hadoop-distcphdfs和hftp有什么区别，为什么distcphdfs有效？，我们在StackOverflow上找到一个类似的问题：

distcp hdfs section hadoop version

hadoop - HDFS 在私有(private)云中使用 Cloudera Manager

这让我发疯。我已经为此工作了好几天，但似乎无法解决这个问题。我有一个在桉树上运行的私有(private)云用于测试，还有4个运行Ubuntu12.04的虚拟机。我试图让cloudera运行HDFS和map-reduce但是当我尝试启动它时，数据节点似乎永远无法与名称节点通信。它安装良好并通过了所有启动前检查。主机文件全部设置为127.0.0.1本地主机和其他虚拟机的ip和主机名，防火墙全部禁用，安全组设置为允许一切。我可以使用名称节点上的telnet和netstat连接到从数据节点到名称节点的8022端口，如下所示:tcp00172.31.254.119:90000.0.0.0:*听6

私有 Cloudera section strong tcp hadoop hdfs

twitter - 如何在 HDFS 中存储推文？

如何在HDFS中存储特定网站的推文？假设一个网站www.abcd.com，我想收集该网站所有用户的推文并存储到HDFS或Hive中。Flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在HDFS中存储推文？最佳答案 Sqoop不是为此目的而制作的。Flume就是用来满足这些需求的。您可以编写您的自定义Flume源代码，它将提取推文并将它们转储到您的HDFS中。参见this例如。它展示了如何使用Flume从TwitterStreamingAPI收集数据，并将其转发到HDFS。您可以在officialdo

何在 twitter section strong HDFS hadoop sqoop flume

java - 安装 HDFS/HBase 客户端库

如何在我的Windows机器上安装包org.apache.hadoop和org.apache.hbase，以便我可以开发客户端以连接到现有的HBase集群？最佳答案从http://hadoop.apache.org/releases.html#Download下载hadoop转储直接链接下载1.2版本-http://mirror.tcpdiag.net/apache/hadoop/common/stable/hadoop-1.2.1.tar.gz(您也可以选择其他镜像和版本)。从各种文件夹(lib等)中提取jar并添加到ecli

HBase java apache section hadoop nosql bigdata

160 161 162163164 165 166