hdfs_clusters

hadoop - 如何在不将整个文件下载到本地磁盘的情况下下载 tar.gz 并将其打包到 hdfs？

我想从网上直接提取tar.gz文件到hdfs中。跳过下载到本地磁盘阶段，因为文件可能非常大。这一切都来自简单的cmd行脚本(bash、wget等) 最佳答案好的，看起来这个衬垫有效:wget-O-http://...tar.gz|tarxfz---to-stodout|hadoopdfs-put-/somepath 关于hadoop-如何在不将整个文件下载到本地磁盘的情况下下载tar.gz并将其打包到hdfs？，我们在StackOverflow上找到一个类似的问题：

并将何在 section stackoverflow questions hadoop hdfs command-line-interface tar

apache-spark - 从 Kafka 读取消息并写入 HDFS

我正在寻找从Kafka读取消息(大量消息，每天大约100B)的最佳方式，在读取消息后我需要对数据进行操作并将其写入HDFS。如果我需要以最佳性能执行此操作，那么从Kafka读取消息并将文件写入HDFS的最佳方式是什么？哪种编程语言最适合？我是否需要考虑为此使用Spark等解决方案？最佳答案您应该为此使用Spark流(参见here)，它提供了Kafka分区和Spark分区之间的简单对应关系。或者您可以使用UseKafkaStreams(参见more)。KafkaStreams是用于构建应用程序和微服务的客户端库，其中输入和输出数据

apache-spark apache section Kafka noreferrer hadoop apache-kafka

hadoop - 每当我停止和启动 hadoop 服务时都必须反复格式化 HDFS

我在单节点集群上安装了hadoop。当我使用start=all.sh启动所有hadoop服务时，一切正常。但是，每当我停止所有服务并重新启动hadoop服务时，都会出现以下异常，我必须再次重新格式化文件系统。现在我正在开发中，每当我重新格式化时我都会复制文件。但是我不能在生产中出现这种行为。我检查了日志，这里是异常(exception)。我的etc/hosts文件也是一样的，我禁用了IPV62012-11-0318:49:45,542INFOorg.apache.hadoop.hdfs.server.namenode.NameNode:STARTUP_MSG:/************

hadoop 每当 apache namenode

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE？

我需要将数据从hadoop自动加载到hive，但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢？flume是否可以执行命令(查询hive就像LOAD.....)？最佳答案抱歉，我来晚了一点，但实际上我已经整理了一个非常完整的示例，说明如何执行此操作并公开了所有细节。也许，它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop flume section articles hive

macos - OSX - 无法将文件从本地文件系统复制到 hdfs

我正在尝试将文件从本地文件系统复制到HDFS，它抛出了一个错误，指出该文件只能复制到0个节点，而不是1个。ckharide-mac:binhadoop$./hadoopdfs-copyFromLocal/tmp/wcinput/user/hadoop/app/input13/10/0113:25:05WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/hadoop/app/input/LICENSE.txtcouldonl

macos hdfs hadoop java section

java - Hadoop HDFS MapReduce 输出到 MongoDb

我想编写Java程序，它从HDFS读取输入，使用MapReduce处理它并将输出写入MongoDb。场景如下:我有一个包含3个数据节点的Hadoop集群。Java程序从HDFS读取输入，并使用MapReduce对其进行处理。最后将结果写入MongoDb。其实从HDFS读取数据，用MapReduce处理很简单。但是我对将结果写入MongoDb感到困惑。是否支持任何JavaAPI将结果写入MongoDB？另外一个问题是，由于是HadoopCluster，所以我们不知道哪个datanode会运行Reducer任务并产生结果，是否可以将结果写到安装在特定服务器上的MongoDb中？如果我想把结

MapReduce MongoDb section Hadoop java hdfs

java - 用MiniDFSCluster对hadoop hdfs写的进行单元测试

我编写了一个写入hadoopHDFS的类。我使用的是1.2.1版的hadoopjar。我想测试这门课。所以基于博客如thisone我写了我的代码:privatevoidcreateSimulatedHdfs(){conf=newConfiguration();//100Kblocksizeconf.setLong(DFSConfigKeys.DFS_BLOCK_SIZE_KEY,1024*100);conf.setLong(DFSConfigKeys.DFS_BLOCK_SIZE_KEY,100);conf.setInt(DFSConfigKeys.DFS_BYTES_PER_CHEC

MiniDFSCluster hadoop java ParentRunner junit unit-testing hdfs

hadoop - 一个小文件是如何存储在HDFS中的

在hadoop权威指南中:以128MB的block大小存储的1MB文件使用1MB的磁盘空间，而不是128MB。这是什么意思？它是在一个128MB的block中使用1MB的大小，还是使用了1MB并且剩余的127MB被其他文件免费占用？最佳答案这通常是对HDFS的误解——block大小更多的是关于单个文件如何拆分/分区，而不是关于文件系统的某些保留部分。在这些方案的背后，每个block都作为普通文件(以及相关的校验和)存储在DataNodes底层文件系统中。如果您查看磁盘上的数据节点文件夹，您应该能够找到该文件(如果您知道文件的bl

hadoop HDFS section block MB

hadoop - hdfs snapshot可以用来恢复hive吗

知道hive使用metastore和hdfs，是否可以将从正在运行的hadoop-hive集群获取的hdfs快照恢复到新的hadoop-hive集群？我认为必须执行的一个步骤是在hive中再次创建表，但是这些表会自动连接到快照文件吗？有关此主题的一个链接位于ApacheMailArchives.我希望对此是否有更新或更好的答案。最佳答案 Hive使用2(元数据+hdfs中的仓库数据)试一试:(没查过，请注意)1)使用dstcp将当前Hadoop-hiveCluster中的hive仓库数据复制到新的Hadoop-hiveCluste

snapshot 用来 section hive hadoop

java - 使用 Java API 读取 HDFS 的默认 block 大小

我想使用java程序从hdfs-site.xml中读取这个默认block大小值？任何人都可以帮忙吗？dfs.blocksize134217728 最佳答案我发现有更好的选择，而不是从HDFS-SITEXML读取默认block大小。Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://0.0.0.0:8020");FileSystemfs=FileSystem.get(conf);Configurationcconf=fs.getConf();Str

block java section code hadoop hdfs

31 32 333435 36 37