HDFS_NAMENODE

java - 如何在 Lucene 中从 hdfs 读取索引

您好，我正在使用Lucene在hiveudf中搜索数据。所以我的索引目录将在hdfs中。如何使用Lucene读取hdfs目录以获取索引。下面是一些代码片段。IndexReaderindexReader=DirectoryReader.open(FSDirectory.open(newFile(url)));IndexSearcherindexSearcher=newIndexSearcher(indexReader);在url中，我传递了索引的hdfs位置，如下所示hdfs://localhost:9000/home/input_all/index/spatial_search_ind

何在 Lucene section hdfs java hadoop solr

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗？

即一个集群有多个应用程序，每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗？最佳答案是的，这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本，这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后，如果您想知道如何完成此操作，请继续。通常，此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth

hadoop block section stackoverflow hdfs

hadoop - HDFS 中的文本文件未正确压缩

我的本地有一个.txt文件，我想把这个文件压缩成.gz，然后上传到HDFS的某个位置。下面是我试过的代码:StringcodecClassName=args[1];Stringsource=args[2];Stringdest=args[3];InputStreamin=newBufferedInputStream(newFileInputStream(source));ClasscodecClass=Class.forName(codecClassName);Configurationconf=newConfiguration();CompressionCodeccodec=(C

本文 hadoop code section HDFS bigdata codec

hadoop - 如何在 Ubuntu 中将文件上传到 HDFS

我是hadoop新手，在ubuntu14.04LTS中使用单节点hadoop1.2.1。我想将文件上传到hadoop执行，但我不知道如何使用copyFromLocal命令。请告诉我如何上传文件我的源文件路径"/home/saurabh/downloads/examples.jar"我的hadoop在/usr/local/hadoop/ 最佳答案如果您的hadoop在PATH中，那么您可以这样做:hadoopfs-put/home/saurabh/downloads/examples.jar/path/in/hdfsIfyourha

何在传到 code hadoop section hdfs

hadoop - 我们如何为 HDFS(Hadoop 分布式文件系统)开发代理

我正在进行一个研究项目，我需要为HDFS创建某种代理，这样我们就可以捕获对HDFS的调用，并在将其返回给用户之前应用一些访问/拒绝(文件)策略。对于像HttpFs和WebHDFS这样的HDFS接口(interface)，很容易设计代理系统，因为它们使用HTTP与客户端通信。但是HDFS驱动程序使用使用ProtocolBuffer定义的协议(protocol)在客户端和名称节点之间进行通信。HDFS代码中是否有任何钩子(Hook)来设计围绕HDFS本机协议(protocol)的代理。Hadoop版本为2.6。最佳答案 Apach

何为 hadoop section HDFS stackoverflow proxy protocol-buffers webhdfs

hadoop - 当 Hadoop 集群宕机时，数据是否保留在 HDFS 中？

我是Qubole的新手，想知道Hadoop集群宕机后数据是否仍在HDFS中？感谢任何帮助。谢谢。最佳答案 HDFS上的数据没有丢失。我们不备份/恢复HDFS。EC2/S3上的计算模型是长期存在的数据始终存在于S3上，而HDFS仅用于中间数据和控制数据。我们有时也使用HDFS(和本地磁盘)作为缓存。关于hadoop-当Hadoop集群宕机时，数据是否保留在HDFS中？，我们在StackOverflow上找到一个类似的问题： https://stackover

机时留在 section HDFS stackoverflow hadoop

java - 打开作业 jar : file in hdfs 时出错

我一直在尝试修复这个问题，但不确定我在这里犯了什么错误!你能帮我解决这个问题吗？非常感谢!我的程序:打包hadoopbook；importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

时出 java IntWritable hadoop apache hdfs

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

eclipse hadoop mapreduce INFO Number reduce

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

hadoop - 我如何关联 Amazon EC2、S3 和我的 HDFS？

本人是伪分布式学习hadoop，对集群了解不多。因此，当浏览集群时，我发现S3是一种数据存储设备。而EC2是一个计算服务，却无法理解它的真正用途。我的HDFS可以在S3中使用吗？如果是的话，当我学习hive时，我遇到了将数据从HDFS移动到S3的情况，这被称为归档逻辑。hadoopdistcp/data/log_messages/2011/12/02s3n://ourbucket/logs/2011/12/02我的HDFS登陆S3那么它有什么好处呢？这可能很愚蠢，但如果有人能给我一个对我有帮助的概述。最佳答案 S3只是存储，不允许

hadoop Amazon section HDFS amazon-ec2 amazon-s3

13 14 151617 18 19