hdfs-audit

hadoop - Hadoop 中需要 "runuser hdfs -s/bin/bash/bin/bash"

我是hadoop的新手，正在关注这个link在Fedora20中安装它。这篇文章中有一个命令:runuserhdfs-s/bin/bash/bin/bash-c"hadoopfs-mkdir/user/"在这部分命令中，我们在HDFS中创建一个目录:"hadoopfs-mkdir/user/"但是我无法理解上面命令的这一部分的用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash请告诉我这个命令的确切用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash 最佳答案这有点令人困惑，

java - 如何使用Java代码将文件上传和下载到hdfs

我是hadoop的新手，正在尝试通过hdfs上传和下载文件。Java代码。这应该表现为数据上传:hadoopfs-putor-copyFromLocalfilenamedirectoryName和数据下载hadoopfs-getor-copyToLocalfilenamedirectoryName来自高清文件系统。我需要这个，因为数据集包含图像、音频、视频等文件。上面的命令适用于所有类型的数据，如果我尝试使用Javai/o阅读器代码，它适用于文本文件，但不适用于图像、视频。docx等..请在这里帮忙。在此处编辑:publicstaticvoidmain(String[]args)thr

java code section hadoop

java - 如何在 Lucene 中从 hdfs 读取索引

您好，我正在使用Lucene在hiveudf中搜索数据。所以我的索引目录将在hdfs中。如何使用Lucene读取hdfs目录以获取索引。下面是一些代码片段。IndexReaderindexReader=DirectoryReader.open(FSDirectory.open(newFile(url)));IndexSearcherindexSearcher=newIndexSearcher(indexReader);在url中，我传递了索引的hdfs位置，如下所示hdfs://localhost:9000/home/input_all/index/spatial_search_ind

何在 Lucene section hdfs java hadoop solr

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗？

即一个集群有多个应用程序，每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗？最佳答案是的，这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本，这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后，如果您想知道如何完成此操作，请继续。通常，此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth

hadoop block section stackoverflow hdfs

hadoop - HDFS 中的文本文件未正确压缩

我的本地有一个.txt文件，我想把这个文件压缩成.gz，然后上传到HDFS的某个位置。下面是我试过的代码:StringcodecClassName=args[1];Stringsource=args[2];Stringdest=args[3];InputStreamin=newBufferedInputStream(newFileInputStream(source));ClasscodecClass=Class.forName(codecClassName);Configurationconf=newConfiguration();CompressionCodeccodec=(C

本文 hadoop code section HDFS bigdata codec

hadoop - 如何在 Ubuntu 中将文件上传到 HDFS

我是hadoop新手，在ubuntu14.04LTS中使用单节点hadoop1.2.1。我想将文件上传到hadoop执行，但我不知道如何使用copyFromLocal命令。请告诉我如何上传文件我的源文件路径"/home/saurabh/downloads/examples.jar"我的hadoop在/usr/local/hadoop/ 最佳答案如果您的hadoop在PATH中，那么您可以这样做:hadoopfs-put/home/saurabh/downloads/examples.jar/path/in/hdfsIfyourha

何在传到 code hadoop section hdfs

hadoop - 我们如何为 HDFS(Hadoop 分布式文件系统)开发代理

我正在进行一个研究项目，我需要为HDFS创建某种代理，这样我们就可以捕获对HDFS的调用，并在将其返回给用户之前应用一些访问/拒绝(文件)策略。对于像HttpFs和WebHDFS这样的HDFS接口(interface)，很容易设计代理系统，因为它们使用HTTP与客户端通信。但是HDFS驱动程序使用使用ProtocolBuffer定义的协议(protocol)在客户端和名称节点之间进行通信。HDFS代码中是否有任何钩子(Hook)来设计围绕HDFS本机协议(protocol)的代理。Hadoop版本为2.6。最佳答案 Apach

何为 hadoop section HDFS stackoverflow proxy protocol-buffers webhdfs

hadoop - 当 Hadoop 集群宕机时，数据是否保留在 HDFS 中？

我是Qubole的新手，想知道Hadoop集群宕机后数据是否仍在HDFS中？感谢任何帮助。谢谢。最佳答案 HDFS上的数据没有丢失。我们不备份/恢复HDFS。EC2/S3上的计算模型是长期存在的数据始终存在于S3上，而HDFS仅用于中间数据和控制数据。我们有时也使用HDFS(和本地磁盘)作为缓存。关于hadoop-当Hadoop集群宕机时，数据是否保留在HDFS中？，我们在StackOverflow上找到一个类似的问题： https://stackover

机时留在 section HDFS stackoverflow hadoop

java - 打开作业 jar : file in hdfs 时出错

我一直在尝试修复这个问题，但不确定我在这里犯了什么错误!你能帮我解决这个问题吗？非常感谢!我的程序:打包hadoopbook；importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

时出 java IntWritable hadoop apache hdfs

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

eclipse hadoop mapreduce INFO Number reduce

12 13 141516 17 18