Hdfs_草庐IT

Hadoop 操作关闭节点

我在代码里面的虚拟机上运行hadoop。在执行hdfs操作(复制，..)时，虚拟机第一次关闭，实际节点第二次关闭。我不确定为什么会这样，我也无法在任何日志中看到为什么会这样。有什么建议/意见吗？谢谢。最佳答案作为重型守护进程，所有Hadoop进程都是资源密集型的，尤其是RAM。增加VM的RAM，希望它能解决问题。(如果没有，请告诉我)。关于Hadoop操作关闭节点，我们在StackOverflow上找到一个类似的问题： https://stackover

Hadoop 操作 section stackoverflow questions hdfs

hadoop - 50 个节点 hadoop passphraseless

我的问题很简单，我想设置一个50个节点的hadoop集群，如何在50个节点之间设置无密码。如果手动操作是非常困难的!提前致谢! 最佳答案您不需要在节点之间设置SSH，在主节点和从节点之间单向就足够了。(所以只有主人必须访问奴隶没有密码)。通常的方法是编写一个bash脚本，循环遍历您的从文件并登录到您的从服务器，将主服务器的公钥复制到从服务器的授权key中。YoucanseeasmallworkthroughonPraveenSripati'sblog.但是，我不是管理员，所以我无法告诉您是否有更聪明的方法。也许这更适合Superu

hadoop passphraseless section strong noreferrer hdfs

hadoop - 在 HDFS Hadoop 的文件更改所有者期间获取文件 inode？

如何获取事件文件中的文件INode？例如:在客户端输入命令如下:./hadoopfs-chown-Rhadoop:hadoophdfs://nn:9000/A1.txt如何在文件更改所有者操作期间获取“A1.txt”文件INode？谢谢!感谢HarshJ的以下回答。我知道API。让我换一种说法:如果我想向文件inode添加一些东西，我如何获得指向事件文件inode的指针？非常感谢。感谢HarshJ的回答。我知道API。让我换一种说法:如果我想向文件inode添加内容，我如何获得指向事件文件inode的指针？非常感谢。最佳答案鉴于

所有者 hadoop section code hdfs

hadoop - 通过网络进度条跟踪 hadoop 文件上传状态？

我想设计一个web项目，当用户上传文件到hadoophdfs时，用户可以通过web查看他们的上传状态。有没有简单的javaapi？有人能帮忙吗？目前我只知道怎么用api上传文件到hdfs。publicsynchronizedstaticvoidupload(FileSystemfs,Stringlocal,Stringremote){//Pathhome=fs.getHomeDirectory();PathworkDir=fs.getWorkingDirectory();Pathdst=newPath(workDir+"/"+remote);Pathsrc=newPath(local)

hadoop 通过 section 34 hdfs progress

java - 在 mapreduce 中从 HDFS 读取大图像

HDFS(block大小64MB)中有一个非常大的图像(~200MB)。我想知道以下内容:如何在mapReduce作业中读取图像？许多主题建议使用WholeInputFormat。还有其他选择吗？如何做？当使用WholeInputFormat时，是否会有任何block的并行处理？我猜不是。最佳答案如果您的block大小为64MB，HDFS很可能会将您的图像文件分成多个block并在整个集群中复制，具体取决于您的集群配置。假设您希望将图像文件作为1条记录而不是多个block/逐行处理，这里有几个我可以想到的选项来处理整个图像文件。

大图 mapreduce section block li java image-processing hadoop

java - 如何使用 Java 将数据从 sas 服务器拉到 hdfs？

我想从sasServer中提取数据并将其放入HDFS。我想使用java代码实现相同的任何想法。最佳答案最简单的机制是安装Hadoop客户端库，然后通过客户端命令将SAS文件上传到HDFS:hadoopfs-put如果您不想使用客户端命令，您始终可以编写自己的java应用程序来执行从SAS服务器到HDFS的上传。一段未经测试的示例代码，使用fs.FileSystem.copyFromLocalFile接口(interface)传输文件:packageorg.mycompany;importjava.security.Privile

java section hadoop 34 sas bigdata

hadoop - 从 Hadoop 子目录处理数据文件

我希望我的hadoop作业从子目录的叶节点获取数据。因此，数据将始终仅存在于具有.dat扩展名的叶节点中。说明子目录结构:说a->b->1.dat,a->c->2.dat我尝试在HDFS上执行fs-put"a"目录，然后将"a"指定为hadoop作业的输入，但它失败了。然而，如果dat文件在“a”内，上述方法工作正常。任何可能的解决方案？最佳答案使用多输入格式，我们可以读取两个不同格式的文件，并将两者合并的结果发送给reducer作业。请查看以下链接。https://github.com/subbu-m/MultipleInpu

子目子目录 section https hadoop mapreduce hdfs

hadoop - java.lang.NoClassDefFoundError : org/apache/hadoop/hdfs/BenchmarkThroughput 错误

我尝试在CDH4.4上运行TestDFSIO，这是我通过命令行(而不是ClouderaManager)启动的。这是我运行的命令:bin/hadoopjarhadoop-test-2.0.0-mr1-cdh4.4.0-SNAPSHOT.jarTestDFSIO-Ddfs.replication=1-write-nrFiles2-fileSize4000这是我得到的错误:java.lang.NoClassDefFoundError:org/apache/hadoop/hdfs/BenchmarkThroughputatorg.apache.hadoop.test.AllTestDriver

hadoop NoClassDefFoundError java URLClassLoader cloudera

hadoop - 在没有 YARN 的情况下安装 HDFS 以与 SHARK 一起使用

我正在尝试安装ApacheShark。其中一项要求是安装HDFS。我不想使用YARN或MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装2.x之前的hadoop发行版？如果有，是哪一个？或者我可以使用Hadoop2.4并以某种方式禁用YARN吗？我不太确定该怎么做。我能找到的所有教程似乎都使用YARN。有人对如何仅在2.x中使用HDFS有任何建议吗？如果只想安装HDFS，我需要哪个hadoop发行版？最佳答案要使用shark，您需要安装:HDFS存储数据hive用于内存中使用的Sparkyarn不是强制性的

hadoop SHARK section HDFS YARN apache-spark shark-sql

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode？

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初，我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置，如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml，但此配置是否适用于名称节点或数据节点。如果我的理解

hadoop hdfs-site code section site mapreduce hdfs