Hdfs

hadoop - 比较hadoop hdfs中的时间戳

我是hadoop的新手，而且我手头有一个问题。有没有办法比较HDFS中两个文件之间的时间戳？非常感谢任何帮助。最佳答案使用FileSystem.getFileStatus(Path)获取FileStatus的方法返回对象，可以通过FileStaus.getModifiedTime()获取文件的修改时间方法FileSystemfs=FileSystem.get(conf);longts1=fs.getFileStatus(newPath("/path/to/file1")).getModifiedTime();longts2=fs

java - 如何在 Hadoop MapReduce 中对结果进行排序并剔除顶部条目？

我们正在从一个看起来像这样的文件中读入。100363002100341895100355361100355643我们需要做两件事:1-按右列排序2-去掉前3个结果所以它看起来像这样:100341895100355643100363002我该怎么做？最佳答案 1)为了获得前3个结果，最好在Mapper中将所有值写在一个键下:context.write(NullWritable.get(),value);在Reducer中，您只能获取前三个结果并跳过其他结果。2)现在你所要做的，它的排序值，请搜索“Hadoopsecondarysor

剔除条目 section hadoop-how-to-do-secondary-sort-o secondary java hadoop mapreduce hdfs

java - 在映射器之间共享 FSDataInputStream？

我有一份工作，我想跨多个映射器访问同一个文件。最初我尝试在每个映射器中打开并搜索文件，但事实证明这非常慢。是否可以在run()方法中打开文件(我在其中执行job.SetOutputPath等操作)，然后与Mappers共享此打开的文件，以便我没有100个Mappers分别打开同一个文件的令人难以置信的开销？最佳答案是的，这实际上是可能的。如果您在作业开始之前设置分布式缓存并向其加载文件，它将自动发送到映射器。示例分布式缓存设置:StringfileLocation;//setthistofileabsolutelocationC

射器 FSDataInputStream section fileLocation java database hadoop mapreduce hdfs

java - 在没有root的计算机上格式化hadoop中的namenode

当尝试在hadoop中格式化我的namenode时，运行此命令$HADOOP_HOME/bin/hdfsnamenode-format后出现以下异常。2013-11-1213:49:48,580FATALnamenode.NameNode(NameNode.java:main(808))-Exceptioninnamenodejoinjava.io.IOException:Cannotcreatedirectory/test/dfs/name/current此问题的修复，如thislink所示和thislink,是用sudo运行命令。我在这台机器上没有root权限，也无法访问root。

机上 namenode code section java file hadoop hdfs

hadoop - hadoop集群的系统测试自动化框架

我正在寻找hadoop集群的系统测试框架。受支持的用例应包括HDFS的系统测试、mapreduce作业和hive查询。我从apache中找到了一个名为herriot的,但我不确定它是否仍在维护中。你们知道任何现有框架吗？最佳答案看看1和2用于对集群进行基准测试。它有测试的代码和数据。将它们自动化应该不是什么难事。关于hadoop-hadoop集群的系统测试自动化框架，我们在StackOverflow上找到一个类似的问题： https://stackove

hadoop 集群 section noreferrer noopener frameworks mapreduce hive hdfs

java - 无法使用 URL 协议(protocol)处理程序从 HDFS 获取数据

我在java中运行以下程序时遇到问题(我是java的初学者)。这里的程序使用HDFS特定的URLstreamhandlerfactory来使用适当的协议(protocol)处理程序来访问HDFS。在eclipse中，它没有显示任何错误。我已将hadoop-common-2.2.0.jar放在构建路径中。packageorg.hdfs.prog;//ccURLCatDisplaysfilesfromaHadoopfilesystemonstandardoutputusinga//URLStreamHandlerimportjava.io.InputStream;importjava.ne

protocol java apache section eclipse maven hadoop

java - 获取传递给 hadoop 映射器的行的最后一个字

如果我的数据集包含这样的行199.72.81.55--[01/Jul/1995:00:00:01-0400]"GET/history/apollo/HTTP/1.0"2006245并且我正在使用hadoop运行mapreduce作业，如何获取每行中的最后一个元素？我已经尝试了所有明显的答案，例如StringlastWord=test.substring(test.lastIndexOf("")+1);但这给了我-性格。我试过根据空格拆分它，并获取最后一个元素，但最后一个字符仍然是-。难道我不指望数据会一行一行的传送给我吗？换句话说，我难道不能期望abcd\nefgh\n形式的文件逐行传

射器传递 String code section java hadoop mapreduce hdfs

python - 使用 Hadoop 运行 jar 文件 - Python

我有一个现有的Python程序，它具有如下所示的一系列操作:连接到MySQLDB并将文件检索到本地FS。运行对这些文件进行操作的程序X。类似于:java-jarX.jar这将打开文件夹中的每个文件并对它们执行一些操作，并将相同数量的转换文件写入另一个文件夹。然后，运行对这些文件进行操作的程序Y:java-jarY.jar这将创建多个文件，每个文件一行，然后使用合并功能将其合并为一个文件。此合并后的文件将作为进一步操作和分析的输入，这些操作和分析对这个问题来说并不重要。我想利用Hadoop来加速操作Y，因为如果存在以下情况，它需要很长时间才能完成:a)更多数量的文件或b)要操作的大输入文

python Hadoop section 射器并将 jar mapreduce hdfs

Hadoop MapReduce - 程序在文件系统上工作，但在 HDFS 上不工作

这里是Hadoop新手。所以我只是配置了一个单节点设置，我不确定文件应该放在哪里？!我的理解是应该在HDFS上。因此，我使用“将文件上传到DFS”向我的HDFS添加了一个文本文件“zulu.txt”(右键单击DFS；见下图)当我使用Stringinput="/user/irobot-pc/irobot/In/";我收到以下错误代码:输入路径不存在Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:file:/user/irobot

上工 MapReduce section hadoop strong

hadoop - 更改 hadoop 中的 block 大小后会发生什么

我知道如何更改hadoop中的block大小。更改block大小后会发生什么，namenode如何将perivousdatanode更改为当前大小。如果我的集群非常大，并且我在以前的数据节点上的数据节点上提交作业，那仍然不会取消对当前大小的更改。这是如何由名称节点管理的。最佳答案什么都没有发生。事实上，block大小是单个文件的属性。您在配置中定义的是默认值。您可以在HDFS中放置或创建文件时指定block大小。该属性作为名称节点元数据的一部分与文件的元数据一起存储。如果未指定任何内容，则使用默认值。当访问文件时，会使用文件的b

hadoop block section 的 hdfs cloudera

20 21 222324 25 26