HADOOP_草庐IT

hadoop DFS 启动命令不工作并给出错误

您好，我已经配置好hadoop并通过以下命令启动dfsstart_local_hdp_services但我收到以下错误已更新我在Windows上使用hadoop。使用“msi”安装请帮帮我已更新我在Startingmaster,startingregionserver中遇到错误最佳答案 nohup是一个posix命令，因此您需要安装cygwin或运行某种不同的脚本(.cmd或.bat文件？)http://en.wikipedia.org/wiki/Nohup我倾向于安装cygwin或类似软件，基本上您需要能够模拟linux命令。您

sorting - 使用 pig 加载时为每一行添加 ID

假设我有一个日志文件，但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但例如我需要下降排序而不是上升排序)我想做的是在使用Pig加载时为每一行生成一个aftificialID。是否有我可以使用的内置变量？像RowId这样的东西？你有什么想法吗？问候，帕维尔最佳答案 NewinPig0.11是RANK运算符，它将完成您需要做的事情。关于sorting-使用pig加载时为每一行添加ID，我们在StackOverflow上找到一个类似的问题：

sorting pig section 帕维 stackoverflow hadoop load apache-pig

bash - 来自 Java 进程的 shell 函数错误 "exporting"

我有一个看起来像这样的脚本:#!/bin/bashfunctionfunc1(){echo"HELLO!"}export-ffunc1functionfunc2(){echo"HI!!"func1}export-ffunc2我在本地启动了一个hadooptasktracker，我的/usr/lib/hadoop/conf/hadoop-env.sh看起来像这样:#..fewconfigurationparams#sourcemy_shell_file.sh#my_function当我启动tasktracker时，一切都很好。它打印出我在my_function中的几个echo语句。当我使

amp exporting code section function bash shell hadoop

exception - 清理失败的 map

我的映射器会将一些数据写入本地磁盘，并在映射器完成时清理它。但是，如果发生错误(发生异常)，则不会调用cleanup()方法。我可以在我的映射器中捕获异常，但我无法处理未在我的映射器中调用的异常(例如:Jobtracker故障转移到备用节点)。有什么方法可以在映射器获取失败时进行清理？最佳答案您可以覆盖mapper的run方法，以在上下文中围绕输入键的迭代包含一个try/catch并确保调用清理:@Overridepublicvoidrun(){setup(context);try{while(context.nextKeyVa

exception map 射器 section context hadoop mapreduce

hadoop - 无法执行大于 10Kb 的数据

我在服务器上安装了Hadoop1.3。还安装了Ambari，允许详细查看系统。我已经安装了Hue并且一切正常，但是我有一个只适用于非常小的数据(2Kb)的pig脚本，当我尝试将数据的大小增加到>10Kb时(我重复了数据以查看这是否是问题)它错误地说:Message:Jobfailed!Error-#offailedMapTasksexceededallowedlimit如果有人能提供帮助那就太好了。我有一种感觉，这是mapred中的一个配置，我必须更改它，但我尝试过的似乎没有做任何事情，因此我很高兴。谢谢最佳答案您显示的错误消息

hadoop 10 section 的 stackoverflow apache-pig hue

hadoop - 比较hadoop hdfs中的时间戳

我是hadoop的新手，而且我手头有一个问题。有没有办法比较HDFS中两个文件之间的时间戳？非常感谢任何帮助。最佳答案使用FileSystem.getFileStatus(Path)获取FileStatus的方法返回对象，可以通过FileStaus.getModifiedTime()获取文件的修改时间方法FileSystemfs=FileSystem.get(conf);longts1=fs.getFileStatus(newPath("/path/to/file1")).getModifiedTime();longts2=fs

hadoop hdfs section apache

java - 如何在 Hadoop MapReduce 中对结果进行排序并剔除顶部条目？

我们正在从一个看起来像这样的文件中读入。100363002100341895100355361100355643我们需要做两件事:1-按右列排序2-去掉前3个结果所以它看起来像这样:100341895100355643100363002我该怎么做？最佳答案 1)为了获得前3个结果，最好在Mapper中将所有值写在一个键下:context.write(NullWritable.get(),value);在Reducer中，您只能获取前三个结果并跳过其他结果。2)现在你所要做的，它的排序值，请搜索“Hadoopsecondarysor

剔除条目 section hadoop-how-to-do-secondary-sort-o secondary java hadoop mapreduce hdfs

java - 在映射器之间共享 FSDataInputStream？

我有一份工作，我想跨多个映射器访问同一个文件。最初我尝试在每个映射器中打开并搜索文件，但事实证明这非常慢。是否可以在run()方法中打开文件(我在其中执行job.SetOutputPath等操作)，然后与Mappers共享此打开的文件，以便我没有100个Mappers分别打开同一个文件的令人难以置信的开销？最佳答案是的，这实际上是可能的。如果您在作业开始之前设置分布式缓存并向其加载文件，它将自动发送到映射器。示例分布式缓存设置:StringfileLocation;//setthistofileabsolutelocationC

射器 FSDataInputStream section fileLocation java database hadoop mapreduce hdfs

hadoop - 为什么 Hadoop 洗牌时间比预期的要长

我试图找出在简单的hadoopwordcount示例中哪些步骤花费了多少时间。在此示例中，使用了3个映射和1个reducer，每个映射生成约7MB的随机数据。我有一个通过1Gb交换机连接的集群。当我查看作业详细信息时，意识到在所有maptask完成后改组需要大约7秒，这比传输这么小的数据的预期要多。这背后的原因可能是什么？谢谢最佳答案 Hadoop使用心跳与节点通信。默认情况下，hadoop使用最小心跳间隔等于3秒。因此，hadoop会在两次心跳(大约6秒)内完成您的任务。更多详情:https://issues.apache.or

洗牌 hadoop section https

hadoop - 数据节点中的文件传输 - hadoop

要传输文件到数据节点，hadoop使用什么协议(protocol)？SSHorhttporhttps 最佳答案我想TCP就是您想要的答案。服务器是DataXceiverServer客户是DFSClient.基本上，他们使用JavaSocketAPI。关于hadoop-数据节点中的文件传输-hadoop，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/19899083/

hadoop 点中 section apache mapreduce