HADOOP_PREFIX

hadoop - Hue UI 中的黑斑羚时间

我正在尝试估算Impala中从简单到复杂的查询所需的时间，并使用HueUI。是否可以通过UI知道完成查询所需的时间。最佳答案 Impala或Hive仅提供进度的一般估计。Hue可以尝试通过根据当前进度推断开始时间来显示结束时间。欢迎关注https://issues.cloudera.org/browse/HUE-1219. 关于hadoop-HueUI中的黑斑羚时间，我们在StackOverflow上找到一个类似的问题： https://stackoverf

黑斑 hadoop section https stackoverflow hue impala

hadoop - 当您使用 Pig Latin 有许多小输入文件时提高性能

目前我正在处理大约19GB的日志数据，而且它们是分开的，因此输入文件的编号是145258(pigstat)。在WebUI中执行应用程序和启动mapreduce作业之间，准备工作浪费了大量时间(大约3小时？)，然后mapreduce作业开始。而且mapreduce作业本身(通过Pig脚本)非常慢，大约需要一个小时。mapreduce逻辑没有那么复杂，就像一个groupby操作。我有3个数据节点和1个名称节点，1个辅助名称节点。如何优化配置以提高mapreduce性能？最佳答案您应该将pig.maxCombinedSplitSize

许多 hadoop section 长时 mapreduce apache-pig

hadoop - 如何从HDFS加载数据到Hive

我正在尝试将数据从HDFS加载到配置单元中。但我观察到数据正在移动，这意味着在将数据加载到配置单元环境后，如果我查看HDFS，我加载的数据不存在。你能用例子回答这个问题吗？最佳答案如果你想从HDFS中的数据在Hive中创建一个表而不将数据移动到/user/hive/warehouse/，你应该使用可选的EXTERNAL和LOCATION关键字。例如，来自thispage，我们有以下示例CREATETABLE语句:hive>CREATEEXTERNALTABLEuserline(lineSTRING)ROWFORMATDELIMI

hadoop HDFS code section 配置单

hadoop - 如何在 hdfs 中调用 FS shell

我想在我的电脑上运行hdfs命令。但我无法打开fs外壳。当我尝试命令时hadoopfs-ls命令它给出错误hadoop:找不到命令。apchefsshell指南说我们可以使用调用shellbin/hadoopdfsargs(在hadoop主页内)但是我应该为args部分使用什么？他们在说某种路径，但路径是什么？最佳答案嗯，好的，我不确定我是否正确理解了你的问题，但你似乎想像使用任何其他shell命令(如ls、mv、cp等...)。如果你想这样做，你必须像下面这样编辑你的.bash_profile文件:~]$cd~]$vim.ba

何在 hadoop code section hdfs

hadoop - 无法确定 Hadoop 版本信息

我已经在ubuntu上安装了hadoop，它运行良好。ubuntu:/home/hduser/hive-0.10.0-cdh4.3.1$jps2702DataNode3101ResourceManager4879Jps2948SecondaryNameNode3306NodeManagerhadoop_version=Hadoop2.0.0-cdh4.3.0然后我从apachetarballs安装了hive(hivversion-hive-0.10.0)并尝试运行bin/hive。但是我遇到以下错误:无法确定Hadoop版本信息。hadoop版本返回:/home/hduser/hado

hadoop code cdh4 hive

hadoop - 使用 Kerberos 访问 Cloudera Hadoop 会出现 TokenCache 错误 : Can't get Master Kerberos principal for use as renewer

我正在尝试从MacBookProOSX10.8.4访问ClouderaHadoop设置(HIVE+Impala)。我们在Linux服务器上安装了ClouderaCDH-4.3.0。我已将CDH-4.2.0tarball提取到我的MacBookPro。我已经设置了正确的配置和Kerberos凭据，以便像“hadoop-fs-ls/”这样的命令可以工作并且HIVEshell可以启动。但是，当我执行“显示数据库”命令时，出现以下错误:>hive>showdatabases;>Failedwithexceptionjava.io.IOException:java.io.IOException:

Kerberos TokenCache section hadoop gt cloudera

Hadoop -copyFromLocal 找不到文件

我正在尝试通过oozieshell执行-copyFromLocal。hadoopfs-copyFromLocal'/usr/test/test1''/user/hue/oozie/workspaces/shell/'但是有时会报错log4j:ERRORCouldnotfindvalueforkeylog4j.appender.TLAlog4j:ERRORCouldnotinstantiateappendernamed"TLA".copyFromLocal:`/usr/test/test1':NosuchfileordirectoryFailingOozieLauncher,Maincl

copyFromLocal Hadoop section code oozie

hadoop - Cygwin SSHD 服务在 Windows 中启动和停止

我正在尝试在我的机器(win7、64位)上配置hadoop设置，并且我已经为此安装了Cygwin。在Cygwin安装期间，我还下载并安装了设置所需的openSSH包。在Cygwin终端上，我使用ssh-hot-config命令创建了一个服务，但是当我启动该服务时，错误显示“CygwinSSHD服务已启动和停止”。我无法继续进行。最佳答案我引用了这两个链接github和ebiquity在我的Windows7PC上设置hadoop，在两个链接中都明确提到在“应该使用特权分离吗？”时说“不”。(请参阅github链接的第9点)但这对我

Windows hadoop section Cygwin noreferrer openssh

hadoop - 使用 PIG 处理小文件

根据我的理解，Map/Reduce对于大文件效果更好。(我理解这是由于拆分逻辑等)，我们可以将文件作为值和文件名作为序列文件中的键并进行优化。现在的问题是我正在使用PIG进行分析，我们有大约数千个文件，但所有文件都以KB为单位。正如我们所知，piglatin被转换并作为MR作业运行，所以我怀疑MR作业会因为小文件而效率低下。有什么方法可以控制通过pig处理的小文件吗？有开箱即用的解决方案吗？最佳答案 Pig具有将小文件组合成大块的功能:http://pig.apache.org/docs/r0.11.1/perf.html#com

hadoop PIG section combine-files stackoverflow mapreduce apache-pig

java - Hadoop 集群卡住卡在 Reduce > copy >

到目前为止，对于这个问题，我已经尝试了这里的解决方案，1，在这里，2.然而，虽然这些解决方案确实导致执行mapreduce任务，但看起来它们只在名称节点上运行，因为我得到类似于此处的输出，3。.基本上，我正在使用我自己设计的mapreduce算法运行一个2节点集群。mapreducejar在单节点集群上完美执行，这让我觉得我的hadoop多节点配置有问题。要设置多节点，我遵循了教程here.为了报告出了什么问题，当我执行我的程序时(在检查名称节点、任务跟踪器、作业跟踪器和数据节点正在各自的节点上运行之后)，我的程序在终端中的这一行停止:INFOmapred.JobClient:map1

卡住 amp strong gt lt java apache hadoop

87 88 899091 92 93