草庐IT

hadoop - 尝试在 Hue 中运行工作流时出现 Oozie 错误

我目前无法让Oozie在我的hadoop安装上正常工作。感谢任何输入,因为我是所有这一切的初学者。我用:hadoop2.6.0(带Yarn)、oozie4.0.1、hive1.0.0、hue3.7.1、pig0.12它是我在伪分布式中运行的本地安装。我从tars安装了所有东西并手动配置了它,因为遗憾的是从cloudera一键安装在OSX中不起作用。据我所知,Hadoop+Hive在CLI和Hue中都运行良好。Hue的Pig编辑器还不能很好地工作,我可以访问和使用来自HDFS的文件,但是当我尝试使用HCatalog访问Hive表时出现错误(错误2245:无法从loadFuncorg.ap

hadoop - Hue 不想为用户创建主目录 - MapR

我使用MapR,我想从LDAP创建用户。我可以创建我的用户,但Hue不想创建关联文件夹,我收到此消息:“获取当前用户的用户信息时出错,***(错误500)”我尝试使用本地用户,但这是同样的问题...我只有mapr用户,当我手动创建文件夹时没问题,但是当我想更改组或所有者时,我收到此消息:“无法为路径/user/test设置所有者/组mapr/默认值(错误500)”我不明白为什么我有这些问题....请帮帮我。谢谢。编辑:我有一些消息,我用MapRSandbox测试过,我遇到了同样的问题。使用Cloudera或Hortonworks的Hue可以正常工作,当我使用Hue创建用户时,会自动创建

hadoop - 使用 Hue 的 MapReduce oozie 工作流

我正在使用AWS并尝试使用hue为仅map作业创建oozie工作流。我为此采取了mapreduce操作。在尝试了很多方法之后,我无法完成它。我从CLI运行我的工作,它工作正常。我在HDFS中创建了一个名为mapreduce的目录,并将我的driver.java和mapper.java放入其中。在mapreduce目录下,我创建了lib目录并将我的可运行jar放入其中。我附上色调界面的屏幕截图。我遗漏了一些东西,或者我似乎无法将可运行的jar放在适当的位置。除了Hue中的输入和输出目录,我还想添加一个额外的参数。我该怎么做?我的疑惑在于2015-11-0614:56:57,679WARN

hadoop - 如何使用逗号以外的分隔符从 hadoop(通过 hue 中的 hive)导出 csv 数据?

我的问题在标题中。此外,我的情况无法使用hiveCLI,只有hue平台中的hive编辑器。之所以不用xlsx是因为xlsx只能导出30000条记录。 最佳答案 引用下面的问题。用户建议了很多选项。HowtoexportaHivetableintoaCSVfile? 关于hadoop-如何使用逗号以外的分隔符从hadoop(通过hue中的hive)导出csv数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

hadoop - 是否有 Hive on Hue (CDH 5.9.3) 的配置设置限制可以使用的容器数量?

这是我们小组中的一个普遍问题,我们的Hive查询经常扩展以消耗我们CDH集群上的大部分可用YARN执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性,但我们不能随意重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西,以便Hue能够与集群上的其他作业“很好地配合”? 最佳答案 是的,您可以更好地管理从Hue启动的Hive查询中使用的Hadoop集群计算资源的数量

hadoop - Hue WEB UI 未在浏览器中加载

我在本地计算机上安装了Hue,当我提供URL时,浏览器会在浏览器中很好地加载HueWEBUI10.20.30.40:8888在我的浏览器中。当我对安装了Hue的远程计算机(我有root和hdfs权限)执行相同操作时,我的浏览器不会加载Hue,它会继续处理和等待(10-12分钟)。11.22.33.44:8888我可以修改远程机器上的Hue配置文件。请告诉我需要做什么才能正确设置。 最佳答案 如果使用包或tarball版本,请确保http_host绑定(bind)到0.0.0.0。你也可以通过hue_host:8888/dump_co

hadoop - 使用 Pig 将数据存储到 Hbase 使用 Hue 时出错

我的CDH版本是5.1.2,Hbase版本是0.98.1,Hue版本是3.6.0。我执行了这个pig脚本以在Hue中从Hbase加载数据c=LOAD'hbase://analyze_block_v1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('d:*','-loadKeytrue');dumpc;我得到了这个错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/mapreduce/

hadoop - 如何从 Hue/Hive 输出下载所有观察结果?

我正在为这样的问题而苦苦挣扎。在Hue/Hive上执行查询后,我的输出表有120万条观察结果。当我尝试将结果下载为.csv格式时,只能下载100万个观察结果。我知道我可以执行一个查询,选择第一个090万个观察结果并下载结果,然后执行一个查询以提取最后030万个观察结果并下载结果,然后合并到例如R统计包中。但也许有人知道如何用一种方法做到这一点? 最佳答案 您可以将限制提高到超过100万,但要注意它可能会降低Hue的速度:https://github.com/cloudera/hue/blob/master/desktop/conf.

hadoop - 从 Hadoop Hue 下载 csv 文件返回不可读代码

我使用ApacheHue(用户界面)与Hadoop和Hive交互。我将配置单元查询的结果保存在HDFS目录中。(结果集真的很大)然后,我用hue文件浏览器下载了结果文件。一切看起来都很好,但是当我打开csv文件时,我发现分隔符是一些不可读的代码,如下所示:如何解决分隔符问题? 最佳答案 SOH(标题开始)或其Seq等效的Ctrl+A是Hive使用的默认字段分隔符。而所有的\N都代表NULL。这个问题的解决方案取决于使用的Hive版本AsofHive0.11.0theseparatorusedcanbespecified;inearl

django - 启动 Hue Server,CLI 显示 8000,配置显示 8888,实际上是 : Nothing

我已经启动了一个在EC2实例上运行的Hue服务器,该实例具有HDFS的伪分布式设置。当我启动服务器时,CLI指出服务器正在localhost:8000上运行:0errorsfoundDjangoversion1.6.10,usingsettings'desktop.settings'Startingdevelopmentserverathttp://127.0.0.1:8000/QuittheserverwithCONTROL-C.但是,配置告诉它在localhost:8888上启动:###hue.inisample#Webserverlistensonthisaddressandpo