我的问题在标题中。此外,我的情况无法使用hiveCLI,只有hue平台中的hive编辑器。之所以不用xlsx是因为xlsx只能导出30000条记录。 最佳答案 引用下面的问题。用户建议了很多选项。HowtoexportaHivetableintoaCSVfile? 关于hadoop-如何使用逗号以外的分隔符从hadoop(通过hue中的hive)导出csv数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow
这是我们小组中的一个普遍问题,我们的Hive查询经常扩展以消耗我们CDH集群上的大部分可用YARN执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性,但我们不能随意重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西,以便Hue能够与集群上的其他作业“很好地配合”? 最佳答案 是的,您可以更好地管理从Hue启动的Hive查询中使用的Hadoop集群计算资源的数量
我在本地计算机上安装了Hue,当我提供URL时,浏览器会在浏览器中很好地加载HueWEBUI10.20.30.40:8888在我的浏览器中。当我对安装了Hue的远程计算机(我有root和hdfs权限)执行相同操作时,我的浏览器不会加载Hue,它会继续处理和等待(10-12分钟)。11.22.33.44:8888我可以修改远程机器上的Hue配置文件。请告诉我需要做什么才能正确设置。 最佳答案 如果使用包或tarball版本,请确保http_host绑定(bind)到0.0.0.0。你也可以通过hue_host:8888/dump_co
我的CDH版本是5.1.2,Hbase版本是0.98.1,Hue版本是3.6.0。我执行了这个pig脚本以在Hue中从Hbase加载数据c=LOAD'hbase://analyze_block_v1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('d:*','-loadKeytrue');dumpc;我得到了这个错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/mapreduce/
我正在为这样的问题而苦苦挣扎。在Hue/Hive上执行查询后,我的输出表有120万条观察结果。当我尝试将结果下载为.csv格式时,只能下载100万个观察结果。我知道我可以执行一个查询,选择第一个090万个观察结果并下载结果,然后执行一个查询以提取最后030万个观察结果并下载结果,然后合并到例如R统计包中。但也许有人知道如何用一种方法做到这一点? 最佳答案 您可以将限制提高到超过100万,但要注意它可能会降低Hue的速度:https://github.com/cloudera/hue/blob/master/desktop/conf.
我使用ApacheHue(用户界面)与Hadoop和Hive交互。我将配置单元查询的结果保存在HDFS目录中。(结果集真的很大)然后,我用hue文件浏览器下载了结果文件。一切看起来都很好,但是当我打开csv文件时,我发现分隔符是一些不可读的代码,如下所示:如何解决分隔符问题? 最佳答案 SOH(标题开始)或其Seq等效的Ctrl+A是Hive使用的默认字段分隔符。而所有的\N都代表NULL。这个问题的解决方案取决于使用的Hive版本AsofHive0.11.0theseparatorusedcanbespecified;inearl
我已经启动了一个在EC2实例上运行的Hue服务器,该实例具有HDFS的伪分布式设置。当我启动服务器时,CLI指出服务器正在localhost:8000上运行:0errorsfoundDjangoversion1.6.10,usingsettings'desktop.settings'Startingdevelopmentserverathttp://127.0.0.1:8000/QuittheserverwithCONTROL-C.但是,配置告诉它在localhost:8888上启动:###hue.inisample#Webserverlistensonthisaddressandpo
我有一个运行Yarn框架的ClouderaHadoop安装(CDH4),我也安装了Hue。我注意到,当我通过Hue(Beeswax)界面提交Hive查询时,生成的mapreduce作业会显示在资源管理器WebUI以及Hue“作业浏览器”界面中。但是,如果我在任何节点上运行hivecli应用程序并从那里运行相同的查询,它似乎不会命中任何节点管理器,尽管它确实返回了正确的结果。我能想到的唯一区别是,Hue作业以我登录Hue的用户身份运行,而hivecli作业以启动hivecli的用户身份运行,这是一个不同的用户。我希望通过配置单元CLI提交的查询显示在资源管理器中。他们有什么理由不这样吗?
我是Hue和Oozie的新手。我安装了一个带有Hue的Cloudera5集群。我以Thomas的身份登录Hue,并创建了一个仅运行Hive脚本的Oozie仪表板。但是,当我启动仪表板时,出现以下错误,声称无法在inode/tmp/hadoop-yarn上写入:2015-06-1213:36:01,014WARNActionStartXCommand:523-SERVER[cdh-master]USER[thomas]GROUP[-]TOKEN[]APP[My_Workflow]JOB[0000000-150612132534763-oozie-oozi-W]ACTION[0000000
我正在使用Hive/Hue/MapReduce和jsonSerde。为了让它工作,我将json_serde.jar复制到每个集群节点上的几个lib目录:/opt/cloudera/parcels/CDH/lib/hive/lib/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib/opt/cloudera/parcels/CDH/lib/hadoop/lib/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/lib...在集群的每次CDH更新中,我都必须再次执行此操作。是否有更优雅的方式