草庐IT

max_heap_table_size

全部标签

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

hadoop - 同时使用 max 和 sum

我有一种情况,我必须求和并最大数量来处理多个每天条目。我在clouderahive中有一个输入表:----------------------------date1|date2|qty----------------------------20180101|20180101|50----------------------------20180101|20180101|15----------------------------20180101|20180102|1----------------------------20180101|20180103|3--------------

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

hadoop - Pig - 分组后 MAX 不工作

我正在使用Pig0.12.1和Map-R。在对其他字段的关系进行分组后,我试图找到一个字段的ma​​x。在评论中引用以下pig脚本和关系结构-r1=foreachSomeRelationgenerateflatten(group)as(c1,c2);--r1:{c1:biginteger,c2:biginteger}r2=groupr1byc1;--r2:{group:chararray,r1:{(c1:chararray,c2:biginteger)}}DUMPr2;/*output-1234|{(1234,9876)}2345|{(2345,8765)}3456|{(3456,76

hadoop - 配置单元 : getting parseexception in simple create external table query

我已经在mac上设置了hive。在执行简单的创建外部表查询时。我正在跟踪堆栈跟踪:hive>CREATEEXTERNALTABLEweatherext(wbanINT,dateSTRING)>ROWFORMATDELIMITED>FIELDSTERMINATEDBY‘,’>LOCATION‘/hive/data/weatherext’;NoViableAltException(80@[])atorg.apache.hadoop.hive.ql.parse.HiveParser.columnNameTypeOrPKOrFK(HiveParser.java:33341)atorg.apac

【flink番外篇】9、Flink Table API 支持的操作示例(1)-完整版

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink的基础部分,比如术语、架构、编程模型、编程指南、基本的datastreamapi用法、四大基石等内容。3、FlikTableAPI和SQL基础系列本部分介绍FlinkTableApi和SQL的基本用法,比如TableAPI和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、FlikTableAPI和SQL提高与应用系列本部分是tableapi和sql的应用部分,和实际的生产应

hadoop - 在 reducer 函数中选择 max key

这个问题在这里已经有了答案:Findingbiggestvalueforkey(1个回答)关闭7年前。我对reducer的理解是,它从sort和shuffle的中间o/p文件中处理一对键值对。我不知道如何访问具有排序和混洗键值对的中间文件。一旦无法访问中间文件,就无法在reducer模块中编写代码来选择最大的key。我不知道如何对一次接收一对K、V的reducer进行编程,以仅将最大的键及其对应的值打印到最终输出文件。假设这是来自映射器的中间文件,它也经过了排序和混洗..1个2是4这是什么我希望reducer在最终输出文件中只打印“4thiswhat”。由于reducer的内存中没有整

hadoop - ALTER TABLE (Hive) 中的动态数据

我的查询出现错误,我不完全确定原因:ALTERTABLErevenueADDPARTITION(ds=from_unixtime(unix_timestamp(),'yyyy-MM-dd'))LOCATIONCONCAT('s3://userenroll-analytics/prod/revenue/avro/',from_unixtime(unix_timestamp(),'yyyy/MM/dd'))错误:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:38cannotrecognizeinputnear'from_un

java - 鉴于我正在将 DataBag 溢出到磁盘,为什么这个 Pig UDF 会导致 "Error: Java heap space"?

这是我的UDF:publicDataBagexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;intspillCount=0;DataBagoutputBag=BagFactory.newDefaultBag();DataBagvalues=(DataBag)input.get(0);for(Iteratoriterator=values.iterator();iterator.hasNext();){Tupletuple=iterator.next();//spillCount++;...if(someco