草庐IT

hive-overwrite

全部标签

database - Hadoop/Hive 查询将一列拆分为几列

我正在使用HIVE和两个看起来像(或多或少)的表:-TABLE1定义为[(Variables:string),(Value1:int),(Value2:int)]字段“变量”看起来像“x0,x1,x2,x3,...,xn”-TABLE2定义为[(Value1Sum:int),(Value2Sum:int),(X1:string),(X4:string),(X17:string)]我使用以下查询将table1“转换”为table2:INSERTOVERWRITETABLEtable2SELECTsum(v1),sum(v2),x1,x4,x17FROM(SELECTValue1asv1,

hadoop - 从 MapReduce 作业向 Hive 添加分区

我是Hive和MapReduce的新手,非常感谢您的回答并提供正确的方法。我在hive中定义了一个外部表logs,在日期和源服务器上分区,外部位置在hdfs/data/logs/上。我有一个MapReduce作业,它获取这些日志文件并将它们拆分并存储在上述文件夹下。喜欢"/data/logs/dt=2012-10-01/server01/""/data/logs/dt=2012-10-01/server02/"......在MapReduce作业中,我想将分区添加到Hive中的表日志中。我知道这两种方法altertable命令--太多的altertable命令添加动态分区对于方法二,我

xml - 如何将xml文件加载到Hive中

我在处理Hive表时遇到以下问题。我的HDFS中有超过10亿个xml文件。我想要做的是,每个xml文件都有4个不同的部分。现在我想为每个xml文件拆分并加载每个表中的每个部分示例:1233222//havinglotofxmltages//havinglotofxmltages//havinglotofxmltages//havinglotofxmltages我有四张tablesection1Tableidsection1//fieldssection2Tableidsection2section3Tableidsection3section4Tableidsection4现在我想将数

hadoop - HIVE 创建表不为空

这是我在DB2数据库中的查询:CREATETABLEMY_TABLE(COD_SOCCHAR(5)NOTNULL);是否可以在HIVE中重现“NOTNULL”?PIG呢? 最佳答案 不,目前不可能。Hive很难强制执行列约束。 关于hadoop-HIVE创建表不为空,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/25186539/

python - Hive 转换使用 Python : Unable to initialize custom script

我正在尝试通过将Python脚本作为映射器来测试HiveTRANSFORM。我的hive脚本是:addfile/full/path/to/mapper.py;setmapred.job.queue.name=queue_name;usemy_database;selecttransform(s.year,s.month,s.day,s.hour)using'mapper.py'frommy_tableslimit10;我的Python映射器脚本只是试图回应输入:#!/usr/local/bin/pythonimportsysforlineinsys.stdin:printline我尝试

hadoop - 如何避免为 Hive 查询生成空的 .deflate 文件?

当我运行Hive查询时,生成了大量空的.deflate文件(它们实际上大约8个字节,我认为这是.deflate文件)。我怀疑发生这种情况是因为查询需要大量的reducer。我想知道是否有办法避免生成这些空的.deflate文件?提前致谢林 最佳答案 .deflate是默认的压缩编解码器Hive有压缩设置,可用于减少Hive占用的磁盘空间量用于其查询。当属性hive.exec.compress.output=true时,Hive将使用codec由mapred.map.output.compression.codec属性配置以压缩HDF

hadoop - 计算列上的 Hive 分区修剪

我在Hive上有几个表,我的查询试图检索过去x天的数据。当我使用直接日期时,Hive正在修剪分区,但当我改用公式时,Hive正在执行全表扫描。select*fromf_eventwheredate_key>20160101;scannedpartitions..s3://...key=20160102[f]s3://...key=20160103[f]s3://...key=20160104[f]比方说,如果我使用公式来获取过去4周的数据Selectcount(*)Fromf_eventfWheredate_key>from_unixtime(unix_timestamp()-2*7*

hadoop - 子查询中的 Hive 'limit' 在完整查询后执行

我正在配置单元查询中测试一个相当费力的rlike函数。我想我会先针对一个子集进行测试,然后再将其应用于我的TB+数据。完整查询是:createtableproxy_parsed_cleanasselecta.*,casewhendomainnamerlike'.*:443$'then1else0endasused_httpsfromproxy_parseda;因为有这么多数据,我写了一个查询(表面上)会针对一个子集进行操作:selectcasewhena.domainnamerlike'.*:443$'then1else0endasused_httpsfrom(selectdomain

sql - (Hive, SQL) - 如何对列内的字符串列表进行排序?

我在Hive(SQL)中遇到大数据问题。SELECTgenre,COUNT(*)ASunique_countFROMtable_nameGROUPBYgenre结果如下:genre|unique_count----------------------------------Romance,Crime,Drama,Law|1560Crime,Drama,Law,Romance|895Law,Romance,Crime,Drama|942Adventure,Action|3250Action,Adventure|910我想要的是按genreASC|DESC对元素进行排序并得到如下结果gen

sql - 在 hive 表中插入的值,双引号用于来自 csv 文件的字符串

我正在将一个csv文件导出到配置单元表中。关于csv文件:列值用双引号括起来,用逗号分隔。来自csv的示例记录"4","good""3","notbad""1","veryworst"我用下面的语句创建了一个hive表,创建外部表currys(review_ratingstring,review_commentstring)由','分隔的行格式字段;表已创建。现在我使用命令loaddatalocalinpath加载了数据并且成功了。当我查询表格时,select*fromcurrys;结果是:"4""good""3""notbad""1""veryworst"代替4good3notbad