表中

hadoop - 如何列出 Hive 中所有数据库中所有表中的所有列

我需要列出我的Hive中所有数据库的所有表中的所有列。我需要这样一行:Database.table.columncolumn_typecomment显然我可以使用showdatabases;对于我可以使用的每个数据库showtables;并且对于每个表使用:describetable_name;显然，我可以使用位于我的Postgress数据库中某处的Hive_metastore数据库，但我无法访问那里。但我想要一个bash脚本，它可以遍历数据库->表->列并获取详细信息。我已经开始生成数据库列表:hive-e'showdatabases;'|teedatabases.txt比起我要遍历

hadoop - 如何比较一个表中的列名与 impala 中另一个表中的值

列名 hadoop location section origin hive impala

hadoop - 如何将分区 Hive ORC 表中的多个 ORC 文件(属于每个分区)组合成一个大的 ORC 文件

我在Hive中有一个分区的ORC表。在用所有可能的分区加载表后，我得到了HDFS-多个ORC文件，即HDFS上的每个分区目录都有一个ORC文件。对于某些用例，我需要将每个分区下的所有这些ORC文件组合成一个大的ORC文件。有人可以建议我将这些多个ORC文件(属于每个分区)组合成一个大的ORC文件的方法。我已经尝试从分区表创建一个新的非分区ORC表。它确实减少了文件数量，但没有减少到单个文件。PS:从另一个表创建一个表完全是一个map任务，因此使用属性“setmapred.reduce.tasks=1;”将reducer的数量设置为1；没有帮助。谢谢最佳答案

ORC hadoop section CONCATENATE hive partitioning

hadoop - 加入两个表并在配置单元的新表中插入值

我是新手。我需要知道在配置单元中是否可以连接两个表(比如基于CustomedId列的customer_table和issues_table)并使用插入覆盖在配置单元的新表中插入值？最佳答案是的，可以使用CTAS(createtablenew_tableasselect...)语法。createtablenew_tableasselect*fromcustomer_table,issues_tablewherecustomer_table.CustomedId=issues_table.CustomedId;

配置单 hadoop table section hive hiveql

hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？

我创建了一个存储为ORC的托管配置单元表，当加载.txt文件时它工作正常，但是我无法将ORC文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将HDFS中存在的ORC文件加载到配置单元表中。在hive中创建一个表。createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTF

ORC hadoop section 配置单 String hive hdfs hiveql

sql - 在 Hive SQL 中，使用分区键基于另一个表中的列创建表

我想根据现有表中的列创建一个新表，在配置单元中添加一个新的分区列。我想在hivesql中实现这个目标。除了下面的sql或者使用kettle之类的ETL工具还有没有别的办法createtableifnotexiststable_name(col1,col2,col3,……,coln)partitionedbydt;其中col1到coln来自已经存在的旧表，dt是新添加的partitionkey。因为旧表太大，可能有几百列，罗列出来会很累。但是，下面的sql显示语法错误:createtableifnotexiststable_namelikeolder_table_namepartitio

Hive sql section blockquote col hadoop

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分，即20151102114450但是当我运行查询时，我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex Hive 39 section code azure hadoop hiveql

mysql - 从 Hive 表中提取 XML 数据并解析数据

我想从配置单元表中提取特定的列值。该列包含XML数据。如何解析XML数据并从该特定XML列中提取名称和值。我还想将提取的数据插入到另一个Hive表中。最佳答案选项1:LanguageManualXPathUDF示例:selectxpath('','/descendant::c/ancestor::b/@id')fromt1limit1;[1","2]选项2:另一种实现方式是Hive-XML-SerDe在这两个选项中，您都需要具备Xpath表达式知识。如果要将提取的数据插入到另一个表中，请使用createtableasselect

mysql Hive section noreferrer xml hadoop

hadoop - (hadoop.pig) 单个表中的多个计数

所以，我有一个包含两个值的数据，一个是字符串，一个是数字。data(string:chararray,number:int)我正在计算5种不同的规则，1:int为0~1。2:int为1~2.~5:int为4~5.所以我能够单独数出它们，zero_to_one=filteravg_userbyaverage_stars>=0andaverage_stars1andaverage_stars2andaverage_stars3andaverage_stars4andaverage_stars所以，这是可以做到的，但是这只会产生5个单独的表。我想看看有没有办法(花哨是可以的，我喜欢花哨的东西

hadoop pig count number FOREACH apache-pig

sql - 选择 Hive 表中的第一个匹配项

我在hive上有一个表A，如下所示:idmstsaction1231000sleep1231010eat1232001sleep4561200eat4561500drink我想要的是为每个id选择与min(tmst)对应的整个集合。我可以通过运行select*fromAt1semileftjoin(selectid,min(msts)asmstsfromAgroupbyid)t2ont1.id=t2.idandt1.msts=t2.msts;但我想看看我是否可以在没有连接(或自定义reducer)的情况下完成它，因为它很耗时。编辑:澄清一下:我想要得到的是每个id执行的第一个操作(ac

Hive sql code section msts hadoop

23 24 252627 28 29