草庐IT

joined_table

全部标签

hadoop - Hive alter table 语句

ALTERTABLEabcADDPARTITION(year= 2014,month=1,day=1)location'/data/input/abc/year=2014/month=1/day=1';FAILED:ParseExceptionline1:47character' 'notsupportedhere为什么会出现这个错误 最佳答案 出现错误是因为您的分区命令中有空格。year=2014试试看year=2014...假设您的年份列是int。类型。如果它是你需要的字符串year='2014'

hadoop - 集成 Hbase 和 Hive : Register Hbase table

我正在使用包含以下版本的Hbase和Hive的HortonworksSandbox2.0ComponentVersion------------------------ApacheHadoop2.2.0ApacheHive0.12.0ApacheHBase0.96.0ApacheZooKeeper3.4.5...和我正在尝试使用以下查询将我的hbase表注册到配置单元中CREATETABLEIFNOTEXISTSDocument_Table_Hive(keySTRING,authorSTRING,categorySTRING)STOREDBY‘org.apache.hadoop.hiv

hadoop - PIG Latin 中的 JOIN 条件

SQLSELECTm.x,m.y,n.a,n.bfrommydata1m,mydata2nWHEREm.x=n.aANDm.y>=n.ypigA=LOAD'mydata1'AS(x:int,y:datetime);B=LOAD'mydata2'AS(a:int,b:datetime);我现在需要使用上述sql条件连接两个表。我将如何使用连接条件在PIG中实现上述逻辑? 最佳答案 试试这个:A=LOAD'mydata1'AS(x:int,y:datetime);B=LOAD'mydata2'AS(a:int,b:datetime);C

hadoop - Hive - 静态分区 - 直接创建分区目录与使用 alter table 语句的区别

下面两个在hive中创建静态分区的语句之间是否存在任何内部/性能差异,我已经尝试了两种方法并且在将数据加载到分区后它们都可以正常工作dfs-mkdir/user/cloudera/sqoop_import/avroData/orders_part/order_month=2014-02;altertableorders_partaddpartition(order_month='2014-02'); 最佳答案 此命令:dfs-mkdir/user/cloudera/sqoop_import/avroData/orders_part/

hadoop - Hive 'alter table <table name> concatenate' 是如何工作的?

我有n(large)个小型orc文件,我想将它们合并到k(small)个大型orc文件中。这是在Hive中使用altertabletable_nameconcatenate命令完成的。我想了解Hive是如何实现的。如果需要,我希望使用Spark进行任何更改来实现这一点。任何指针都会很棒。 最佳答案 根据AlterTable/PartitionConcatenate:如果表或分区包含很多小的RCFiles或ORC文件,那么上面的命令会将它们合并成更大的文件。在RCFile的情况下,合并发生在block级别,而对于ORC文件,合并发生在

hadoop - 为什么在执行 "/shared"时未列出 `hadoop fs -ls` 目录,尽管在执行 `hadoop fs -ls/shared/table_name` 时它是可见的

当我执行-ls命令时,未列出/shared目录[cts573151@aster2~]$hadoopfs-lsdrwx-------cts573151supergroup02016-12-2105:30.Trashdrwxr-xr-x-cts573151supergroup02017-02-0112:28.sparkStagingdrwx-------cts573151supergroup02017-02-0211:37.stagingdrwxr-xr-x-cts573151supergroup02016-12-1911:40_sqoopdrwxr-xr-x-cts573151super

hadoop - 使用 sqlcontext spark 执行 sql join

这个问题在这里已经有了答案:UseSparkSession.sql()withJDBC(1个回答)关闭4年前。我尝试运行查询以使用sqlcontext等联接查询Oracle数据库,valsql="selectafromb,cwhereb.join=c.join"valdataframe=sqlcontext.read.jdbc(url,sql,connection_properties)我收到无效的表名错误。但是,如果我尝试像下面这样查询表,它就可以正常工作。valdf1=sqlcontext.read.jdbc(url,"b",connection_properties)valdf2

hadoop - 在 Hive 中使用 Join 更新查询

我正在尝试执行以下操作:UPDATEaSETcol1=B.col1,col3=B.col4FROMtableAJOINtableBona.col2=b.col2WHEREA.col5=B.col5;但是,这会引发以下错误:编译语句时出错:FAILED-ParseException-在“col4”附近的“from”处缺少EOF我尝试重新排列set和from子句,但无法执行查询。ParseExceptions一次又一次地出现。我的表类型、列数据类型都相同。在表上运行静态更新工作得很好。有什么方法可以让我在hive中加入join来运行更新?请帮忙。 最佳答案

oracle - Sqoop 导入失败 : Cannot convert SQL type 2005 when trying to import Oracle table

尝试将Oracle数据库中的表作为parquet文件导入时出现以下错误。ERRORtool.ImportTool:ImportedFailed:CannotconvertSQLtype2005这个问题已经有人提出了here,但建议的解决方案对我没有帮助。我正在尝试使用以下命令从命令行导入一个表,中的参数用相应的值填充:sqoopimport--connectjdbc:oracle:thin:@:/--username--password--hive-import--query'SELECT*FROM.WHERE$CONDITIONS'--split-by--hive-database-

hadoop - 优化配置单元查询以避免 JOIN

问题类似于this除了我想知道我是否可以在一个查询中完成。这就是我的工作,但众所周知,连接很昂贵。有更好的hql吗?selecta.tbl1,b.tbl2from(selectcount(*)astbl1fromtbl1)ajoin(selectcount(*)astbl2fromtbl2)bON1=1 最佳答案 是的,连接很昂贵当说join是昂贵的,这通常是指你在多个表中有很多记录需要相互匹配的情况。根据该描述,您的加入并不昂贵,因为您只加入了2个集合,每个集合有1条记录。但是,您必须查看开销也许您注意到单个计数所用的时间比您用来