hive-overwrite

python - 来自 Hive 查询的持久 PySpark Dataframe

我正在从Hive表中获取一些数据:df=sqlContext.sql('selectshubiru,datefromthebigtablebtwherebt.num>10')df.show()#herethequeryisprocessedandtheresultsshown而且一切正常。现在我想对df进行操作，但是每次我对df进行操作时，它都会再次运行针对Hive的查询:importpyspark.sql.functionsasfuncfromdatetimeimportdatetimefrompyspark.sql.typesimportTimestampTypedt_udt=fu

持久 Dataframe code section df python hadoop apache-spark pyspark

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如；explode)吗？表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

scala code example 34 hadoop apache-spark hive apache-spark-sql

hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？

我创建了一个存储为ORC的托管配置单元表，当加载.txt文件时它工作正常，但是我无法将ORC文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将HDFS中存在的ORC文件加载到配置单元表中。在hive中创建一个表。createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTF

ORC hadoop section 配置单 String hive hdfs hiveql

sql - Hive 连接或子查询混淆

(SELECTid,SUM(hits/ab)ASHABFROMbattingGROUPBYid)bSELECTid,bmonth,bstateFROMmasteraWHEREbmonth>=0ANDbstateisNOTNULLGROUPBybmonth,bstate到目前为止，我有这些胡言乱语，但我迷失了如何形成连接然后继续。我不确定从哪里开始得到东西。我们应该加入还是使用子查询？请协助在下面查找架构:CREATEEXTERNALTABLEIFNOTEXISTSbatting(idSTRING,yearINT,teamSTRING,leagueSTRING,gamesINT,abIN

混淆 Hive STRING INT bstate sql hadoop

linux - 转瞬即逝 + hive : CLUSTERED TABLE

我在HIVE中有聚簇表。所有查询都在hive-client中工作。但是我不能用这个表运行任何查询:Query...failed:Hivetableiscorrupt.Itisdeclaredasbeingbucketed,butthefilesdonotmatchthebucketingdeclaration.Thenumberoffilesinthedirectory(0)doesnotmatchthedeclaredbucketcount(8)forpartition:在设置hive.enforce.bucketing=true;之后错误:Query...failed:Hiveta

转瞬即逝转瞬 code section bucketing linux hadoop hive presto

sql - 在 Hive SQL 中，使用分区键基于另一个表中的列创建表

我想根据现有表中的列创建一个新表，在配置单元中添加一个新的分区列。我想在hivesql中实现这个目标。除了下面的sql或者使用kettle之类的ETL工具还有没有别的办法createtableifnotexiststable_name(col1,col2,col3,……,coln)partitionedbydt;其中col1到coln来自已经存在的旧表，dt是新添加的partitionkey。因为旧表太大，可能有几百列，罗列出来会很累。但是，下面的sql显示语法错误:createtableifnotexiststable_namelikeolder_table_namepartitio

Hive sql section blockquote col hadoop

hadoop - 如何从 hive 或 impala 读取 Hbase 当前和以前版本的数据？

我想从Hive或Impala读取Hbase当前和以前版本的数据。在我最初的研究中，我发现只能从Hive访问当前版本。那么，目前有什么方法可以从hive或Impala中检索旧版本吗？最佳答案在Hive的情况下:请看this似乎不可能在Hive中获得同一单元格的不同版本(即使Hbase具有同一单元格的多个版本)，它总是返回具有最新时间戳的单元格。我相信我们可以从战术上解决这个问题。我们可以将以前的版本附加到Hbase行键或者作为单独的单元格(名称，值)如果是Impala:请看limitations节

hadoop impala section strong stackoverflow hbase

hadoop - hive elasticsearch外部表创建

当我在ElasticSearchHandler存储的hive中创建外部表时，它可以正常工作:*CREATETABLEtest(daySTRING,idCustSTRING)STOREDBY'org.elasticsearch.hadoop.hive.EsStorageHandler'TBLPROPERTIES('es.resource'='test/test','es.mapping.names'='day:@timestamp','es.nodes'='localhost');*当我向其中插入数据时，它起作用了但是当我尝试查询它时，出现错误:异常java.io.IOException

elasticsearch hadoop 39 section test hive

hadoop - Hive:如果我删除当前正在查询的文件会怎样？

假设我们有一个Hive表作为这样的目录存储在HDFS上:data/|--file1|--file2|--file3如果我对该目录开始长时间查询然后删除其中一个文件会怎样？我可以想到3种情况:文件描述符在开始时打开，数据一直保留到查询结束，即使文件路径不再可用于新查询。Hive会记住文件路径，如果找不到已删除的文件，查询就会失败。Hive不记住文件路径，只接受当前目录中的文件。如果Hive的行为类似于(2)，并且在查询期间删除文件是不安全的，从被查询目录中删除旧数据的正确方法是什么？最佳答案如@Shankarsh所述，Hive尝试

hadoop Hive strong code section delete-file

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分，即20151102114450但是当我运行查询时，我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex Hive 39 section code azure hadoop hiveql

54 55 565758 59 60