hive-overwrite

hadoop - 当我在 Hive 中使用 OpenCSVSerde 时，为什么所有列都创建为字符串？

我正在尝试使用OpenCSVSerde和一些整数和日期列创建一个表。但是列被转换为字符串。这是预期的结果吗？作为一种解决方法，我在此步骤之后进行了显式类型转换(这使得整个运行速度变慢)hive>createexternaltableifnotexistsresponse(response_idint,lead_idint,creat_datedate)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES('quoteChar'='"','separatorChar'='\,','ser

OpenCSVSerde hadoop section 39 hive create-table opencsv hive-serde

hadoop - 如何在 Hive 中使用 NOT IN

假设我有2个表，如下所示。现在，如果我想获得使用sql给出的结果，insertintoBwhereidnotin(selectidfromA)这将在表B中插入3George。如何在hive中实现这个？表Aidname1Rahul2Keshav3George表Bidname1Rahul2Keshav4Yogesh 最佳答案 NOTIN在具有不相关子查询的WHERE子句中是supportedsinceHive0.133年多以前，即2014年4月21日发布。select*fromAwhereidnotin(selectidfromBwhe

何在 hadoop code section pre hive bigdata

hadoop - 在 Hadoop Hive 中计数

我想计算映射中相似的值，其中键是Hive表列中的值，对应的值是计数。例如，对于下表:+-------+-------+|Col1|Col2|+-------+-------+|Key1|Val1||Key1|Val2||Key2|Val1|+-------+-------+所以hive查询应该返回类似的东西Key1=2Key2=1 最佳答案看起来您正在寻找一个简单的分组方式。SELECTCol1,COUNT(*)FROMTableGROUPBYCol1 关于hadoop-在Hadoop

中计 hadoop section code Key hive

arrays - Hive 数组类型的求和值

Hive有一个非常好的Array类型，它在理论上非常有用，但在实践中，我发现关于如何使用它进行任何类型的操作的信息很少。我们将一系列数字存储在数组类型的列中，并且需要在查询中对它们求和，最好是从第n个到第m个元素。是否可以使用标准HiveQL或是否需要UDF或客户映射器/缩减器？注意:我们在EMR环境中使用Hive0.8.1。最佳答案我会为此编写一个简单的UDF。您需要在构建路径中包含hive-exec。例如，如果是Maven:org.apache.hivehive-exec0.8.1一个简单的原始实现看起来像这样:packag

求和 arrays code pre section hadoop aggregate hive aggregation

sql - hive 中是否有等效的 sql WITH 子句？

未能在规范中找到答案。所以，我想知道:我可以在hive中做类似的事情吗？insertintotablemy_tablewithaas(select*from...where...),bas(select*from...where...)selecta.a,a.b,a.c,b.a,b.b,b.cfromajoinbon(a.a=b.a); 最佳答案自版本0.13.0起，Hive中提供了With。Usagedocumentedhere. 关于sql-hive中是否有等效的sqlWITH子句

等效 sql section code select hadoop hive

hadoop - Spark 作业未在 Hive 数据库中找到表

我在Hive的默认数据库中有一个表，并且可以在命令行中成功地从该表中获取记录:>hive:select*frommy_table;但是当我在Spark中创建一个作业来运行时，它只会抛出这样的异常:INFOmetastore.HiveMetaStore:0:get_table:db=defaulttbl=my_table16/01/0403:41:42INFOHiveMetaStore.audit:ugi=etlip=unknown-ip-addrcmd=get_table:db=defaulttbl=my_tableExceptioninthread"main"org.apache.s

hadoop Spark section table strong apache-spark hive

hadoop - Hive 不显示表

我是Hadoop和Hive世界的新手。我有一个奇怪的问题。当我在处理hive提示时。我创建了几个表，Hive正在显示这些表。当我再次启动Hive终端“显示表”时退出Hivesession后；没有显示任何表格!。我可以在HDFS的“/user/hive/warehouse”中看到表。我做错了什么。你能帮我解决这个问题吗？最佳答案 BalduZ是对的。在$HIVE_HOME/conf/hive-site.xml中设置它属性名=javax.jdo.option.ConnectionURL属性值=jdbc:derby:;databas

hadoop Hive section 中设

hadoop - Apache hive MSCK REPAIR TABLE 未添加新分区

我是ApacheHive的新手。在处理外部表分区时，如果我直接向HDFS添加新分区，则在运行MSCKREPAIR表后不会添加新分区。以下是我试过的代码，--创建外部表hive>createexternaltablefactory(namestring,empidint,ageint)partitionedby(regionstring)>rowformatdelimitedfieldsterminatedby',';--详细的表格信息Location:hdfs://localhost.localdomain:8020/user/hive/warehouse/factoryTableTy

hadoop Apache code factory testing mapreduce hive apache-hive

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换，因此它不能是S3的直接副本。我将使用Spark来访问数据，但我想知道是否可以不使用Spark来处理它，写回S3，然后复制到Redshift，如果我可以跳过一个步骤，运行查询以提取/转换数据，然后将其直接复制到Redshift？最佳答案没问题，完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

Redshift Parquet section code 34 hadoop amazon-s3 apache-spark apache-spark-sql

Hadoop- hive : Delete data which is older than specified no of days

我正在从事一个电信项目，该项目使用Hadoop-hive进行数据分析。一天，我们将获得数百万条记录。在指定的天数之后，我们需要删除旧数据，因为我们没有存储容量。删除记录的最佳方法是什么？附加信息:这些配置单元表将有一个包含填充日期的列。最佳答案我认为您的用例非常适合在Hive表中使用“日”分区。如果“天”只是一列，那么维护和清理表格将变得困难。分区在Hive中的真正含义是每个“天”都有一个目录例如:createtablemytable(...)partitionedby(daystring)因此，当您添加数据时，您将在HDFS中

specified Hadoop code section mytable hive bigdata

89 90 919293 94 95