草庐IT

selected_parents

全部标签

apache-spark - hive on spark - 为什么 'select *' 不生成 spark 应用程序/执行程序?

我在Spark(执行引擎)上设置了Hive(v2.3.4)。这将启动一个spark应用程序/执行程序:selectcount(*)froms.twhereh_code='KGD78'andh_no='265'为什么这不启动spark应用程序/执行程序:select*froms.twhereh_code='KGD78'andh_no='265' 最佳答案 这-第二种情况-是由于不太知名的"hive.fetch.task.conversion"参数。根据设置方式,Hive可以启动单个“获取任务”,而不是MapReduce作业,即使使用过

mysql - Sqoop 导入 : Specify `select` expressions in a separate file?

将数据从MySQL导入Hive时,我需要规范化几个包含电话号码的文本字段。这需要相当复杂的逻辑,很难用单个SQLreplace函数在Sqoop命令行中表达。是否可以在单独的文件中指定SQLselect表达式并从命令行引用它?谢谢! 最佳答案 你可以试试:$sqoop--options-file/users/homer/work/option.txt-您的option.txt将如下所示:#OptionsfileforSqoopimport##Specifiesthetoolbeinginvokedimport#Connectparam

hadoop - pig : Select records from a relaltion only if it is present in another relation

我有以下电影数据库的数据集:Ratings:UserID,MovieID,RatingMovies:MovieID,Genre我使用以下方法过滤掉类型为“Action”或“war”的电影:movie_filter=filterMoviesby(genrematches'.*Action.*')OR(genrematches'.*War.*');现在,我必须计算war片或Action片的平均收视率。但是评级存在于评级文件中。为此,我使用查询:movie_groups=GROUPmovie_filterBYMovieID;result=FOREACHmovie_groupsGENERATE

hadoop - 如何将查询结果存储到 HiveQL 中的变量中,然后在另一个 select 语句中使用它?

如何将查询结果存储到HiveQL中的变量中,然后在另一个select语句中使用它?例如,每当我存储一个普通变量并在select语句中使用它时,它工作得很好。设置a=1;SELECTCASEWHENb>${hiveconf:a}THENNULLELSE1frommy_table但是当我尝试将查询放入变量时,它似乎存储查询而不是运行它并存储结果。这会导致错误。SETa=SELECTMAX(num)FROMmy_other_table;SELECTCASEWHENb>${hiveconf:a}THENNULLELSE1frommy_table错误是:无法识别select子句中'select'

sql - HIVE SELECT 可以结合 GROUP BY 和 ORDER BY 吗?

我在Hive中做一些相对简单的查询,似乎无法在单个语句中组合GROUPBY和ORDERBY。我可以毫无问题地选择GROUPBY查询的临时表,然后使用ORDERBY在该表上进行选择,但我无法将它们组合起来在一起。例如,我有一个表a,可以执行这个查询:SELECTplace,count(*),sum(weight)fromagroupbyplace;我可以执行这个查询:createtemporarytableresult(placestring,countint,sumweightint);insertoverwritetableresultselectplace,count(*),sum

hadoop - 如果 INSERT OVERWRITE 的 SELECT 查询没有返回任何结果,有没有办法防止 Hive 表被覆盖

我正在开发一个批处理作业,将数据从HDFS文件加载到Hive表中。数据流向如下使用外部Hive表读取HDFS中接收到的文件从应用某些转换的外部Hive表中插入覆盖最终的Hive表将收到的文件移动到存档如果输入目录中有一个文件供外部表在步骤1中读取,则此流程工作正常。如果没有文件,外部表将为空,因此执行步骤2将清空最终表。如果外部表为空,我想保留最终表中的现有数据(上次执行时加载的数据)。是否有我可以设置的配置单元属性,以便仅当我们用某些数据覆盖最终表时才覆盖它?我知道我可以使用HDFS命令检查输入文件是否存在,并有条件地启动Hive请求。但我想知道我是否可以直接在Hive中实现相同的行

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。

sql - SELECT 子句中不存在聚合函数时的 GROUP BY 行为

我有一个表emp,其结构和数据如下:namedeptsalary---------------Jacka2Jilla1Tomb2Fredb1当我执行以下SQL时:SELECT*FROMempGROUPBYdept我得到以下结果:namedeptsalary---------------Jilla1Fredb1服务器根据什么决定返回Jill和Fred并排除Jack和Tom?我正在MySQL中运行此查询。注意1:我知道查询本身没有意义。我正在尝试调试“GROUPBY”场景的问题。我正在尝试了解此目的的默认行为。注意2:我习惯于编写与GROUPBY子句相同的SELECT子句(减去聚合字段)。

hadoop - HIVE: 'LIMIT' 上的 'SELECT * from' 如何在后台工作?

只是想知道以下简单查询的限制是如何工作的select*fromTlimit100假设表T有1300万条记录请问上面的查询:1.先将1300万全部加载到内存中,只显示结果集中的100条记录?2.只加载100条结果集100条记录现在已经搜索它很长一段时间了,大多数页面只谈论使用“LIMIT”而不是Hive如何在幕后处理它。感谢任何有用的回复。 最佳答案 Ifnooptimizerapplied,hiveendupscanningentiretable.ButHiveoptimizesthiswithhive.fetch.task.con

mysql - 如何改进 INSERT INTO ... SELECT 锁定行为

在我们的生产数据库中,我们每小时运行以下伪代码SQL批处理查询:INSERTINTOTemporaryTable(SELECTFROMHighlyContentiousTableInInnoDbWHEREallKindsOfComplexConditionsaretrue)现在这个查询本身不需要很快,但我注意到它锁定了HighlyContentiousTableInInnoDb,即使它只是从中读取。这使得其他一些非常简单的查询需要大约25秒(这是其他查询需要多长时间)。然后我发现在这种情况下InnoDB表实际上是被SELECT锁定的!https://www.percona.com/bl