查询

python - Impala 在不输入日期的情况下查询昨天的数据可能使用 python

数据已经被解析为日期时间“2018-03-0800:00:00”。我可以通过说“2018-03-0800:00:00”和“2018-03-0824:00:00”之间的位置来获取3/8/18的数据。但我想以某种方式使用Impala日期时间函数，这样我就可以每天运行它而无需手动输入每个日期。我已经通读了一些文档，但仍然感到困惑。查询Impalacursor.execute("SELECTsourceaddress,count(sourceaddress)ascountFROMtableGROUPBYsourceaddressORDERBYcountdescLIMIT10")即使我可以在查询

hadoop - Presto 查询无法将数据插入 Hive

我正在尝试将数据插入配置单元。为此，我使用Presto。这是我的查询:insertintocard_transactions_part_buckpartition(tran_year,tran_month,tran_day)selecttran_id,tran_uid,tran_date,tran_category,tran_category_id,tran_type,tran_type_id,tran_ingress_ip_address,tran_ingress_api_name,tran_ingress_api_id,platform,platform_id,card_type,

hadoop Presto tran term cust hive hiveql

database - 在 presto、hive 中查询数组结构

col-1有dep_id(varchar)-112col-2有数组结构[{"emp_id":8291828,"name":"bruce",},{"emp_id":8291823,"name":"Rolli",}]我有一个用例，我需要展平和显示结果。例如，当查询dep_id-112的数据时，我需要在单独的行中显示emp_id。对于上面的数据，查询时我的结果应该是这样的idemp_id11282918281128291823获取数据的查询格式应该是什么？最佳答案完成这项工作有几个部分。首先，JSON数据将显示为VARCHAR，因此您

database presto code 34 section hadoop hive

hadoop - 通过命令行运行 HQL 查询时出错

我正在通过命令行运行查询并收到此错误。命令:hive-equery1.hql失败:ParseException行1:0无法识别“query1”附近的输入。'hql'CREATETABLEdcarlo.new_tableASSELECTma.name,ma.address,ma.stateFROMmain_dbASmaWHEREma.dt>=20180301ANDma.dt 最佳答案使用-f而不是-e从文件运行脚本。hive-fquery1.hqlSource用法:hive-d,--definekey=value应用于Hive的变量

时出 hadoop section code strong hive hiveql hue

hadoop - 从给定查询的配置单元日志中获取应用程序 ID

在我们的环境中，我们有许多用户从不同的工具发出Hive查询。很多时候用户会给我们查询，说在某个时候失败了，我们需要深入挖掘，找到原因。所以我们需要解析Hive日志并找到查询。找到查询是比较容易的部分，有没有办法很容易地找出一旦在配置单元日志中找到查询(通常在执行命令之后)，我如何轻松地获得与之关联的yarn应用程序ID？我正在尝试自动执行此过程，以便减少我们的分析时间。谢谢最佳答案您可以做的一件事是，您可以使用yarnapplication-list-appStatesALL命令。它的作用是，它将为您提供所有应用程序的列表及其各

配置单给定 section code hadoop hive hadoop-yarn

sql - 如何将查询答案传递给限制函数 Impala

我正尝试在impala中抽取一张table的20%。我在某处听说内置的impala采样功能有问题。有没有办法将子查询传递给impalalimit函数以对整个表进行n%的采样。我有这样的东西:select*fromtable_aorderbyrand()limit(selectround((count(distinctids))*.2,0)fromtable_a))子查询给了我所有记录的20% 最佳答案我不确定Impala是否有特定的采样逻辑(某些数据库有)。但是你可以使用窗口函数:selecta.*from(selecta.*,r

传递 Impala section select table sql hadoop

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询？

我们有100多个HDFS分区，我们每天每小时都会写入这些分区。分区是每天进行的，以便直接加载到Hive中，数据以Parquet格式写入。我们遇到的问题是，因为我们想尽可能快地获取数据可查询，每小时写入导致很多小文件。有很多例子，例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码；我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询？最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

apache-spark 在用 section parquet stackoverflow hadoop hive hdfs presto

sql - 在 Hive 中加入查询

我想创建一个表C，其中包含表A(customer_id)和表B(customer_id)的列，表B(customer_id)包含表A中不在表B中的所有customer_id。我编写了以下查询，但没有得到填充的任何数据。createtableCASselect*from(selectcustomer_idfromAaljoinBblonal.customer_id=bl.customer_idwherebl.customer_idisnull)x;此查询显示0个结果。最佳答案 SELECTa1.customer_idFROMAa1L

中加 Hive customer_id customer section sql hadoop

Elasticsearch初识之聚合查询

聚合查询官方参考地址Aggregations|ElasticsearchGuide[8.11]|Elastic运行数据#mappingPUTproduct{ "mappings":{ "properties":{ "createtime":{ "type":"date" }, "date":{ "type":"date" }, "desc":{ "type":"text", "fields":{ "keyword":{ "type":"keyword", "ignore_above":256

初识 Elasticsearch 34 xff xff0c

maven - 通过 Shark API 查询不起作用

我正在尝试通过集群上的Hive表通过SharkJavaAPI进行查询(简单选择)。但是我收到此错误消息:14/01/1517:25:54INFOcluster.ClusterTaskSetManager:Losswasduetojava.lang.NoClassDefFoundErrorjava.lang.NoClassDefFoundError:Couldnotinitializeclasscom.google.common.cache.CacheBuilderatorg.apache.hadoop.hdfs.DomainSocketFactory.(DomainSocketFact

maven Shark apache java hadoop guava apache-spark shark-sql

244 245 246247248 249 250