草庐IT

column-count

全部标签

sql - Apache Pig 中是否有等同于多个 COUNT(DISTINCT CASE WHEN ...) 语句的语句?

我是ApachePig的新手,正在尝试学习。ApachePig中是否有等效于SQL的COUNT(DISTINCTCASEWHEN...)?例如,我正在尝试做这样的事情:CREATETABLEemail_profileASSELECTuser_id,COUNT(DISTINCTCASEWHENemail_code='C'THENmessage_idELSENULLEND)ASclickthroughs,COUNT(DISTINCTCASEWHENemail_code='O'THENmessage_idELSENULLEND)ASopened_messages,COUNT(DISTINCT

scala - Spark 数据帧 : Pivot and Group based on columns

我有如下输入数据框,其中包含id、app和customer输入数据框+--------------------+-----+---------+|id|app|customer|+--------------------+-----+---------+|id1|fw|WM||id1|fw|CS||id2|fw|CS||id1|fe|WM||id3|bc|TR||id3|bc|WM|+--------------------+-----+---------+预期输出使用pivot和聚合-将应用值作为列名并将聚合的客户名称作为数据框中的列表预期的数据帧+-----------------

hadoop - Hive sql 如何使用多个 COUNT 函数进行查询并使用它们进行划分方法

这是我的问题:我有一个表,其中包含一些记录(名称、日期、类型)。假设我有a、b和c三种类型。现在我想将每种类型计为type_count并有一些限制,并用count(a)/count(b)进行除法以获得百分比结果,并且a和are中的限制不同,我该如何处理?谢谢!我的代码如下所示:SELECTname,count(a),count(a)/count(b)fromtablewhere...是否可以在select中做一些子查询?看起来像这样selectname,count(a),count(a)/(selectcount(b)fromtablewhererestriction_for_b)fr

json - 配置单元 : How to explode a JSON column with an array, 并嵌入到 CSV 文件中?

从一个CSV文件(带有一个标题和一个管​​道分隔符)我得到了以下内容,其中包含一个JSON列(里面有一个集合),如下所示:ProductId|IngestTime|ProductOrders9180|20171025145034|[{"OrderId":"299","Location":"NY"},{"OrderId":"499","Location":"LA"}]8251|20171026114034|[{"OrderId":"1799","Location":"London"}]我需要创建一个返回的SELECTHive查询:ProductIdIngestTimeOrderIdOrd

hadoop - Hive:当插入分区表时,在大多数行中,hive double url-encode partition key column

我创建了一个分区表:createtablet1(amountdouble)partitionedby(events_partition_keystring)storedaspaquet;向tmp_table添加了一些数据,其中'events_partition_key'列包含以下格式的时间戳(字符串类型):“2018-02-2500:00:00”然后我向分区表中插入一些数据。insertintotablet1partition(events_partition_key)selectamount,events_partition_keyfromtmp_table当从新的分区表t1中选择时

sql - 不支持的子查询表达式 : Correlating expression cannot contain unqualified column references

在Hive中,以下查询失败:Selecta,b,cfromt1whereain(0,100)ANDbin(selectbfromt2whered>2GROUPBY1)LIMIT1;架构:t1(a,b,c)t2(b,d,e)错误日志:UnsupportedSubQueryExpression'b':Correlatingexpressioncannotcontainunqualifiedcolumnreferences.什么是关联表达式?什么是不合格的列引用?你能概括一下这里的错误吗.. 最佳答案 你可以找到有同样问题的人here和相

mysql - 问号在 MySQL 中 "WHERE column = ?"的意义是什么?

我正在剖析一些代码并遇到了这个,$sql='SELECTpage.*,author.nameASauthor,updator.nameASupdator'.'FROM'.TABLE_PREFIX.'pageASpage'.'LEFTJOIN'.TABLE_PREFIX.'userASauthorONauthor.id=page.created_by_id'.'LEFTJOIN'.TABLE_PREFIX.'userASupdatorONupdator.id=page.updated_by_id'.'WHEREslug=?ANDparent_id=?AND(status_id='.Pag

mysql - 问号在 MySQL 中 "WHERE column = ?"的意义是什么?

我正在剖析一些代码并遇到了这个,$sql='SELECTpage.*,author.nameASauthor,updator.nameASupdator'.'FROM'.TABLE_PREFIX.'pageASpage'.'LEFTJOIN'.TABLE_PREFIX.'userASauthorONauthor.id=page.created_by_id'.'LEFTJOIN'.TABLE_PREFIX.'userASupdatorONupdator.id=page.updated_by_id'.'WHEREslug=?ANDparent_id=?AND(status_id='.Pag

hadoop - hive 表中 count(*) 的错误结果

我已经在HIVE中创建了一个表CREATETABLEIFNOTEXISTSdaily_firstseen_analysis(firstSeenSTRING,categorySTRING,circleSTRING,specIdSTRING,languageSTRING,osTypeSTRING,countINT)PARTITIONEDBY(daySTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASorc;count(*)没有给我这个表的正确结果hive>selectcount(*)fromdaily_firstseen_analy

algorithm - Hadoop/MapReduce - 优化 "Top N"Word Count MapReduce 作业

我正在处理类似于规范MapReduce示例的内容-字数统计,但有一点不同,我希望只获得TopN结果。假设我在HDFS中有一组非常大的文本数据。有大量示例展示了如何构建HadoopMapReduce作业,该作业将为您提供该文本中每个单词的字数统计。例如,如果我的语料库是:"Thisisatestoftestdataandagoodonetotestthis"标准MapReduce字数统计作业的结果集将是:test:3,a:2,this:2,is:1,etc..但是,如果我仅想要获得整个数据集中使用的前3个词怎么办?我仍然可以运行完全相同的标准MapReduce字数统计作业,然后在它准备就