custom-select

sql - 配置单元查询 : Selecting column over a partition based on a median of a different column

我无法完成查询建模，因此需要帮助。我的数据是:idnameschoolheight1AS1102BS1123CS1144DS2155ES2166FS217我想选择每个学校的姓名和中位数高度的姓名。预期输出:idnameschoolmyval1AS1B2BS1B3CS1B4DS2E5ES2E6FS2E在这里，B的高度是S1学校的中位数，E是S2的中位数。我知道我们可以使用百分位数获得中位数。但我无法弄清楚如何选择每个分区的值。最佳答案下面的查询将起作用:-selecttemp1.id,temp1.name,temp1.school

sql - Impala select * 不显示表的所有详细信息

我在impalaselect*fromtable中有一个sql查询，但是当我执行这个时，某些列丢失了。而当我执行describetable时，那些列就在那里。我无法显示该代码段，但未显示的类型是映射、数组和结构。最佳答案 Impala不支持。复杂类型必须解包才能显示。TheresultsetofanImpalaqueryalwayscontainsallscalartypes;theelementsandfieldswithinanycomplextypequeriesmustbe"unpacked"usingjoinquerie

Impala select section strong complex sql hadoop

java - ORC 文件元数据 : writing custom key value?

有没有办法将额外的元数据写入ORC文件？我找到了一种使用“KeyValueMetadata”在Parquet上做到这一点的方法。我查看了UserMetadataItem类，但不确定Orc是否提供了添加自定义元数据的方法。我想找到一种使用java的方法。最佳答案您可以将自定义键值对写入ORC文件的元数据。唯一的限制是在键值对中，键必须是字符串，值必须是二进制。查看此处了解更多信息:https://orc.apache.org/docs/file-tail.html#user-metadata

writing custom section 自定 https java hadoop parquet orc

hadoop - EMR Hue : CUSTOM server authentication not supported. 有效的是 ['NONE' , 'KERBEROS' , 'PAM' , 'NOSASL' , 'LDAP' ]

当我为Hive启用“自定义”身份验证时，Hue无法连接到HiveServer2。它抛出以下错误:CUSTOMserverauthenticationnotsupported.Validare['NONE','KERBEROS','PAM','NOSASL','LDAP'].如果我们使用自定义身份验证提供程序配置Hive，这是否意味着Hue不起作用？Hive本身工作正常，JDBC/ODBC使用自定义身份验证也按预期工作。有解决办法吗？引用:https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2

amp 39 section 自定 hadoop apache-spark hive emr hue

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE；对于下表:行数:~80亿列数:40，各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较，以查看系统配置是否正确。如果我错过了一些重要的事情，我深表歉意，我是Hive和Hadoop的新手。此外，如果机器数量也按比例增加，执行时间是否会与行数成线性比例？最佳答案提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

columns hadoop 射器 section li hive hdfs

sql - Hive是否支持Select中的Select？

Hive中的以下代码是否可能，并进行一些更改？:insertintotablewebmapselecta.resreference,b.resresource,(selectcount(ip)fromweblogwhereresource=a.resandreferer=b.res)weightfromtoprefresajointoprefresb;我在hive-0.10.0-cdh4.5.0中运行它并得到错误:FAILED:ParseExceptionline3:1cannotrecognizeinputnear'select''count''('inexpressionspeci

Select Hive section weblog sql hadoop hql

java - Hadoop Custom Partitioner 的行为不符合逻辑

基于这个例子here，这有效。在我的数据集上尝试过相同的方法。示例数据集:OBSERVATION;2474472;137176;OBSERVATION;2474473;137176;OBSERVATION;2474474;137176;OBSERVATION;2474475;137177;将每一行视为字符串，我的Mapper输出为:key->string[2],value->string.我的分区程序代码:@OverridepublicintgetPartition(Textkey,Textvalue,intreducersDefined){StringkeyStr=key.toStr

Partitioner Hadoop code 137176 section java mapreduce

hadoop - hive 中的 Select 语句返回一些具有空值的列

我看到很多人问过这种类型的问题，但这些解决方案对我不起作用。我创建了一个外部配置单元表，因为我的数据来自仅限map的作业输出。然后，通过加载命令我给出了特定文件的路径。它显示正常。但是当我给出select*fromtable命令时，它会返回一些具有空值的列。我执行的每个命令都在错误图片中。我在文件中的分隔符是||，所以我在创建表命令中也提到了同样的内容。这是我的输入文件图片filepic.这是errorpic.我也尝试过普通表而不是外部表。那也显示了同样的错误。我还尝试将定界符称为//||和\|\|。但没有一个奏效。最佳答案您面

hadoop Select code section TERMINATED hive bigdata nonetype hive-query

hadoop - 如何在 Hive 的 SELECT 语句中提取定界值右侧的字符

我需要提取“/”右侧的所有字符作为选择语句的一部分。cityAmerica/ChicagoEurope/London预期输出是citynameChicagoLondon这是我的查询，它不起作用selectsubstring(city,charindex('/',city)+1,length(city))ascitynamefromtable; 最佳答案您可以使用正则表达式来提取城市名称。使用正则表达式，您的查询将是这样的。selectregexp_extract(city,'([a-zA-Z]+)',1)fromtable_nam

何在 hadoop code section pre hive

SQL/HIVE - 不同计数查询 - SELECT COUNT (DISTINCT columns,..) 与 SELECT COUNT(*) 与 DISTINCT 记录的子查询有何不同

在HIVE中，我尝试使用2种方法获取不同行的计数，SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable);SELECTCOUNT(DISTINCTcolumns)FROMtable;两者都产生了不同的结果。第一个查询的计数大于第二个查询。他们的工作方式有何不同？提前致谢。最佳答案对您的查询做一点小改动，例如将您的子查询命名为:SELECTCOUNT(*)FROM(SELECTDISTINCTcolumnsFROMtable)myquery;

DISTINCT SELECT section sql hadoop hive hiveql

77 78 798081 82 83