草庐IT

hadoop - Hive 分区表的记录数

我在Hive中有一个名为“transaction”的表,该表分区在一个名为“DS”的列上,该列将包含类似“2018-05-05”的数据,“2018-05-09”、“2018-05-10”等此表是在完成当天的一夜之间填充的。在任何时候,该表都会有前一天的数据当我像这样查询交易表时SELECTCOUNT(*)FROMtrasactionWHEREDS>="currentdate";我明白了0行-这是正确的,因为尚未加载当前和future日期的数据当我运行以下查询时SELECTDISTINCTDSFROMtrasactionWHEREDS>="currentdate";我明白了2018-05

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它? 最佳答案 您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode,它会说operationREADnotsupportedins

sql - HIVE SQL 将连续范围折叠成单行

考虑表中的以下记录:NAMEIDRATELOCDAYABCD123-5NYC2017-01-01ABCD123-5NYC2017-01-02ABCD123-6SFO2017-01-03ABCD123-6DEN2017-01-04ABCD345-4ATL2017-01-05ABCD345-4WAS2017-01-06ABCD123-7CLT2017-01-07ABCD123-7CLT2017-01-08我想要这样的输出:NAMEIDRATELOCSTARTDAYENDDAYABCD123-5NYC2017-01-012017-01-02ABCD123-6SFO2017-01-032017

hadoop - Hive 只获取一个值的最大出现次数

我有一个包含两列的hive表,我想获取出现次数最多的值例如,在我的下表中,一个值出现了两次,而c只出现了一次,这里的值占主导地位,所以我只想要输出中显示的值col1col2aa_value1aa_value2ac_value3bb_value1输出:col1col2aa_value1bb_value1 最佳答案 您正在寻找统计学家所说的众数。一个非常简单的方法是使用带有窗口函数的聚合:selectcol1,col2from(selectcol1,col2,count(*)ascnt,row_number()over(partitio

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。 最佳答案 如果我对问题的理解正确,Hive确实无法在文件上创建表。它需要是一个目录位置。因此,无论您有什么进程,都需要制作上述目录。例如,无论您有什么映射器进程,您都需要指定一个输出目录,如

hadoop - Oozie + yarn : getting connection failure exception

在我们的应用程序中,我们希望一次只能运行一个oozie工作流。我们面临与第一个工作流中断的连接问题,并且由于第二个工作流开始。在YARN上,第一个工作流程仍在运行。我们收到以下错误消息:E0603:E0603:SQLerrorinoperation,Thelastpacketsuccessfullyreceivedfromtheserverwas94,669,212millisecondsago.Thelastpacketsentsuccessfullytotheserverwas94,669,212millisecondsago.islongerthantheserverconfig

database - 在 presto、hive 中查询数组结构

col-1有dep_id(varchar)-112col-2有数组结构[{"emp_id":8291828,"name":"bruce",},{"emp_id":8291823,"name":"Rolli",}]我有一个用例,我需要展平和显示结果。例如,当查询dep_id-112的数据时,我需要在单独的行中显示emp_id。对于上面的数据,查询时我的结果应该是这样的idemp_id11282918281128291823获取数据的查询格式应该是什么? 最佳答案 完成这项工作有几个部分。首先,JSON数据将显示为VARCHAR,因此您

hadoop - 如何对 Hive 中具有不同行的数组中具有相同索引的元素求和

我将通过示例解释我需要在Hive中做什么。我收到两行:像这样的数组的第一行(1,3,6,7)第二行(3,6,7,1)我需要的结果(4,9,13,8)因此,我需要将所有行的所有数组的第一个索引的所有元素加在一起,并与第二个索引相同,依此类推... 最佳答案 基表:hive>selectvaluesfromt1;1,3,6,73,6,7,1按位置展开hive>selectpos,valuefromt1lateralviewposexplode(split(values,","))aaspos,value;0316273101132637

apache-spark - 提供者 org.apache.hadoop.fs.s3a.S3AFileSystem 无法实例化

我正在尝试将模型学习从我的SparkStandalone集群保存到S3。但是我有这个错误:java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystemcouldnotbeinstantiatedatjava.util.ServiceLoader.fail(ServiceLoader.java:232)atjava.util.ServiceLoader.access$100(ServiceLoader.java:185)a

hadoop - HBase 行键范围分配

在为我的HBase表设计行键时,我有两个问题要问如何跨HBase区域分配行键范围?行插入是否影响行键分配?(考虑我们只有两个区域)为了详细说明这个问题,如果我插入以axx、bxx,...,zxx开头的行键,HBase主分配范围作为a-m到一个区域,n-z到另一个区域?在另一种情况下,如果我插入仅以axx和bxx开头的行键,它是否将axx分配给区域一和bxx到另一个? 最佳答案 在现有区域填满之前,HBase中不会发生拆分。因此,如果您设置一个具有2个区域服务器的HBase集群,所有数据最初只会添加到一个区域。当该区域填满时,数据将根