草庐IT

spark-hive

全部标签

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如,我正在使用以下代码将数据写入hdfs,valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构,path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark,有没有办法将所有

apache-spark - Spark with Hive 是否可以将项目阶段推送到 HiveTableScan?

我正在使用SparkSQL查询Hive中以ORC格式存储的数据。当我对提供给spark.sql(query)的查询运行解释命令时,我看到以下查询计划:==PhysicalPlan==*Project[col1,col2,col3]+-*Filter(....)+-HiveTableScan[col1,col2,col3,...col50]据我所知,从Hive查询所有50列,然后才在Spark中进行过滤,后记仅选择所需的实际列。是否可以将所需的列直接下推到Hive,以便它们不会一直加载到Spark? 最佳答案 检查以下属性是否设置为默

hadoop - Hive:从列中选择具有最大值的行

我想选择时间戳列具有最大值的所有行。数据如下所示:ABtimestampjohnsmith2018bobdylan2018adamlevine2017bobdylan2017结果应该是:ABtimestampjohnsmith2018bobdylan2018使用Impala,以下SQL查询有效:SELECT*FROMtableWHEREtimestamp=(SELECTMax(timestamp)fromtable)但是对于Hive,SQL查询不会。 最佳答案 请始终包含错误消息。尝试SELECT*FROMtableWHEREtim

hadoop - 在 Oozie 中运行 Hive Action 时出错

我正在尝试通过Oozie运行hive操作。我的workflow.xml如下:${jobTracker}${nameNode}oozie.hive.defaults${hiveConfigDefaultXml}${hiveQuery}OUTPUT=${StagingDir}Hivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]这是我的job.properties文件:oozie.wf.application.path=${nameNode}/user/${user.name}/hiveQueryoozie.libpa

【hive】Hive中的大宽表及其底层详细技术点

简介:在大数据环境中,处理大规模数据集是常见的需求。为了满足这种需求,Hive引入了大宽表(LargeWideTable)的概念,它是一种在Hive中管理和处理大量列的数据表格。本文将详细介绍Hive中的大宽表概念以及其底层的详细技术点。什么是大宽表?大宽表是指具有大量列的数据表格。在Hive中,它可以包含数千个甚至更多的列。相比之下,传统的关系型数据库系统对于表格的列数通常有一定的限制。大宽表的使用场景包括但不限于以下几个方面:处理具有大量维度的数据集,如业务数据、用户行为数据等。支持高度灵活的数据模型,可以根据需要增加或删除列。适应数据结构变化频繁的场景,如日志数据收集等。大宽表的底层详细

hadoop - 具有附加列的 Hive UDTF

我希望这个问题的答案是“否”,但无论如何……我有一个包含键和数组的表。典型的行可能如下所示:98c28560-4b48-11e3-9c12-07373d47725csegment-a,segment-b,segment-c我希望这一行产生三行:98c28560-4b48-11e3-9c12-07373d47725csegment-a98c28560-4b48-11e3-9c12-07373d47725csegment-b98c28560-4b48-11e3-9c12-07373d47725csegment-c使用最新版本的Hive中可用的标准UDF。有没有办法做到这一点?

scala - 在scala spark中将文件读入数组列表

我对spark和scala完全陌生。我想将文件读入数组列表。这就是它在java中的实现方式。ListsourceRecords;sourceRecords=newArrayList();BufferedReaderSW;SW=newBufferedReader(newFileReader(srcpath[0].toString()));Stringsrcline;while((srcline=SW.readLine())!=null){sourceRecords.add(srcline.toString());}spark中的scala怎么实现 最佳答案

csv - 如何创建具有多个 hdfs 文件的 Hive 表

所以基本上我想创建一个包含csv文件的表我试过这样的事情,其中​​文件名彼此仅相差最后两位:CREATEEXTERNALTABLEpageviews(page_datestring,sitestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY';'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'/user/hue/201401/pageviews/supersite_1046_201401**.csv';对我来说,这个语法看起来不错,但是当我执行它时,我得到以下信息:Erroroccurredexecutin

sql - sqoop如何在向hive导入数据时自动修剪db2中的一些char类型的列?

我有一个很大的db2表,其中包含许多char类型的列。我尝试通过sqoop将数据提取到hive中以满足不同的需求。以前写Hivesql的时候都是手动把char类型的colums全部剪掉但是,有太多的列需要修剪,以至于我总是忘记其中的一些,这可能会导致一些困惑的问题,如下所示:假设BANK_TABLE是hive的目标表,2323423232323是表中已经存在的卡号。如果我执行:hive-e"select*fromBANK_TABLEwherecard_no='2323423232323'"结果是什么都没有,因为我在写sql导入数据到hive的时候忘记修剪了column:card_no所

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后,它只注册了1个执行器,并为其分配了一些默认