test_hive

scala - 使用 spark 在 hive 中流式传输数据存储

我正在创建一个应用程序，在其中获取流式数据，这些数据进入kafka，然后在spark上。使用数据，应用一些登录，然后将处理后的数据保存到配置单元中。数据速度非常快。我在1分钟内获得50K条记录。Spark流中有1分钟的窗口，它处理数据并将数据保存在配置单元中。我的问题是生产前瞻性架构可以吗？如果是，我如何将流数据保存到配置单元中。我正在做的是，创建1分钟窗口数据的数据框，并使用将其保存在配置单元中results.write.mode(org.apache.spark.sql.SaveMode.Append).insertInto("stocks")我还没有创建管道。可以吗，还是我必须修

中流 scala section 配置单 spark hadoop apache-spark hive spark-streaming

hadoop - Hive 的隐式连接总是内部连接吗？

joindocumentationforHive鼓励使用隐式连接，即SELECT*FROMtable1t1,table2t2,table3t3WHEREt1.id=t2.idANDt2.id=t3.idANDt1.zipcode='02535';这是否等同于SELECTt1.*,t2.*,t3.*FROMtable1t1INNERJOINtable2t2ONt1.id=t2.idINNERJOINtable3t3ONt2.id=t3.idWHEREt1.zipcode='02535'，或者上面会返回额外的记录吗？最佳答案并不总是

hadoop Hive code strong row join hiveql

hadoop - 如何在 HIVE 中将日期 2017-sep-12 转换为 2017-09-12

我在转换hive中的日期时遇到一个问题。我需要将2017-sep-12转换为2017-09-12。我怎样才能在HIVE中实现这一点最佳答案使用unix_timestamp(stringdate,stringpattern)将给定的日期格式转换为自1970-01-01以来的秒数。然后使用from_unixtime()转换为给定的格式:hive>selectfrom_unixtime(unix_timestamp('2017-sep-12','yyyy-MMM-dd'),'dd-MM-yyyy');OK12-09-2017

2017 何在 section code hadoop hive hiveql

hadoop - Spark中HIVE表的显示

这个问题在这里已经有了答案:fetchmorethan20rowsanddisplayfullvalueofcolumninspark-shell(2个答案)关闭4年前。我正在尝试读取Spark1.6.1中的HIVE表。一切都按要求工作，只有Spark中的表显示是有线的。HIVE表由1亿条奇数记录组成。importosfrompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportHiveContexthive_context=HiveContext(sc)db=hive_con

hadoop Spark section HIVE notice apache-spark pyspark apache-spark-sql

hadoop - Hive 外部表与内部表命令

假设我有这两个表:外部:createexternaltableemp_feedback(emp_idint,emp_namestring)LOCATION'/user/hive/warehouse/mydb.db/contacts';内部:createtableemp_feedback(emp_idint,emp_namestring)LOADDATAINPATH'file_location_of_csv'INTOTABLEemp_feedback;当我说:LOCATION'/user/hive/warehouse/mydb.db/contacts';对于外部表是否意味着该表的数据位于

hadoop Hive code section strong

hadoop - Hive - 如何在命令行中显示 Hive 查询结果以及列名

我在Hive工作了一段时间。请注意，我根本不使用Hue。我一直使用Hiveshell，现在我遇到了一个奇怪但有用的问题。每当我们在Hiveshell中执行查询时，我们可以在屏幕上看到相关结果，但我们无法识别与数据对应的列名，除非我们执行“desc格式化表名”或任何其他类似命令并向上滚动/将结果与表结构相匹配。我们很可能一直这样做。出于好奇，我想知道当我们执行诸如“select*fromtable_name”之类的基本查询时，是否有任何方法可以至少将列名与数据一起打印出来？最佳答案打开配置单元session后设置此属性hive>s

列名 Hive strong sales section hadoop

hadoop - Hive - 删除尾随零

我正在尝试从HIVE中的字符串中删除尾随零，例如5634000->5634我试过了SELECTRTRIM('1230','0');但Hive抛出以下错误:Errorwhilecompilingstatement:FAILED:SemanticException[Error10014]:line41:46Wrongarguments''0'':rtrimrequiresonevalueargument.Found:2我也试过:selectREGEXP_REPLACE('ABCA','+A$','')但它也抛出异常。最佳答案 sele

尾随 hadoop code section 39 hive hiveql

hadoop - Hbase 上的 phoenix 和 hive ETL

phoenix是否适合ETL和聚合？我正在尝试对我的数据进行一些ETL。现在我正在使用hbase来存储我的数据(我们网站上的足迹)。我需要对这些数据进行一些聚合，例如每个url的页面浏览量......等等。根据我的研究，我知道hive可以用于hbase数据的ETL，加上hql提供了sql语言，这样我们就不需要自己写map-reduce代码了。但是当我尝试使用hive(pyhive)查询hbase时，需要很长时间才能完成。此外，如果我有phoenix在hbase上执行sql，我的hbase上还需要hive吗？现在当我尝试使用一些复杂的sql时，phoenix会超时。而且hive非常非常慢

phoenix hadoop HBase section hive apache-phoenix

hadoop - 如何在将配置单元作业提交到数据处理集群时执行 gcp 存储桶中的配置单元查询列表(在我的例子中是 gs :/hive/hive. sql")

这里我在hiveJob下的queryList中编写查询。将Hive作业提交到dataproc集群defsubmit_hive_job(dataproc,project,region,cluster_name):job_details={'projectId':project,'job':{'placement':{'clusterName':cluster_name},"hiveJob":{"queryList":{###howcaniexecute.sqlfileherewhichisinbucket####"queries":["CREATETABLEIFNOTEXISTSsai(

配置单 hive strong section 39 hadoop google-cloud-platform google-cloud-dataproc

apache-spark - Spark with Hive 是否可以将项目阶段推送到 HiveTableScan？

我正在使用SparkSQL查询Hive中以ORC格式存储的数据。当我对提供给spark.sql(query)的查询运行解释命令时，我看到以下查询计划:==PhysicalPlan==*Project[col1,col2,col3]+-*Filter(....)+-HiveTableScan[col1,col2,col3,...col50]据我所知，从Hive查询所有50列，然后才在Spark中进行过滤，后记仅选择所需的实际列。是否可以将所需的列直接下推到Hive，以便它们不会一直加载到Spark？最佳答案检查以下属性是否设置为默

HiveTableScan apache-spark code date transaction_date hadoop hive apache-spark-sql apache-spark-dataset

127 128 129130131 132 133