spark-hive

python - spark 作业中不存在配置单元表

我在EMR中使用HiveMetastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在SparkJob中使用同一个表时，它显示找不到表或ViewFile"/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py",line69,indecopyspark.sql.utils.AnalysisException:u"Tableorviewnotfound:`logan_test`.`salary_csv`;line1pos21;'Aggregate[unresolvedalias(count(1),None

hadoop - Spark中HIVE表的显示

这个问题在这里已经有了答案:fetchmorethan20rowsanddisplayfullvalueofcolumninspark-shell(2个答案)关闭4年前。我正在尝试读取Spark1.6.1中的HIVE表。一切都按要求工作，只有Spark中的表显示是有线的。HIVE表由1亿条奇数记录组成。importosfrompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportHiveContexthive_context=HiveContext(sc)db=hive_con

hadoop Spark section HIVE notice apache-spark pyspark apache-spark-sql

hadoop - Hive 外部表与内部表命令

假设我有这两个表:外部:createexternaltableemp_feedback(emp_idint,emp_namestring)LOCATION'/user/hive/warehouse/mydb.db/contacts';内部:createtableemp_feedback(emp_idint,emp_namestring)LOADDATAINPATH'file_location_of_csv'INTOTABLEemp_feedback;当我说:LOCATION'/user/hive/warehouse/mydb.db/contacts';对于外部表是否意味着该表的数据位于

hadoop Hive code section strong

Spark大数据分析与实战笔记（第二章 Spark基础-04）

文章目录每日一句正能量引言章节概要2.4体验第一个Spark程序2.4.1运行Spark官方示例SparkPi总结每日一句正能量“春风十里，不如你。”这句来自现代作家安妮宝贝的经典句子，它表达了对他人的赞美与崇拜。每个人都有着不同的闪光点和特长，在这个世界上，不必去羡慕别人的光芒，自己所拥有的价值是独一无二的。每个人都有无限的潜力和能力，只要勇敢展现自己，就能在人生舞台上绽放光彩。每天鼓励自己，相信自己，发挥自己的优点和才能，你就能成为那道独特的风景，给世界带来不一样的美好。引言Spark是一个用于大规模数据处理的高性能分布式计算框架。它提供了一个简单易用的编程模型和丰富的API，可以帮助我们

Spark 数据分析 span class token 笔记大数据

hadoop - Hive - 如何在命令行中显示 Hive 查询结果以及列名

我在Hive工作了一段时间。请注意，我根本不使用Hue。我一直使用Hiveshell，现在我遇到了一个奇怪但有用的问题。每当我们在Hiveshell中执行查询时，我们可以在屏幕上看到相关结果，但我们无法识别与数据对应的列名，除非我们执行“desc格式化表名”或任何其他类似命令并向上滚动/将结果与表结构相匹配。我们很可能一直这样做。出于好奇，我想知道当我们执行诸如“select*fromtable_name”之类的基本查询时，是否有任何方法可以至少将列名与数据一起打印出来？最佳答案打开配置单元session后设置此属性hive>s

列名 Hive strong sales section hadoop

hadoop - Hive - 删除尾随零

我正在尝试从HIVE中的字符串中删除尾随零，例如5634000->5634我试过了SELECTRTRIM('1230','0');但Hive抛出以下错误:Errorwhilecompilingstatement:FAILED:SemanticException[Error10014]:line41:46Wrongarguments''0'':rtrimrequiresonevalueargument.Found:2我也试过:selectREGEXP_REPLACE('ABCA','+A$','')但它也抛出异常。最佳答案 sele

尾随 hadoop code section 39 hive hiveql

apache-spark - YARN 如何决定启动哪种类型的 Application master？

我提到了this链接并获得对YARN工作原理的公平理解。YARN能够运行Multi-Tenancy应用程序，例如MR、Spark等。关键点是特定于应用程序的ApplicationMaster(AM)。当客户端向ResourceManager提交Job时，ResourceManager如何知道它是哪种应用程序(MR、Spark)并因此启动适当的ApplicationMaster？谁能帮助RM如何知道提交给它的作业类型？编辑:这个问题是:RM怎么知道提交了什么样的Job，而不知道YARN和MR或者Spark之间有什么关系。RM收到一个Job，因此它必须启动第一个运行特定应用程序Applic

apache-spark Application YARN hadoop mapreduce hadoop-yarn hadoop2

hadoop - Hbase 上的 phoenix 和 hive ETL

phoenix是否适合ETL和聚合？我正在尝试对我的数据进行一些ETL。现在我正在使用hbase来存储我的数据(我们网站上的足迹)。我需要对这些数据进行一些聚合，例如每个url的页面浏览量......等等。根据我的研究，我知道hive可以用于hbase数据的ETL，加上hql提供了sql语言，这样我们就不需要自己写map-reduce代码了。但是当我尝试使用hive(pyhive)查询hbase时，需要很长时间才能完成。此外，如果我有phoenix在hbase上执行sql，我的hbase上还需要hive吗？现在当我尝试使用一些复杂的sql时，phoenix会超时。而且hive非常非常慢

phoenix hadoop HBase section hive apache-phoenix

hadoop - 如何在将配置单元作业提交到数据处理集群时执行 gcp 存储桶中的配置单元查询列表(在我的例子中是 gs :/hive/hive. sql")

这里我在hiveJob下的queryList中编写查询。将Hive作业提交到dataproc集群defsubmit_hive_job(dataproc,project,region,cluster_name):job_details={'projectId':project,'job':{'placement':{'clusterName':cluster_name},"hiveJob":{"queryList":{###howcaniexecute.sqlfileherewhichisinbucket####"queries":["CREATETABLEIFNOTEXISTSsai(

配置单 hive strong section 39 hadoop google-cloud-platform google-cloud-dataproc

apache-spark - 用于 ETL 的 Impala shell 或 Spark？

我最近开始研究Hadoop环境。我需要做一些基本的ETL来填充几个表。目前，我正在使用sqoop将数据导入Hadoop，并使用Impalashell命令编写用于转换的SQL查询。但最近我经常听说Spark。在我的情况下，用Spark而不是Impalashell编写ETL会有什么优势吗？谢谢S 最佳答案过去，许多人使用A)SQL脚本(如Impala)和UNIX脚本，或者使用B)ETL工具进行ETL。但是，问题是1)更大规模imo和2)技术标准化。既然都在用Spark，那为什么不在Spark上做标准化呢？我经历过这个周期，使用Spar

apache-spark apache Spark section li hadoop etl impala

144 145 146147148 149 150