草庐IT

sparking

全部标签

apache-spark - hive on spark - 为什么 'select *' 不生成 spark 应用程序/执行程序?

我在Spark(执行引擎)上设置了Hive(v2.3.4)。这将启动一个spark应用程序/执行程序:selectcount(*)froms.twhereh_code='KGD78'andh_no='265'为什么这不启动spark应用程序/执行程序:select*froms.twhereh_code='KGD78'andh_no='265' 最佳答案 这-第二种情况-是由于不太知名的"hive.fetch.task.conversion"参数。根据设置方式,Hive可以启动单个“获取任务”,而不是MapReduce作业,即使使用过

sql-server - Spark 批量插入到 MS-SQL

我在Hive上有一个表,其中包含920649653条记录。我想将该表插入到MS-SQL中。我使用azure-sqldb-spark图书馆。spark2-shell--master=yarn--jarsazure-sqldb-spark-1.0.2-jar-with-dependencies.jarimportcom.microsoft.azure.sqldb.spark.bulkcopy.BulkCopyMetadataimportcom.microsoft.azure.sqldb.spark.config.Configimportcom.microsoft.azure.sqldb.s

scala - Spark : How to get the latest file from s3 in the last 10 days

当输入中不存在文件时,我试图在过去10天内从s3获取最新文件。问题是路径包含日期。我的路径是这样的:valpath="s3://bucket-info/folder1/folder2"valdate="2019/04/12"##YYYY/MM/DD我正在做这个=valupdate_path=path+"/"+date//thiswillbecomes3://bucket-info/folder1/folder2/2019/04/12deffileExist(path:String,sc:SparkContext):Boolean=FileSystem.get(getS3OrFileUr

sql - 如何从 VBA 连接到 Apache spark/hadoop

我熟悉SQL(尤其是postgres)和VBA,但在Apachespark方面,我是一个新手,但它似乎比使用SQL更快地运行和返回查询结果?截至目前,在我的日常工作中,我通过OLEDB(其他人使用ODBC等)将我的ExcelVBA与Postgresql连接,所以每当我需要检索来自DB的东西,我可以通过设置连接并在VBA中编写SQL字符串,然后将输出转储到所需的工作表和单元格中来轻松实现。但缺点是速度,随着我的数据越来越大,当我需要运行复杂的SQL查询来进行复杂的计算或关系时,需要等待很长时间才能得到结果。除了升级托管DB的服务器外,我听说Spark/Hadoop是加速任务的解决方案?通

scala - Spark 作为 Hive 的执行引擎

Spark2.4.2可以用作AmazonEMR上的Hive2.3.4的执行引擎吗?我已通过以下命令将jar文件与配置单元(scala-library、spark-core、spark-common-network)链接起来:cd$HIVE_HOME/libln-s$SPARK_HOME/jars/spark-network-common_2.11-2.4.2.jarln-s$SPARK_HOME/jars/spark-core_2.11-2.4.2.jarln-s$SPARK_HOME/jars/scala-library-2.11.12.jar在hive-site.xml中添加了以下

apache-spark - 无法检测到ES版本-通常在无法访问网络/Elasticsearch群集(HIVE)时发生

我目前正在尝试仅执行从Hive到ElasticSearch的“SELECT*FROMtable”。我正在使用clouderaCDH6.0.1。我已经在我的配置单元路径中添加了elasticsearch-hadoop-hive-7.1.1jar。我有ElasticSearch7.1.1cloudera堆栈和Elastic运行在派生服务器中,但在同一网络中。CREATEEXTERNALTABLEctrl_rater_resumen_lla_es(fecha_registrostring,direccionstring,linea_b_codigo_prestadorastring,line

apache-spark - 如何在 Spark 中获取 hive 表的分区信息

我想像这样通过Spark执行SQL。sparkSession.sql("select*fromtable")但我想在执行前对表进行分区检查,避免全扫描。如果表是分区表,我的程序会强制用户添加分区过滤器。如果没有,可以运行。所以我的问题是如何知道一个表是否是分区表?我的想法是从Metastore读取信息。但是如何获取Metastore是我遇到的另一个问题。有人可以帮忙吗? 最佳答案 假设您的真正目标是限制无界查询的执行,我认为获取查询的执行计划并查看其FileScan/HiveTableScan叶节点会更容易查看是否正在应用任何分区过

apache-spark - 如何在 "force"Hive on Spark 中使用 Map Join?

HiveonSpark不使用Map-Join查询View,该View对多个表进行联合。当使用MR引擎进行相同的查询时,使用Map-Join。我尝试按照Cloudera的建议设置各种Spark设置-https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hos_oview.html#dpp_in_hos我使用的View是一些表的简单联合,这些表都具有相同的结构并已分区。View是这样创建的:createviewmyViewasselect*fromtbl1unionallselect*fromtbl2un

java - Spark : How to obtain the location of configurations spark is using?

现在,我遇到了以下issueexactly.具体来说,spark-submit正在尝试连接到位置0.0.0.0/0.0.0.0的yarn.resourcemanager。我已经检查了上面堆栈溢出线程中描述的所有日志。他们似乎都是正确的。我还在spark配置目录顶部的默认设置文件中添加了yarn.resourcemanager.address=...行,导出了YARN_CONF_DIR和所有该线程上列出的其他修复程序。在评分最高的答案的评论底部,一位评论员指出,如果上述修复均无效,则spark未使用正确的配置。此时,我很确定我的spark安装没有使用正确的配置(我没有安装它)。如何确定s

java - eclipse 上的 Apache Spark

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我问的问题被标记为过于宽泛。经过更多搜索后,我的基础知识更加清晰。所以希望我现在会更加具体。基本上我试图运行在eclipse上而不是在终端上给出的示例。我的第一个疑问已经得到正确回答。使用setMaster("本地")。我运行了示例,它非常正确地显示了输出。现在,如果我将其更改为setMaster("yarn-client"),它现在连接到yarn,还提交作业然后运行它,但最后我得到classnotfou