sparking

apache-spark - hive on spark - 为什么 'select *' 不生成 spark 应用程序/执行程序？

我在Spark(执行引擎)上设置了Hive(v2.3.4)。这将启动一个spark应用程序/执行程序:selectcount(*)froms.twhereh_code='KGD78'andh_no='265'为什么这不启动spark应用程序/执行程序:select*froms.twhereh_code='KGD78'andh_no='265' 最佳答案这-第二种情况-是由于不太知名的"hive.fetch.task.conversion"参数。根据设置方式，Hive可以启动单个“获取任务”，而不是MapReduce作业，即使使用过

sql-server - Spark 批量插入到 MS-SQL

我在Hive上有一个表，其中包含920649653条记录。我想将该表插入到MS-SQL中。我使用azure-sqldb-spark图书馆。spark2-shell--master=yarn--jarsazure-sqldb-spark-1.0.2-jar-with-dependencies.jarimportcom.microsoft.azure.sqldb.spark.bulkcopy.BulkCopyMetadataimportcom.microsoft.azure.sqldb.spark.config.Configimportcom.microsoft.azure.sqldb.s

sql-server server spark apache scala apache-spark hadoop bulkinsert

scala - Spark : How to get the latest file from s3 in the last 10 days

当输入中不存在文件时，我试图在过去10天内从s3获取最新文件。问题是路径包含日期。我的路径是这样的:valpath="s3://bucket-info/folder1/folder2"valdate="2019/04/12"##YYYY/MM/DD我正在做这个=valupdate_path=path+"/"+date//thiswillbecomes3://bucket-info/folder1/folder2/2019/04/12deffileExist(path:String,sc:SparkContext):Boolean=FileSystem.get(getS3OrFileUr

the latest folder 34 section scala file apache-spark hadoop amazon-s3

sql - 如何从 VBA 连接到 Apache spark/hadoop

我熟悉SQL(尤其是postgres)和VBA，但在Apachespark方面，我是一个新手，但它似乎比使用SQL更快地运行和返回查询结果？截至目前，在我的日常工作中，我通过OLEDB(其他人使用ODBC等)将我的ExcelVBA与Postgresql连接，所以每当我需要检索来自DB的东西，我可以通过设置连接并在VBA中编写SQL字符串，然后将输出转储到所需的工作表和单元格中来轻松实现。但缺点是速度，随着我的数据越来越大，当我需要运行复杂的SQL查询来进行复杂的计算或关系时，需要等待很长时间才能得到结果。除了升级托管DB的服务器外，我听说Spark/Hadoop是加速任务的解决方案？通

Apache hadoop code 34 section sql excel vba apache-spark

scala - Spark 作为 Hive 的执行引擎

Spark2.4.2可以用作AmazonEMR上的Hive2.3.4的执行引擎吗？我已通过以下命令将jar文件与配置单元(scala-library、spark-core、spark-common-network)链接起来:cd$HIVE_HOME/libln-s$SPARK_HOME/jars/spark-network-common_2.11-2.4.2.jarln-s$SPARK_HOME/jars/spark-core_2.11-2.4.2.jarln-s$SPARK_HOME/jars/scala-library-2.11.12.jar在hive-site.xml中添加了以下

scala Spark hive java apache-spark hadoop amazon-emr

apache-spark - 无法检测到ES版本-通常在无法访问网络/Elasticsearch群集(HIVE)时发生

我目前正在尝试仅执行从Hive到ElasticSearch的“SELECT*FROMtable”。我正在使用clouderaCDH6.0.1。我已经在我的配置单元路径中添加了elasticsearch-hadoop-hive-7.1.1jar。我有ElasticSearch7.1.1cloudera堆栈和Elastic运行在派生服务器中，但在同一网络中。CREATEEXTERNALTABLEctrl_rater_resumen_lla_es(fecha_registrostring,direccionstring,linea_b_codigo_prestadorastring,line

Elasticsearch apache-spark java hadoop hive cloudera

apache-spark - 如何在 Spark 中获取 hive 表的分区信息

我想像这样通过Spark执行SQL。sparkSession.sql("select*fromtable")但我想在执行前对表进行分区检查，避免全扫描。如果表是分区表，我的程序会强制用户添加分区过滤器。如果没有，可以运行。所以我的问题是如何知道一个表是否是分区表？我的想法是从Metastore读取信息。但是如何获取Metastore是我遇到的另一个问题。有人可以帮忙吗？最佳答案假设您的真正目标是限制无界查询的执行，我认为获取查询的执行计划并查看其FileScan/HiveTableScan叶节点会更容易查看是否正在应用任何分区过

何在 apache-spark section loaddate code hadoop hive-metastore

apache-spark - 如何在 "force"Hive on Spark 中使用 Map Join？

HiveonSpark不使用Map-Join查询View，该View对多个表进行联合。当使用MR引擎进行相同的查询时，使用Map-Join。我尝试按照Cloudera的建议设置各种Spark设置-https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hos_oview.html#dpp_in_hos我使用的View是一些表的简单联合，这些表都具有相同的结构并已分区。View是这样创建的:createviewmyViewasselect*fromtbl1unionallselect*fromtbl2un

何在 apache-spark code section Hive hadoop

java - Spark : How to obtain the location of configurations spark is using?

现在，我遇到了以下issueexactly.具体来说，spark-submit正在尝试连接到位置0.0.0.0/0.0.0.0的yarn.resourcemanager。我已经检查了上面堆栈溢出线程中描述的所有日志。他们似乎都是正确的。我还在spark配置目录顶部的默认设置文件中添加了yarn.resourcemanager.address=...行，导出了YARN_CONF_DIR和所有该线程上列出的其他修复程序。在评分最高的答案的评论底部，一位评论员指出，如果上述修复均无效，则spark未使用正确的配置。此时，我很确定我的spark安装没有使用正确的配置(我没有安装它)。如何确定s

configurations location code spark section java apache-spark hadoop hadoop-yarn

java - eclipse 上的 Apache Spark

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我问的问题被标记为过于宽泛。经过更多搜索后，我的基础知识更加清晰。所以希望我现在会更加具体。基本上我试图运行在eclipse上而不是在终端上给出的示例。我的第一个疑问已经得到正确回答。使用setMaster("本地")。我运行了示例，它非常正确地显示了输出。现在，如果我将其更改为setMaster("yarn-client")，它现在连接到yarn，还提交作业然后运行它，但最后我得到classnotfou

eclipse Apache section class notice java hadoop apache-spark

219 220 221222223 224 225