apache-spark-2.3

apache-spark - spark-sql读取hive表失败

我想通过hivejdbc连接将整个hive表加载到spark内存中。并且已经在我的项目中添加了hive-site.xml、hdfs-site.xml。由于成功获取列名(eg.role_id)，spark已经连接到hive。但是spark似乎将列名加载为数据，并抛出异常。这是我的代码:valdf=spark.read.format("jdbc").option("driver",CommonUtils.HIVE_DIRVER).option("url",CommonUtils.HIVE_URL).option("dbtable","datasource_test.t_leave_map_

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的，但还有Spark。Spark拥有所有RDD类方法，这些方法完全有能力，但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库，为什么Hive会出现？文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

enableHiveSupport apache-spark section Hive class hadoop

apache - 是否可以使用 hbase2 构建和使用 apache kylin

在apachekylin发行版中，我只能看到哪些与hbase1.x兼容。我的hbase版本是2.0如果有人用hbase2.x测试了kylin请发表评论。感谢和问候拉胡尔最佳答案我们最近正在HBase2.0(HDP3.0)上测试Kylin。HBase中的API发生了变化，因此我们无法直接在HBase2.0上运行Kylin-HBase1.x。完成这项工作后，我们将发布HBase2.x版本。请继续关注! 关于apache-是否可以使用hbase2构建和使用apachekylin，我们在St

建和 apache section strong HBase hadoop kylin

apache-spark - 将环境变量传递给 YARN 容器

我们有一个复杂的环境，它使用多种技术计算日常任务:SPARKPY-SPARKJavaMapReduce和HIVE。最近我们集成了一个新系统，可以在运行时对服务进行动态解析。该系统在任务初始化之前(动态地)更新环境变量。有一个库可以读取环境变量并对其进行处理(无关紧要)。因此，每个任务在其执行器/映射器/缩减器环境中都需要这个环境变量。我们的任务由YARN资源管理器管理。总结一下，我想传递YARN环境变量，它将在所有容器(ApplicationMaster和执行器/映射器/缩减器)上公开。到目前为止我尝试过的事情:SPARK-我玩过:spark-submit--confspark.yar

apache-spark 容器 code mapreduce hadoop hadoop-yarn

r - 在 sparklyr 中断开连接后，spark 数据帧是否会自动删除？如果没有，我们该怎么做？

在关闭连接时，以下列方式复制到spark的数据帧会发生什么情况？library(sparklyr)library(dplyr)sc如果它们没有被自动删除，除了按以下方式删除每个数据帧之外，是否有任何简单的方法可以删除session期间创建的所有数据帧？sc%>%spark_session()%>%invoke("catalog")%>%invoke("dropTempView","iris")即使它是自动完成的，当spark看到有必要清理临时View时，它是立即完成还是延迟完成？我有一个脚本，它不断调用spark并将临时数据帧复制到spark中以进行一些操作。如果最终没有删除，我担心那

sparklyr spark section session r apache-spark hadoop dataframe

hadoop - YARN 无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

我的查询:我在ubantu上安装了配置单元。我之前测试过它是工作文件，但后来它开始出错。insertintotest2values(1,'Mahendra');我的hive错误:QueryID=mahendra_20180827145546_86973630-5eff-4764-ade8-cfc3a8ce5c37Totaljobs=3LaunchingJob1outof3Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop MRAppMaster gt lt property hive mapreduce hadoop-yarn

Apache ActiveMQ 远程代码执行漏洞分析

漏洞简介ApacheActiveMQ官方发布新版本，修复了一个远程代码执行漏洞（CNVD-2023-69477 CVE-2023-46604），攻击者可构造恶意请求通过ApacheActiveMQ的61616端口发送恶意数据导致远程代码执行，从而完全控制ApacheActiveMQ服务器。影响版本ApacheActiveMQ5.18.0before5.18.3ApacheActiveMQ5.17.0before5.17.6ApacheActiveMQ5.16.0before5.16.7ApacheActiveMQbefore5.15.16ApacheActiveMQLegacyOpenWire

漏洞分析漏洞 nbsp code activemq 其他分类

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询？

我们有100多个HDFS分区，我们每天每小时都会写入这些分区。分区是每天进行的，以便直接加载到Hive中，数据以Parquet格式写入。我们遇到的问题是，因为我们想尽可能快地获取数据可查询，每小时写入导致很多小文件。有很多例子，例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码；我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询？最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

apache-spark 在用 section parquet stackoverflow hadoop hive hdfs presto

Java spark 到 hive 表插入到动态分区异常

我有以下代码，其中我将数据插入到表txnaggr_rt_fact中，该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中，但如果分区不存在，则会出现异常，但如果分区已经存在，则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

spark Java apache scala apache-spark hadoop hive

apache-spark - Yarn 的 "Application Type"在哪里/如何定义？

如果向ApacheYARN集群提交新作业，状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值？最佳答案应用类型在Spark设置yarn应用上下文时设置。AFAIK，无法更改某些配置的方式。如果它真的很重要，您将不得不在源代码中覆盖它。下面的实现，https://github.com/apache/spark/blob/01c3dfab158d40653f8

apache-spark Application section spark apache hadoop hadoop-yarn

169 170 171172173 174 175