草庐IT

spark-redis

全部标签

r - 在 sparklyr 中断开连接后,spark 数据帧是否会自动删除?如果没有,我们该怎么做?

在关闭连接时,以下列方式复制到spark的数据帧会发生什么情况?library(sparklyr)library(dplyr)sc如果它们没有被自动删除,除了按以下方式删除每个数据帧之外,是否有任何简单的方法可以删除session期间创建的所有数据帧?sc%>%spark_session()%>%invoke("catalog")%>%invoke("dropTempView","iris")即使它是自动完成的,当spark看到有必要清理临时View时,它是立即完成还是延迟完成?我有一个脚本,它不断调用spark并将临时数据帧复制到spark中以进行一些操作。如果最终没有删除,我担心那

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询?

我们有100多个HDFS分区,我们每天每小时都会写入这些分区。分区是每天进行的,以便直接加载到Hive中,数据以Parquet格式写入。我们遇到的问题是,因为我们想尽可能快地获取数据可查询,每小时写入导致很多小文件。有很多例子,例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码;我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询? 最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

Java spark 到 hive 表插入到动态分区异常

我有以下代码,其中我将数据插入到表txnaggr_rt_fact中,该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中,但如果分区不存在,则会出现异常,但如果分区已经存在,则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

apache-spark - Yarn 的 "Application Type"在哪里/如何定义?

如果向ApacheYARN集群提交新作业,状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值? 最佳答案 应用类型在Spark设置yarn应用上下文时设置。AFAIK,无法更改某些配置的方式。如果它真的很重要,您将不得不在源代码中覆盖它。下面的实现,https://github.com/apache/spark/blob/01c3dfab158d40653f8

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

文章目录源数据描述问题复现问题解析问题解决源数据描述在MySQL中建立了表order_info,其字段信息如下所示:+--------------------+------------------+------+-----+-------------------+-----------------------------+|Field|Type|Null|Key|Default|Extra|+--------------------+------------------+------+-----+-------------------+-----------------------------

Spark编程实验二:RDD编程初级实践

目录一、目的与要求二、实验内容三、实验步骤1、pyspark交互式编程2、编写独立应用程序实现数据去重3、编写独立应用程序实现求平均值问题4、三个综合实例四、结果分析与实验体会一、目的与要求1、熟悉Spark的RDD基本操作及键值对操作;2、熟悉使用RDD编程解决实际具体问题的方法。二、实验内容1、pyspark交互式编程给定数据集data1.txt,包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空,则不计算尾随分隔字符。如果我希望两个输出均为10,这里的解决方法是什么? 最佳答案 您可以通过将-1作为限制参数传递给split来完成您想要的操作,如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句,预期结果是11,而不是10(因为如果您想保

Redis 给集合元素单独设置过期

其他系列文章导航Java基础合集数据结构与算法合集设计模式合集多线程合集分布式合集ES合集文章目录其他系列文章导航文章目录前言一、场景1.1 消费队列1.2Redis实现二、常见的方案2.1为单独的field设置过期2.2 设置整体过期时间2.3zset结合score实现2.4底层实现2.4.1 ZipList实现2.4.2 SkipList实现 2.5代码实现三、总结前言Redis是一个开源的、内存中的数据结构存储系统,它可以用作数据库、缓存和消息代理。在Redis中,集合(Set)是一种无序的数据类型,用于存储不重复的字符串元素。虽然Redis的集合本身不支持为每个元素单独设置过期时间,但