草庐IT

spark-ml

全部标签

apache-spark - 具有大量流和模型的 Spark Streaming 用于 RDD 的分析处理

我们正在使用SparkStreaming创建一个实时流处理系统,它使用大量(数百万)分析模型应用于许多不同类型的传入指标数据流(超过100000)中的RDD。此流是原始流或转换后的流。每个RDD都要经过一个分析模型进行处理。由于我们不知道哪个spark集群节点将处理来自不同流的哪些特定RDD,因此我们需要使所有这些模型在每个Spark计算节点上可用。这将在每个spark节点上产生巨大的开销。我们正在考虑使用内存数据网格在Spark计算节点上提供这些模型。这是正确的方法吗?或者我们是否应该避免一起使用Spark流,而只使用内存中的数据网格,如Redis(带有发布/订阅)来解决这个问题。在

scala - Spark 上的 Redis :Task not serializable

我们在Spark上使用Redis来缓存我们的键值对。这是代码:importcom.redis.RedisClientvalr=newRedisClient("192.168.1.101",6379)valperhit=perhitFile.map(x=>{valarr=x.split("")valreadId=arr(0).toIntvalrefId=arr(1).toIntvalstart=arr(2).toIntvalend=arr(3).toIntvalrefStr=r.hmget("refStr",refId).get(refId).split(",")(1)valreadSt

scala - Spark 上的 Redis :Task not serializable

我们在Spark上使用Redis来缓存我们的键值对。这是代码:importcom.redis.RedisClientvalr=newRedisClient("192.168.1.101",6379)valperhit=perhitFile.map(x=>{valarr=x.split("")valreadId=arr(0).toIntvalrefId=arr(1).toIntvalstart=arr(2).toIntvalend=arr(3).toIntvalrefStr=r.hmget("refStr",refId).get(refId).split(",")(1)valreadSt

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者:张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService,旨在提升大数据计算引擎的性能/稳定性/弹性,目前已广泛应用于生产场景。Gluten是Intel开源的引擎加速项目,旨在通过把SparkJavaEngine替换为NativeEngine(Velox,ClickHouse,Arrow等)来加速Spark引擎。过去一段时间,Gluten社区和Celeborn社区相互合作,成功把Celeborn集成进Gluten,本文将对此加以介绍。Gluten:给Spark换上Na

Spark报错:需要 REFRESH TABLE tableName 解决

今天跑sparksql任务,报了一个错误,如下:Itispossibletheunderlyingfileshavebeenupdated.YoucanexplicitlyinvalidatethecacheinSparkbyrunning‘REFRESHTABLEtableName’commandinSQLorbyrecreatingtheDataset/DataFrameinvolved.查了一些资料,出现这个错误,是因为当你更新了一个表的某些列,并且马上查询的话,就会报这种错误。如果想解决这个问题,请刷新与该表关联的所有缓存项。调用命令如下:REFRESHTABLE[db_name.]t

Spark 3.0参数详解之 spark.sql.files.maxPartitionBytes

1、对应源码位置在接口FileScan的partitions方法中org.apache.spark.sql.execution.datasources.v2.FileScan#partitions:2、生效原理2.1、关键方法之partitionsorg.apache.spark.sql.execution.datasources.v2.FileScan#partitions:protecteddefpartitions:Seq[FilePartition]={valselectedPartitions=fileIndex.listFiles(partitionFilters,dataFilt

Spark的dropDuplicates或distinct 对数据去重

消除重复的数据可以通过使用distinct和dropDuplicates两个方法。distinct数据去重distinct是所有的列进行去重的操作,假如你的DataFrame里面有10列,那么只有这10列完全相同才会去重。使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。dropDuplicates()y有四个重载方法第一个defdropDuplicates():Dataset[T]=dropDuplicates(this.columns)这个方法,不需要传入任何的参数,默认根据所有列进行去重,

【大数据基础】基于信用卡逾期数据的Spark数据处理与分析

https://dblab.xmu.edu.cn/blog/2707/实验过程数据预处理本次实验数据集来自和鲸社区的信用卡评分模型构建数据,以数据集cs-training.csv为分析主体,其中共有15万条记录,11列属性。每个数据包含以下字段:字段名称字段含义例子(1)SeriousDlqin2yrs是否逾期0,1(2)RevolvingUtilizationOfUnsecuredLines信用卡和个人信贷额度的总余额0.766126609(3)Age年龄45,20,30(4)NumberOfTime30-59DaysPastDueNotWorse借款人逾期30-59天的次数0,2,3(5)

vue3利用spark-md5计算文件的md5值

前言先要安装spark-md5包:importSparkMD5from‘spark-md5’一、spark-md5是什么?看官网:https://github.com/search?q=spark-md5二、如何计算1.小文件对于小文件来说通常直接读取其文本文件(字符串),计算其md5。varsparkMD5=newSparkMD5()varreader=newFileReader()reader.readAsText(file)reader.onload=(event)=>{//获取文件MD5str.value=event.target.resultsparkMD5.append(str.v

【大数据入门核心技术-Spark】(七)执行Spark任务的两种方式:spark-submit和spark-shell

一、环境安装【大数据入门核心技术-Spark】(三)Spark本地模式安装【大数据入门核心技术-Spark】(四)SparkStandlone模式安装【大数据入门核心技术-Spark】(五)SparkOnYarn模式安装【大数据入门核心技术-Spark】(六)SparkStandloneHA模式安装