草庐IT

apache-spark-1.6

全部标签

SpringBoot 接入 Spark

本文主要介绍SpringBoot与Spark如何对接,具体使用可以参考文章SpringBoot使用Sparkpom文件添加maven依赖spark-core:spark的核心库,如:SparkConfspark-sql:spark的sql库,如:sparkSessionjanino:Janino是一个极小、极快的开源Java编译器,若不添加,spark获取MySQL或JSON数据时会报错org.springframework.web.util.NestedServletException:Handlerdispatchfailed;nestedexceptionisjava.lang.NoCl

【Spark精讲】一文讲透SparkSQL物理执行计划

SparkSQL整体计划生成流程大体分三步:(1)由SparkSqlParser中的AstBuilder执行节点访问,将语法树的各种Context节点转换成对应的LogicalPlan节点,从而成为一棵未解析的逻辑算子树(UnresolvedLogicalPlan),此时的逻辑算子树是最初形态,不包含数据信息与列信息等。(2)由Analyzer将一系列的规则作用在UnresolvedLogicalPlan上,对树上的节点绑定各种数据信息,生成解析后的逻辑算子树(AnalyzedLogicalPlan)。(3)由SparkSQL中的优化器(Optimizer)将一系列优化规则作用到上一步生成的逻

Spark高级特性 (难)

Spark高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure()//valarea=f(5)//println(area)//在这能否访问到factor,不能,因为factor所在作用域是closure()方法,test()方法和closure()方法作用域是平级的,所有不能直接访问//不能访问,说明factor在一个单独的作用域中//在拿到f的时候,可以通过f间接的访问到closure()作用域中的内容//说明f携带了一个作用域//如果一个

Apache NiFi and Apache Flink: A Deep Dive into RealTime Stream Processing

1.背景介绍随着数据量的增长,实时数据处理变得越来越重要。实时流处理是一种处理大规模实时数据流的技术,它可以在数据到达时进行处理,而不是等待所有数据收集后进行批量处理。这种技术在各种应用场景中都有广泛的应用,例如实时监控、金融交易、物联网等。ApacheNiFi和ApacheFlink是实时流处理的两个主要技术,它们各自具有不同的优势和特点。ApacheNiFi是一个流处理引擎,它可以处理大规模的实时数据流,并提供了丰富的数据处理功能。ApacheFlink是一个流处理框架,它可以处理大规模的实时数据流,并提供了强大的数据处理功能。在本文中,我们将深入探讨ApacheNiFi和ApacheFl

Spark MLlib ----- ALS算法

补充在谈ALS(AlternatingLeastSquares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归,假设其符合的函数为如下:y=w0+w1x我们使用一个平方差函数来表达参数的好坏,平方差函数如下:Ln=(yn-f(x;w0,w1))2其中:y:

Apache SeaTunnel:探索下一代高性能分布式数据集成工具

大家下午好,我叫刘广东,然后是来自ApacheSeaTunnel社区的一名Committer。今天给大家分享的议题是下一代高性能分布式海量数据集成工具,后面的整个的PPT,主要是基于开发者的视角去看待ApacheSeaTunnel。后续所有的讲解主要是可能会硬核偏技术一点,主要是ApacheSeaTunnel流程当中的一些详细的设计。议题简介介绍ApacheSeaTunnel工具ApacheSeaTunnel的一些核心设计架构ApacheSeaTunnel自研引擎Zeta简介ApacheSeaTunnelWeb功能社区近期的规划SeaTunnel介绍首先介绍一下ApacheSeaTunnel的

spark3使用hive zstd压缩格式总结

ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,Parquet,Squence,CSV。ZSTD压缩格式的建表方式如下:ORC存储格式建表时可指定TBLPROPERTIES(“orc.compress”=“zstd”):createtabletab_1(...)storedasorcTBLPROPERTIES("orc.compress"="zstd");Parquet存

如何解决HTTP请求解析错误:o.apache.coyote.http11.Http11Processor : Error parsing HTTP request header

博主猫头虎的技术世界🌟欢迎来到猫头虎的博客—探索技术的无限可能!专栏链接:🔗精选专栏:《面试题大全》—面试准备的宝典!《IDEA开发秘籍》—提升你的IDEA技能!《100天精通Golang》—Go语言学习之旅!领域矩阵:🌐猫头虎技术领域矩阵:深入探索各技术领域,发现知识的交汇点。了解更多,请访问:猫头虎技术矩阵新矩阵备用链接文章目录如何解决HTTP请求解析错误:深入Tomcat与URL编码🐾摘要引言正文问题描述原因分析🕵️‍♂️解决方案💡步骤1:确认URL编码步骤2:更新Tomcat设置步骤3:使用异常处理小结参考资料表格:核心知识点总结总结如何解决HTTP请求解析错误:深入Tomcat与UR

【26】应用开发——如何在Ubuntu系统中安装并配置Apache Http Server

提示:此文章仅作为本人记录日常学习使用,若有存在错误或者不严谨得地方欢迎指正。文章目录一、在Ubuntu系统中安装并配置ApacheHttpServer1.1安装Apache1.2调整防火墙策略1.3检查Apache服务器1.4添加自己的页面1.5相关命令一、在Ubuntu系统中安装并配置ApacheHttpServerUbuntu系统版本:Ubuntu20.04.5LTS1.1安装Apache打开终端,输入以下命令更新软件包列表:sudoaptupdate安装Apache服务器:sudoaptinstallapache21.2调整防火墙策略查看相关程序的防火墙规则:sudoufwapplis

Elasticsearch与Apache Spark集成

1.背景介绍Elasticsearch和ApacheSpark都是大数据处理领域中非常重要的技术。Elasticsearch是一个分布式搜索和分析引擎,它可以实现文本搜索、数据聚合和实时分析等功能。ApacheSpark是一个快速、通用的大数据处理引擎,它可以处理批量数据和流式数据,并提供了多种数据处理框架,如SparkSQL、SparkStreaming、MLlib等。由于Elasticsearch和Spark各自具有不同的优势,因此在实际应用中,很多时候我们需要将它们集成在一起,以便更好地处理和分析大数据。例如,我们可以将Elasticsearch用于实时搜索和分析,将Spark用于大数据