草庐IT

Note_Spark_Day

全部标签

书籍1 实战大数据(Hadoop+spark+Flink)2

第二章是搭建IDEA开发环境和Linux虚拟机这章的内容较少,但需要花费的时间较长,毕竟都是实操部分首先是搭建IDEA开发环境每一个IT开发人员都得有一个合适的开发工具,IDEA是大数据开发的首选,在Windows上安装IDEA,然后构建Maven项目。最首先的还是安装JDK,因为大数据开发的很多地方都是得需要用到Java的。具体的安装和环境配置这里不再说明。Maven的安装与配置这是专门用于构建和管理Java相关项目的工具。使用它有两点好处,1是Maven管理的Java项目都有着相同的项目结构;二是便于统一维护jar包IDEA的安装与配置全称IntellijIDEA,是进行Java编程的集成

Spark:Dynamic Resource Allocation【动态资源分配】

1.问题背景2.原理分析2.1Executor生命周期2.2ExecutorAllocationManager上下游调用关系3.总结与反思4.CommunityFeedback1.问题背景用户提交Spark应用到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为一个Container在Yarn上运行。Spark调度器会把Task按照合适的策略分配到executor上执行。所有任务执行完后,executor被杀死,应用结束。在job运行的过

【100天精通Python】Day56:Python 数据分析_Pandas数据清洗和处理(删除填充插值,数据类型转换,去重,连接与合并)

目录数据清洗和处理1.处理缺失值1.1删除缺失值:1.2 填充缺失值:1.3插值:2数据类型转换2.1数据类型转换2.2日期和时间的转换:2.3分类数据的转换:2.4自定义数据类型的转换:3数据去重4数据合并和连接数据清洗和处理        在数据清洗和处理方面,Pandas提供了多种功能,包括处理缺失值、数据类型转换、数据去重以及数据合并和连接。以下是这些功能的详细描述和示例:1.处理缺失值在Pandas中处理缺失值有多种方法,包括删除缺失值、填充缺失值和插值。1.1删除缺失值:        删除缺失值是最简单的方法,但有时会导致数据损失。您可以使用dropna()方法来删除包含缺失值的

初识C语言——详细入门(系统性学习day4)

目录前言一、C语言简单介绍、特点、基本构成简单介绍:特点:基本构成:二、认识C语言程序标准格式:简单C程序:三、基本构成分类详细介绍  (1)关键字(2)数据类型计算机中常用存储单位数据类型的取值范围打印输入类型(3)常量和变量常量的分类:对各种常量代码的演示:变量的分类:定义变量的方法如下:总结前言  本篇文章将详细地介绍C语言入门基础。一、C语言简单介绍、特点、基本构成简单介绍:C语言是一门面向过程的、抽象化的通用程序设计语言,广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效率程序设计语言。特点:(1)简洁的

(day two)基于Gateway网关拦截器和Redis实现单点登录和认证

目录登录验证方式的选择1.最原始的基于session的方式2.基于jwt的方式3.jwt加redis的方式 编写User服务token工具类和依赖redis依赖和配置编写拦截器1.将user服务添加到gateway网关路由2.编写拦截器和判断逻辑验证一下功能登录验证方式的选择 在此之前我了解过三种登录验证方式,那么为什么选择JWTtoken+redis,我们来分析一下。1.最原始的基于session的方式 当我们登录成功时后端会将用户的登录凭证存于session域当中,下次如果用户发起请求,就会带着cookie去session中寻找用户信息,如果存在则验证成功,并且登录过期时间也是tomcat

Spark常见报错

一.org.apache.spark.shuffle.FetchFailedException:Connectionfrom/xxx:7337closed背景:shuffle过程包括shuffleread和shufflewrite两个过程。对于sparkonyarn,shufflewrite是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;shuffleread是container请求externalshuffle服务获取数据过程,externalshuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过s

Pycharm通过SSH配置centos上Spark环境

直接在shell进行pyspark进行编程,程序没有办法写得太长,而且我们希望能够实现一个及时给出结果的编程环境,可以使用pycharm连接centos上的spark,进行本地编程,同步到centos系统中运行程序,并把结果返回pycharm上。以下是pycharm的环境配置,这里采用的是2020版本的,2023版本变动较大,暂时没有找到配置方法:新建项目→选择purepython→选择existinginterpreter→选择更多…按钮选择SSH→Newserverconfiguration→Host填写ip地址,这里以:192.168.19.137,Port不变→Username填写自己

(未完)7天快速上手OpenHarmony应用开发 | Day4 JS FA、常用组件和自定义组件(一)

学习来源前置是一些前端的东西基于之前创建的项目开发一个最常见的表单一、Text文本组件,用于呈现一段文本信息支持Span子组件1.创建Text组件在pages/second目录下.hml文件中创建一个Text组件textstyle="front-size:30px;margin-bottom:20px;margin-top:100px">/text>2.Span子组件使用Span子组件时,Text组件内不能存在文本内容在上面的Text组件中创建textstyle="front-size:30px;margin-bottom:20px;margin-top:100px"> span>Form表单

python - TCP 上的 Spark 流式传输

我目前正在尝试通过TCP运行SparkStreaming,但我经常收到“[Errno111]连接被拒绝”错误...importsocketTCP_IP='localhost'TCP_PORT=40123MESSAGE="TestdataTestdataTestdata"s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)s.connect((TCP_IP,TCP_PORT))s.send(MESSAGE)s.close()Spark部分importtimefrompysparkimportSparkContextfrompyspark.s

学习day59

昨天学了插槽,但是没有即笔记了今天的是vuex总体来说,vuex就是一个共享单车,每个人都可以使用他,也可也对他进行反馈。即把一个数据列为vuex,然后每个组件可以使用这个对象,也可也反过来反馈他这一个设计是将A组件的一个数据作为公共来共享求和案例,纯vue版APP.vue importCountfrom'./components/Count' exportdefault{ name:'App', components:{Count} }Count.vue 当前求和为:{{sum}} 1 2 3 + - 当前求和为奇数再加 等一等再加 export