apache-spark-2.3

spark 学习笔记

SparkCoreSpark是一种基于内存的快速，通用，可扩展的大数据分析计算引擎和Hadoop进行比较HadoopMapReduce由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。所以Spark应运而生，Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型它的核心技术是弹性分布式数据集（ResilientDistributedDatasets），提供了比M

笔记学习 span class token spark

实际生产环境Apache RocketMQ消息体过大的解决方案

前言官方定义消息体默认大小为4MB，普通顺序消息类型。事务、定时、延时类消息默认大小为64KB。如果超过限制则会抛出异常！但实际工作中，需要使用到MQ进行异步解耦，传输的业务消息偶尔会遇到超过4MB，尤其在业务复杂的系统中，那么我们应该如何处理呢？在我工作实际应用中，有以下几种解决方案。解决方案方案一：消息压缩通常我们都是传递json消息数据，然后底层使用字节流进行传输。如果此时json数据超过4MB，则可以考虑进行消息压缩。原理其实很好理解，比如我们经常使用的压缩包，可以把大文件进行压缩，依次减小文件大小。那么我们这里需要使用到的就是字符压缩，把json字符串进行压缩，然后进行传输，原理图如

RocketMQ 实际 span class token java-rocketmq java rabbitmq kafka

cocosCreator + 阿里云服务器 + Apache(windows) 从h5打包到服务器部署全流程

提示：文章仅供学习参考，如有错误欢迎留言指出~文章目录前言一、搭建一个基础Demo如下：二、构建项目（webMobile平台）1.构建（取消勾选MD5-->构建）2.打开构建好的项目-->上传服务器3.下载Apache服务安装并配置总结前言提示：心得体会。最近想学一些新东西，但是又怕学过就忘，恰好想起博客很久都没更新了，于是就想把新学的一些知识分享出来，即能能作为巩固的地方，也可以和大家分析讨论，岂不美哉。提示：以下是本篇文章正文内容，下面案例可供参考一、搭建一个基础Demo如下：场景简单略过。二、构建项目（webMobile平台）1.构建（取消勾选MD5-->构建）这里有个MD5Cache选

服务器服务 xff xff0c xff0 阿里云 apache

Tomcat项目报错：严重 [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.ContainerBase.addChildInter

严重[RMITCPConnection(3)-127.0.0.1]org.apache.catalina.core.ContainerBase.addChildInternalContainerBase.addChild:start:org.apache.catalina.LifecycleException:Failedtostartcomponent[StandardEngine[Catalina].StandardHost[localhost].StandardContext[/1_demo_war]]报错代码严重[RMITCPConnection(3)-127.0.0.1]org.ap

ContainerBase addChildInter span class token apache tomcat servlet

Apache Superset 存在未授权访问漏洞(CVE-2023-27524)详细利用过程

文章目录ApacheSuperset存在未授权访问漏洞(CVE-2023-27524)详细利用过程1.ApacheSuperset简介2.漏洞描述3.影响版本4.fofa查询语句5.漏洞复现6.POC&EXP7.整改意见8.往期回顾ApacheSuperset存在未授权访问漏洞(CVE-2023-27524)详细利用过程免责声明：请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失，均由使用者本人负责，所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。1.ApacheSuperset简介微信公众号搜索：南风漏洞复现文库

漏洞 Superset nofollow Apache

Spark AQE源码探索

介绍AQE全称是AdaptiveQueryExecution，官网介绍如下PerformanceTuning-Spark3.5.0DocumentationAQE做了什么AQE是SparkSQL的一种动态优化机制，在运行时，每当ShuffleMap阶段执行完毕，AQE都会结合这个阶段的统计信息，基于既定的规则动态地调整、修正尚未执行的逻辑计划和物理计划，来完成对原始查询语句的运行时优化特性自动分区合并：在Shuffle过后，ReduceTask数据分布参差不齐，AQE将自动合并过小的数据分区。Join策略调整：如果某张表在过滤之后，尺寸小于广播变量阈值，这张表参与的数据关联就会从Shuffle

源码探索 xff0c xff xff0 spark AQE Spark源码 Spark优化

Java利用Apache compress包实现文件夹压缩成Zip包

Apachecommon提供了很多实用的工具包，下面就说一下如何用compress包来压缩文件夹。先引入compress，io和lang3这3个工具包：org.apache.commonscommons-compress1.9commons-iocommons-io2.4org.apache.commonscommons-lang33.8这个方法实现了将文件夹下所有的文件压缩成zip包，并输出到文件流中，可以直接写入到文件或提供给前端下载，工具类如下：importorg.apache.commons.compress.archivers.ArchiveException;importorg.a

文件夹 compress commons import 文件 java apache python

深入理解Apache Hadoop的分布式存储

1.背景介绍分布式存储是大数据处理领域中的一个重要话题。随着数据量的增加，单机存储和计算的能力已经无法满足需求。因此，分布式存储和计算技术变得越来越重要。ApacheHadoop是一个开源的分布式存储和分析框架，它可以处理大量数据并提供高性能的存储和计算能力。ApacheHadoop的核心组件有HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS是一个分布式文件系统，它可以在多个节点上存储数据，并提供高可靠性和高性能的存储服务。MapReduce是一个分布式计算框架，它可以在HDFS上执行大量数据的并行计算。在本文中，我们将深入探讨ApacheHad

分布式分布数据副本 xff apache hadoop 大数据

【Spark系列3】RDD源码解析实战

本文主要讲1、什么是RDD2、RDD是如何从数据中构建一、什么是RDD？RDD：弹性分布式数据集，ResillientDistributedDataset的缩写。个人理解：RDD是一个容错的、并行的数据结构，可以让用户显式的将数据存储到磁盘和内存中，并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上，RDD是一个只读的分区集合，一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以互相依赖二、RDD是如何从数据中构建2.1、RDD源码Internally,eachRDDischaracterizedbyfivemainpropertiesAlistofpa

实战源码 xff0c xff xff0 spark 大数据分布式

Spark与 Mesos集成

1.背景介绍Spark与Mesos集成是一种高效的大数据处理方案，它可以充分利用Mesos的资源调度能力，以及Spark的高性能计算能力。这种集成方案可以实现大数据应用的高效运行，同时提高资源利用率。在大数据时代，数据量越来越大，传统的数据处理方法已经无法满足需求。为了解决这个问题，需要采用高性能计算和分布式计算技术。Spark和Mesos就是两种常用的大数据处理技术。Spark是一个基于Hadoop的分布式计算框架，它可以处理大量数据，并提供了一系列的数据处理功能，如数据存储、数据处理、数据分析等。Mesos是一个分布式资源调度系统，它可以将资源分配给不同的应用，并实现资源的高效利用。Spa

集成 Spark xff xff0c Mesos 大数据分布式

139 140 141142143 144 145