spark-redis_草庐IT

Spark SQL进阶

DataFrame详解清洗相关API去重API删除空缺值的API替换缺失值的APIfrompysparkimportSparkConf,SparkContextimportosfrompyspark.sqlimportSparkSession#绑定指定的Python解释器os.environ['SPARK_HOME']='/export/server/spark'os.environ['PYSPARK_PYTHON']='/root/anaconda3/bin/python3'os.environ['PYSPARK_DRIVER_PYTHON']='/root/anaconda3/bin/py

进阶 Spark span class token sql 大数据

spark基础--学习笔记

1spark介绍1.1spark概念ApacheSpark是专为大规模数据处理而设计的快速通用的分布式计算引擎，是开源的类HadoopMapReduce的通用分布式计算框架。和MapReduce一样，都是完成大规模数据的计算处理。简而言之，Spark借鉴了MapReduce思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。spark是基于内存的分布式计算引擎框架处理海量的数据，提高计算速度spark只是用于数据计算，不用于数据存储1.2Spark和Hadoop对比 Hadoop Spark类型基础平

基础笔记 span class token spark 学习

再见了RDM，Redis官方GUI才是最好的！

1简介直观高效的RedisGUI管理工具，它可以对Redis的内存、连接数、命中率以及正常运行时间进行监控，并且可以在界面上使用CLI和连接的Redis进行交互（RedisInsight内置对Redis模块支持），官方下载地址。使用Redis或RedisStack进行开发时，将您的生产力提升到一个新的水平！使用RedisInsight可视化和优化Redis数据。RedisInsight是一款功能强大的桌面管理器，为Redis和RedisStack提供直观高效的UI，并支持功能齐全的桌面UI客户端中的CLI交互。RedisInsight支持所有Redis部署。无论您使用Redis开源、Redis

再见最好 Redis redisinsight Java

再见了RDM，Redis官方GUI才是最好的！

1简介直观高效的RedisGUI管理工具，它可以对Redis的内存、连接数、命中率以及正常运行时间进行监控，并且可以在界面上使用CLI和连接的Redis进行交互（RedisInsight内置对Redis模块支持），官方下载地址。使用Redis或RedisStack进行开发时，将您的生产力提升到一个新的水平！使用RedisInsight可视化和优化Redis数据。RedisInsight是一款功能强大的桌面管理器，为Redis和RedisStack提供直观高效的UI，并支持功能齐全的桌面UI客户端中的CLI交互。RedisInsight支持所有Redis部署。无论您使用Redis开源、Redis

再见最好 Redis redisinsight 后端开发

Flink 内容分享(二十七)：Hadoop vs Spark vs Flink——大数据框架比较

大数据开发离不开各种框架，我们通过学习ApacheHadoop、Spark和Flink之间的特征比较，可以从侧面了解要学习的内容。众所周知，HadoopvsSparkvsFlink是快速占领IT市场的三大大数据技术，大数据岗位几乎都是围绕它们展开。本文，将详细介绍三种框架之间的区别。1.数据处理Hadoop：为批处理而构建的Hadoop，它一次性在输入中获取大量数据集，对其进行处理并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力，输出会出现延迟。Spark：Spark也是Hadoop生态系统的一部分。它本质上也是一个批处理系统，但它也支持流处理。Flink：Flink

Flink mdash xff xff0c xff0 大数据 hadoop

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

📋博主简介💖作者简介：大家好，我是wux_labs。😜热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。📝个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥📝个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥🎉请支持我：欢迎大家点赞👍+收

数据分析实战 span class token 数据挖掘大数据数据科学 PySpark

【大数据】Spark学习笔记

初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighlevel流处理NASparkStreamingSQL支持Hive,ImpalaSparkSQLGraph支持NAGraphX机器学习支持NASparkMLSpark对比Hadoop特点Spark优缺点Spa

笔记数据 span class token

一文掌握分布式锁：Mysql/Redis/Zookeeper实现

目录一、项目准备spring项目数据库二、传统锁演示超卖现象使用JVM锁解决超卖解决方案JVM失效场景使用一个SQL解决超卖使用mysql悲观锁解决超卖使用mysql乐观锁解决超卖四种锁比较Redis乐观锁集成Redis超卖现象redis乐观锁解决超卖三、分布式锁概述四、Redis分布式锁实现方案分布式锁实现循环重试防止死锁防误删Lua脚本解决删除锁一致性实现可重入lua脚本加锁流程解锁流程代码编写分布式锁使用可重入性自动续期RedLock算法五、Redisson分布式锁Redisson介绍Redisson简单使用Redisson常用配置通用配置单机版集群版Redisson原理建立连接加锁原理

一文分布式 span class token redis zookeeper

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景kerberos认证是比较底层的认证，掌握好了用起来比较简单。kettle完成kerberos认证后会存储认证信息在jvm中，之后直接连接hive就可以了无需提供额外的用户信息。sparkthriftserver本质就是通过hivejdbc协议连接并运行sparksql任务。二、思路kettle中可以使用js调用java类的方法。编写一个jar放到kettle的lib目录下并。在启动kettle后会自动加载此jar中的类。编写一个javascript转换完成kerbero即可。二、kerberos认证模块开发准备使用scala语言完成此项目。hadoop集群版本:cdh-6.2.0ke

data-integration thriftserver span class token hive spark hadoop

史上最全的Redis的数据类型和使用方法示例—2023最新版

redis介绍Redis全称为RemoteDictionaryServer（远程数据服务），是一款开源的基于内存的键值对存储系统，其主要被用作高性能缓存服务器使用，当然也可以作为消息中间件和Session共享等。Redis独特的键值对模型使之支持丰富的数据结构类型，即它的值可以是字符串、哈希、列表、集合、有序集合，而不像Memcached要求的键和值都是字符串。同时由于Redis是基于内存的方式，免去了磁盘I/O速度的影响，因此其读写性能极高。redis的数据类型redis有八种数据类型，分别有不同的用法String（字符串）List（列表）Set（集合）Zset（有序集合）Hash（哈希）B

示例使用方法 xff code xff1a redis 数据库缓存