草庐IT

spark-redis

全部标签

Spark SQL进阶

DataFrame详解清洗相关API去重API删除空缺值的API替换缺失值的APIfrompysparkimportSparkConf,SparkContextimportosfrompyspark.sqlimportSparkSession#绑定指定的Python解释器os.environ['SPARK_HOME']='/export/server/spark'os.environ['PYSPARK_PYTHON']='/root/anaconda3/bin/python3'os.environ['PYSPARK_DRIVER_PYTHON']='/root/anaconda3/bin/py

spark基础--学习笔记

1spark介绍1.1spark概念ApacheSpark是专为大规模数据处理而设计的快速通用的分布式计算引擎,是开源的类HadoopMapReduce的通用分布式计算框架。和MapReduce一样,都是完成大规模数据的计算处理。简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。spark是基于内存的分布式计算引擎框架处理海量的数据,提高计算速度spark只是用于数据计算,不用于数据存储1.2Spark和Hadoop对比 Hadoop Spark类型基础平

再见了RDM,Redis官方GUI才是最好的!

1简介直观高效的RedisGUI管理工具,它可以对Redis的内存、连接数、命中率以及正常运行时间进行监控,并且可以在界面上使用CLI和连接的Redis进行交互(RedisInsight内置对Redis模块支持),官方下载地址。使用Redis或RedisStack进行开发时,将您的生产力提升到一个新的水平!使用RedisInsight可视化和优化Redis数据。RedisInsight是一款功能强大的桌面管理器,为Redis和RedisStack提供直观高效的UI,并支持功能齐全的桌面UI客户端中的CLI交互。RedisInsight支持所有Redis部署。无论您使用Redis开源、Redis

再见了RDM,Redis官方GUI才是最好的!

1简介直观高效的RedisGUI管理工具,它可以对Redis的内存、连接数、命中率以及正常运行时间进行监控,并且可以在界面上使用CLI和连接的Redis进行交互(RedisInsight内置对Redis模块支持),官方下载地址。使用Redis或RedisStack进行开发时,将您的生产力提升到一个新的水平!使用RedisInsight可视化和优化Redis数据。RedisInsight是一款功能强大的桌面管理器,为Redis和RedisStack提供直观高效的UI,并支持功能齐全的桌面UI客户端中的CLI交互。RedisInsight支持所有Redis部署。无论您使用Redis开源、Redis

Flink 内容分享(二十七):Hadoop vs Spark vs Flink——大数据框架比较

大数据开发离不开各种框架,我们通过学习ApacheHadoop、Spark和Flink之间的特征比较,可以从侧面了解要学习的内容。众所周知,HadoopvsSparkvsFlink是快速占领IT市场的三大大数据技术,大数据岗位几乎都是围绕它们展开。本文,将详细介绍三种框架之间的区别。1.数据处理Hadoop:为批处理而构建的Hadoop,它一次性在输入中获取大量数据集,对其进行处理并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会出现延迟。Spark:Spark也是Hadoop生态系统的一部分。它本质上也是一个批处理系统,但它也支持流处理。Flink:Flink

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

📋博主简介💖作者简介:大家好,我是wux_labs。😜热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。📝个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥📝个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥🎉请支持我:欢迎大家点赞👍+收

【大数据】Spark学习笔记

初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighlevel流处理NASparkStreamingSQL支持Hive,ImpalaSparkSQLGraph支持NAGraphX机器学习支持NASparkMLSpark对比Hadoop特点Spark优缺点Spa

一文掌握分布式锁:Mysql/Redis/Zookeeper实现

目录一、项目准备spring项目数据库二、传统锁演示超卖现象使用JVM锁解决超卖解决方案JVM失效场景使用一个SQL解决超卖使用mysql悲观锁解决超卖使用mysql乐观锁解决超卖四种锁比较Redis乐观锁集成Redis超卖现象redis乐观锁解决超卖三、分布式锁概述四、Redis分布式锁实现方案分布式锁实现循环重试防止死锁防误删Lua脚本解决删除锁一致性实现可重入lua脚本加锁流程解锁流程代码编写分布式锁使用可重入性自动续期RedLock算法五、Redisson分布式锁Redisson介绍Redisson简单使用Redisson常用配置通用配置单机版集群版Redisson原理建立连接加锁原理

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景kerberos认证是比较底层的认证,掌握好了用起来比较简单。kettle完成kerberos认证后会存储认证信息在jvm中,之后直接连接hive就可以了无需提供额外的用户信息。sparkthriftserver本质就是通过hivejdbc协议连接并运行sparksql任务。二、思路kettle中可以使用js调用java类的方法。编写一个jar放到kettle的lib目录下并。在启动kettle后会自动加载此jar中的类。编写一个javascript转换完成kerbero即可。二、kerberos认证模块开发准备使用scala语言完成此项目。hadoop集群版本:cdh-6.2.0ke

史上最全的Redis的数据类型和使用方法示例—2023最新版

redis介绍Redis全称为RemoteDictionaryServer(远程数据服务),是一款开源的基于内存的键值对存储系统,其主要被用作高性能缓存服务器使用,当然也可以作为消息中间件和Session共享等。Redis独特的键值对模型使之支持丰富的数据结构类型,即它的值可以是字符串、哈希、列表、集合、有序集合,而不像Memcached要求的键和值都是字符串。同时由于Redis是基于内存的方式,免去了磁盘I/O速度的影响,因此其读写性能极高。redis的数据类型redis有八种数据类型,分别有不同的用法String(字符串)List(列表)Set(集合)Zset(有序集合)Hash(哈希)B