Note_Spark_Day

大数据技术之Spark（二）——RDD常用算子介绍

目录前言一、转换算子1.1Value类型1）map2）mapPatririons ——map和mapPartitions的区别：3）mapPartitionsWithIndex4）flatMap5）glom6）groupBy7）filter 8） sample9）distinct10）coalesce11）repartition——coalesce和repartition的区别12）sortBy1.2双Value类型13）intersection14）union15）subtract16）zip注意点：1.3Key-Value类型17）partitionBy18）reduceByKey19）g

2023_Spark_实验十五：自定义法创建Dataframe及SQL操作

方式二：SQL方式操作1.实例化SparkContext和SparkSession对象2.创建caseclassEmp样例类，用于定义数据的结构信息3.通过SparkContext对象读取文件，生成RDD[String]4.将RDD[String]转换成RDD[Emp]5.引入spark隐式转换函数（必须引入）6.将RDD[Emp]转换成DataFrame7.将DataFrame注册成一张视图或者临时表8.通过调用SparkSession对象的sql函数，编写sql语句9.停止资源10.具体代码如下：package com.scala.demo.sqlimport org.apache.spa

Stata导入csv时报错Note: Unmatched quote while processing row，错误识别为两行数据

问题：Stata导入csv时报错Note:Unmatchedquotewhileprocessingrow，错误识别为两行数据使用命令，向Stata中导入csv文件：importdelimitedusing"D:\DATA\data.csv"出现很多条目有上述报错，全文类似于：Note:Unmatchedquotewhileprocessingrow1040762;thiscanbeduetoa formattingprobleminthefileorbecauseaquoteddataelementspans multiplelines.Youshouldcarefullyinspect

在IDEA运行spark程序（搭建Spark开发环境）

建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境，以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习，在window系统上可以不用安装hadoop和spark，spark程序可以通过pom.xml的文件配置，添加spark-core依赖，可以直接在IDEA中编写spark程序并运行结果。一、相关软件的下载及环境配置1.jdk的下载安装及环境变量配置（我选择的版本是jdk8.0（即jdk1.8），建议不要使用太高版本的，不然配置pom.xml容易报错）链接：https://pan.baidu.com/s/1deXf6pgMi

如何在Spark Scala/Java应用中调用Python脚本

本文将介绍如何在Sparkscala程序中调用Python脚本，Sparkjava程序调用的过程也大体相同1.PythonRunner对于运行与JVM上的程序（即Scala、Java程序），Spark提供了PythonRunner类。只需要调用PythonRunner的main方法，就可以在Scala或Java程序中调用Python脚本。在实现上，PythonRunner基于py4j，通过构造GatewayServer实例让python程序通过本地网络socket来与JVM通信。//LaunchaPy4Jgatewayserverfortheprocesstoconnectto;thiswil

Day01_《MySQL索引与性能优化》摘要

一、资料视频：《尚硅谷MySQL数据库高级，mysql优化，数据库优化》—周阳其他博主的完整笔记：MySQL我的笔记：我的笔记只总结了视频p14-p46部分，因为只有这部分是讲解了MySQL的索引与explain语句分析优化SQL，属于开发人员必备技能，其余的内容用到啥学啥就行二、章节：1、MySQL前言p01-p13讲解了MySQL在Linux系统中的安装部署，MySQL系统的架构，MySQL的SQL执行加载顺序，MySQL的几种Join之类的，属于基础知识，只做了解不做笔记2、MySQL索引与性能优化—explainp14-p46是讲解了MySQL的索引与explain语句分析优化SQL着

Note1: 算法的时间复杂度和空间复杂度

目录---前言1.算法效率1.1算法的复杂度2.时间复杂度2.1 时间复杂度的概念2.2 大O的渐进表示法2.3常见时间复杂度计算举例2.3.1示例12.3.2 示例22.3.3 示例32.3.4 示例42.3.5 示例52.3.6 示例62.3.7 示例72.3.8示例83.空间复杂度3.1示例13.2 示例23.3 示例33.4 示例44.复杂度oj练习4.1消失的数字4.1.1思路4.1.2代码4.2 旋转数组OJ4.2.1思路4.2.2代码---前言本篇文章相对于前面的顺序表和链表而言，比较简单。主要说明算法的时间复杂度和空间复杂度的问题，学习完之后还有一些练习题帮助巩固今天的知识。同

Doris-05-集成Spark、Flink、Datax，以及数据湖分析(JDBC、ODBC、ES、Hive、多源数据目录Catalog)

文章目录集成其他系统Spark读写Doris准备Spark环境使用SparkDorisConnectorFlinkDorisConnector准备Flink环境使用FlinkDorisConnectorDataXdoriswriter数据湖分析JDBC和ODBCODBC外部表使用方式使用ODBC的MySQL外表使用ODBC的Oracle外表ES外表原理使用方式参数配置查询用法使用建议JDBC外表Hive外表多源数据目录(※)基本概念HivelcebergHudiESJDBC集成其他系统准备表和数据：CREATETABLEtable1(siteidINTDEFAULT'10',citycodeS

【C刷题】day5

一、选择题1、如下程序的功能是（）#includeintmain(){charch[80]="123abcdEFG*&";intj;puts(ch);for(j=0;ch[j]!='\0';j++)if(ch[j]>='A'&&ch[j]A:测字符数组ch的长度B:将数字字符串ch转换成十进制数C:将字符数组ch中的小写字母转换成大写D:将字符数组ch中的大写字母转换成小写【答案】：D【解析】：考点：大小写转换（ASCII值）一个字母对应的小写比大写的ASCII码值大32'e'和'E'之间的ASCII码值相差32（ch[j]+'e'-'E'相当于ch[j]+32）。一个字母从大写转化为小写就是

【Python大数据笔记_day05_Hive基础操作】

一.SQL,Hive和MapReduce的关系用户在hive上编写sql语句,hive把sql语句转化为MapReduce程序去执行二.Hive架构映射流程用户接口: 包括CLI、JDBC/ODBC、WebGUI，CLI(commandlineinterface）为shell命令行；Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。 --Hive提供了HiveShell、ThriftServer等服务进程向用户提供操作接口Driver：包括语法解析器、计划编译器、优化器、执行器作用