声明: 1.本文针对的是一个知识的梳理,自行整理以及方便记忆 2.若有错误不当之处,请指出一、hive的定义与理解首先,hive是一个构建于hadoop集群之上的数据仓库应用。那么,得先了解一下什么是数据仓库?数据仓库是一个数据集合,用于支持管理决策。简单来说就是为了分析数据而设计的仓库。那么hive就好理解了,hive是一个翻译器,不具备计算能力,存储能力,是一个构建于hadoop集群之上的系统,用于存储和处理数据。而它将得到的数据映射到一张数据表,然后存储在hafs之上。hive提供了自己的SQL语句,即HQL,现在来看看和sql的不同之处,和SQL很多相似的地方
SPARK(有操作):1.spark作业 2.spark-RDD(必考编程:常用算子mapgroupbykeyflatmap-单词统计、单词排序)3.spark-sql(和hive相似,可能有捆绑,如何操作*考的不深,不一定编程 必须了解操作判断选择题) 4.spark-streaming(看包、做作业,题目有变换)一、Spark的代码特点:简洁易懂二、Spark与Hadoop的对比三、Spark架构Spark的基本组件有Excutor,SparkContext和Task四、Spark的运行基本流程五、Yarn-cluster和yarn-clientYarn-cluster适用于生产环境,Ya
文章目录#数据库考前复习题一、选择1.单选题2.多选题二、判断题三、解答请描述数据库中的三大范式关系型数据库ACID特性#数据库考前复习题一、选择1.单选题1.使用limit进行分页查询,其中每页10条数据,查询第5页应该写为?SELECT*FROMyour_table_nameLIMIT40,10;这里的40是偏移量,表示从结果集中的第41条记录开始,而10则表示每页显示的数据条数。因此,查询第5页的数据需要计算偏移量:(5-1)*10=40。2.查找岗位是工程师且薪水在6000以上的记录,逻辑表达式为?岗位=‘工程师’AND薪水>60003.为提升表的查询速度,可以创建的数据库对象是?索引
作业1、数据挖掘的定义?数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。2、数据挖掘主要有哪些技术方向?答:数据挖掘的技术可分为:统计方法、机器学习方法、神经网络方法、数据库方法。3、简述数据挖掘的过程?(1)数据采集 (2)特征提取和数据清洗 (3)分析处理和算法4、数据预处理的主要任务?(1)数据清洗:填补缺失值|平滑噪音数据|识别并移除异常值和噪音数据|解决不一致性|解决数据整合后带来的冗余;(2) 数据整合:集成多个数据库或多个文件;(3) 数据转换:正则化|聚合化;(3)数据缩成:提取有特征化的数据
目录Preface:(一)原理相关(二)CUBEMX配置(三)轮询方式读写(四)DMA方式读写Preface:STM32F4有一个FSMC(FlexibleStaticMemoryController,可变静态存储控制器),可以用来驱动8080接口的TFTLCD,我之前就写过一篇blog,是用FSMC来驱动4.3寸液晶屏;此外,还可以用FSMC来连接外部的各种存储器,比如说SRAM、NORFLASH、PSRAM等等;但是每个区(Bank)的功能是不一样的;Bank1可以连接多达4个NORFLASH或PSRAM/SRAM存储器件(通过片选);Bank2和Bank3只能用于访问NANDFLASH,
大数据挖掘与技术部分基本概念:数据预处理是指在进行数据分析和建模之前,对原始数据进行清洗、转换、集成和规约等操作的过程。数据预处理的目的是提高数据的质量,使数据更加适合进行分析和建模。数据预处理包括以下几个方面:数据清洗:去除重复数据、处理缺失值、去除异常值等。数据转换:将数据从一种格式转换为另一种格式,例如将文本数据转换为数值型数据。数据集成:将来自不同数据源的数据进行整合,例如将不同表格中的数据进行合并。数据规约:对数据进行压缩、抽样等处理,以便于存储和处理。数据预处理的重要性在于,原始数据往往存在各种问题,例如缺失值、异常值、重复值等,这些问题会影响到后续的分析和建模。因此,在进行数据分
前言建议课后下来多花点时间,不然到了期末这些内容就是依托答辩第一章概述什么是协议和体系结构?协议(protocol):计算机(节点)通信时对信息内容、信息表示以及交换过程遵循的共同约定体系结构(architecture):计算机网络非常复杂,一般被分成多个层次,如何分层以及各层采用的协议总和称为体系结构了解网络应用的两种模型:C/S和P2P模型客户-服务器C/S(Client-Server)模型:客户方主动发送请求给服务方,请求对方提供相应的服务P2P(Peer-to-Peer)模型:都是客户方和服务方什么是资源子网和通信子网?ARPANET的中概念资源子网:网络的边缘,提供信息的处理和共享,
参考书:机器学习(周志华)几个重要概念信息熵随机事件未按照某个属性的不同取值划分时的熵减去按照某个属性的不同取值划分时的平均熵。表示事物的混乱程度,熵越大表示混乱程度越大,越小表示混乱程度越小。对于随机事件,如果当前样本集合D中第k类样本所占的比例为pk{p_k}pk,那么D的信息熵为:我们需要选择熵最小的。信息增益——ID3考虑到不同的分支结点所包含的样本数不同,我们给分支结点赋予权重|Dv{D^v}Dv|/|DDD|,可计算出用属性a对样本集D进行划分所获得的信息增益:一般来说,信息增益越大,使用属性a来进行划分所获得的“纯度提升”越大,因此我们需要选择信息增益最大的信息增益率——C4.
1.问题点Cov(X,Y)反映的是X与Y之间的相关性。X相比于E(X)的变化和Y相比于E(Y)的变化是否一致,即符号是否相同,最后取一个期望,得到整体X与Y之间的相关性。Cov(X,Y)>0表示X相比于均值E(X)的变化趋势和Y相比于E(Y)的变化趋势相似,X与Y正相关;Cov(X,Y)照这样理解,那么Cov(X,X)应该也是衡量X与X之间的相关性。但是结果为什么是D(X)呢?我们知道,D(X)反映的是X相比于E(X)的波动情况。怎么会和相关性扯上关系呢?2.解答Cov(X,X)=D(X)也可以看作X与X之间的相关性,即正相关,因为。而且D(X)的值越大,说明正相关的程度越大,也就是一个X的变
1.1矩阵与线性方程组矩阵的概念定义1将m×n个元素aij(i=1,2,···,m;j=1,2,···,n)按照如下次序排成一个m行n列的数表{a11a12...a1na21a22...a2n............am1am2...amn}\left\{\begin{matrix}a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\...&...&...&...\\a_{m1}&a_{m2}&...&a_{mn}\end{matrix}\right\}⎩⎨⎧a11a21...am1a12a22...am2.........