草庐IT

统计学习方法1.4-2.1 笔记

1.4模型评估与模型选择训练误差与测试误差关于模型的拟合好坏,计算训练集的训练误差进行衡量。关于模型预测的好坏,通过测试集衡量计算预测和真实的差异:测试误差:衡量预测效果训练误差:所有样本来自训练集,模型对于已知数据的预测能力。测试误差:样本来自测试集。模型对于未知数据的预测能力。误差率和准确率是测试误差的两个特例误差率里,当预测和真实不相等计1,相等计0。体现的预测和真实不相等的点的个数,在测试集里样本总个数的比例准确率是预测和真实相等的点的个数,在测试集里样本总个数的比例有时训练误差小,但测试误差不小,需要平衡。对于经验风险最小化,可以通过最小二乘法求解参数。让风险函数最小化,就是它的导数

NC:利用SpaceFlow分析组织中细胞的时空模式 | 空转工具推荐

分析空间转录组数据集的一个主要挑战是同时合并细胞转录组相似性及其空间位置。近日《NatureCommunications》发表了一个灵活的深度学习框架:SpaceFlow,在分析空间转录组数据时结合时空信息。SpaceFlow是什么?SpaceFlow通过使用空间正则化深度图网络合并表达相似性和空间信息来生成空间一致的低维嵌入。在嵌入的基础上,开发团队引入了一个伪时空图(pseudo-SpatiotemporalMap),将伪时间概念与细胞的空间位置相结合,以揭示细胞的时空模式。1)将ST数据编码到低维嵌入中,反映ST数据中细胞的表达相似性和空间接近性;2)通过从嵌入中导出的伪时空图(pSM)

大数据之实时流Flink

思维导图思维导图宏观之实时流架构实时流之lamda架构lamda架构.png分析:批处理层:也就是大数据中的离线存储。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的,能够修复任何错误,然后更新现有的数据视图。输出通常存储在只读数据库中,更新则完全取代现有的预先计算好的视图速度层,也就是Flink为代表实时计算,通过提供最新数据的实时视图来最小化延迟。速度层所生成的数据视图可能不如批处理层最终生成的视图那样准确或完整,但它们几乎在收到数据后立即可用。而当同样的数据在批处理层处理完成后,在速度层的数据就可以被替代掉了优势lambda使开发人员能够构建大规模

第112天 纹理寻边

以下三个物体都是用了一个材质方法一、几何数据——尖锐度缺点:在简单平面上面,无法表现出来,如单纯的立方体。二、环境光遮蔽AO三、倒角倒角其实就是对两个面的法线进行模糊,然后叠加。这里需要明白一个事,倒角与法向的区别,倒角节点大部分地方都是与法线的相同的,只有在两个面的法向交界图有所不同就是在模拟倒角。倒角叉乘法向,叉乘的数学公式(高中数学):向量a×向量b=|a1b1c1|  x |a2b2c2|=(b1c2-b2c1,c1a2-a1c2,a1b2-a2b1)在倒角与法向相同的面,向量相同,叉乘得到的数值=0(也就是黑色)在交界处向量不同,叉乘后的绝对值>0,所以添加渐变映射后,边角处,显示灰

矩阵的知识自我学习总结

矩阵的知识参考数学乐矩阵的加法矩阵的乘法专业的定义:举个例子:例子规律:M行P列*P行N列=M行N列矩阵的逆矩阵*矩阵的逆=单位矩阵点和矩阵当一个点(x,y,z)乘以一个矩阵时:最终得到的点x坐标为:x'=xM0+yM4+zM8+1M12在单位矩阵中:M0=1,M4=M8=M12=0,所以x'=x*1+0+0+0,坐标没有发生变化。如果想要x方向偏移,只需要控制M12即可,由此可以推理出:坐标矩阵位置xMatrix[12]yMatrix[13]zMatrix[14]

clickhouse-HDFS

参考文档https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/前言在hdfs格式ck能解析的情况下,比如CSV,TSV等,可以在ck中建立一个映射表。读取hdfs中的数据,使用ck来分析。需要注意的是如果uri路径中包括了Globs模糊匹配符号,那么说明ck只是映射hdfs中的文件,是只读的。如果写入会报DB::Exception:URI'hdfs:xxxxxx/some_file_?'containsglobs,sothetableisinreadonlymode错误。如果不包括Globs模糊匹配符号,

sklearn:七、支持向量机(上)—22.9.9~9.12

七、支持向量机7.1概述功能:用的最多的是分类,不过做其他的也有不错的效果对于三种不同的输入数据,每种分类器的表现。可以看出SVM最棒SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元,非线性的SVM则与两层的神经网络相当,非线性的SVM中如果添加多个核函数,则可以模仿多层的神经网络7.1.1支持向量机分类器是如何工作的这是一组两种标签的数据,两种标签分别由圆和方块代表支持向量机的分类方法:是在这组分布中找出一个超平面作为决策边界,使模型在数据上的分类误差尽量接近于小,尤其是在未知数据集上的分类误差(泛化误差)尽量小把决策边界B1向两边平移,直到碰到离这条决策边界最

R语言ggplot2作图好看的配色备选

配色来源于论文https://www.nature.com/articles/s41577-022-00707-2里面图的颜色看起来非常舒服,摘下来作为自己数据可视化作图的备选项第一个图image.png八个配色library(ggplot2)colsimage.png第二个图image.png四个颜色cols02image.png第三个图image.png六个颜色cols03image.png第四个图image.png8个颜色这个可能和第一个有重叠cols04image.pngimage.png欢迎大家关注我的公众号小明的数据分析笔记本小明的数据分析笔记本公众号主要分享:1、R语言和pyth

离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾视频回顾:点击这里课件获取:点击这里一、离线数仓建设背景离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用于对数据时效要求不高,需要基于一段时间的历史数据计算才能得到结果的场景,我们大致可以分为离线数据分析及数据应用两类,离线数据计算具备:数据准确度高、吞吐量大、计算成本低等特点。file离线数据应用的场景非常广泛,企业的数据迎来了爆发式的增长,目前企业数据规模巨大、数据类型多样、生成及处理速度极快、数据价值巨大但密度却较低,这

【1】笔记 之 大数据平台--通用架构及技术体系

在大数据平台部,有8个月有余。这几个月一直困在具体的需求点中,导致自己只关注了细节,而做不到窥一斑而知全豹。趁现在,好好梳理下大数据平台的通用架构及技术体系。这次只是了解个大纲,后续会分层次的去深入了解具体技术点。以下截图和笔记均来自于盲目搜索时,非原创(参考文章在文末有标注)大数据技术体系.pngHadoop与spark大数据技术栈.png学习笔记.jpg参考文档(司内):[【大数据系列1】大数据技术介绍(科普入门向)]参考文章(外部):AI时代,还不了解大数据?