草庐IT

分类讨论

全部标签

华为数据之道|03 差异化的企业数据分类管理框架|③以特征提取为核心的非结构化数据管理

华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件

混泥土(地面+墙面)+ 山体裂缝数据集汇总(分类及目标检测)

1、混泥土裂缝1.1分类混泥土裂缝网上数据集有很多,作者自己收集了一些,大家如果有意愿,麻烦在下方留言。1、SDNET2018数据集(数据集来源:SDNET2018)主要是用来分类论文:SDNET2018:Anannotatedimagedatasetfornon-contactconcretecrackdetectionusingdeepconvolutionalneuralnetworks下载:论文中有介绍,如果大家找不到,可以在下方留言,私发。官方链接:"SDNET2018:Aconcretecrackimagedatasetformachinelearningapplica"byMar

【python代码实现】决策树分类算法

目录前置信息1、决策树2、样本数据决策树分类算法1、构建数据集2、数据集信息熵3、信息增益4、构造决策树5、实例化构造决策树6、测试样本分类后置信息:绘制决策树代码前置信息1、决策树决策树是一种十分常用的分类算法,属于监督学习;也就是给出一批样本,每个样本都有一组属性和一个分类结果。算法通过学习这些样本,得到一个决策树,这个决策树能够对新的数据给出合适的分类2、样本数据假设现有用户14名,其个人属性及是否购买某一产品的数据如下:编号年龄收入范围工作性质信用评级购买决策01高不稳定较差否02高不稳定好否0330-40高不稳定较差是04>40中等不稳定较差是05>40低稳定较差是06>40低稳定好

关于穿越机FPV视频果冻效应的讨论

关于穿越机FPV视频果冻效应的讨论1.名词定义2.摄像原理2.1快门分类2.2常见传感器2.3卷帘拍摄3.产生原因4.解决方法4.1振动出处4.2软件方法(辅助作用)4.3硬件方法(直接办法)5.F450试验机FPV视频问题5.1现象5.2测试5.3减震改善5.4其他改善5.5初步结论6后续计划6.1当前摄像头安装方式6.2硬件减震改进方向7.总结8.参考资料这里讨论下穿越机FPV视频果冻效应的问题,看了好多B站的视频。从逻辑上讲,主要的问题来自硬件,软件调参只能解决软件参数导致振动加剧的问题(说明参数调的不是那么特别好),无法本质上解决硬件导致的振动问题。【1】萌新穿越机改pid出现抖动?【

关于穿越机FPV视频果冻效应的讨论

关于穿越机FPV视频果冻效应的讨论1.名词定义2.摄像原理2.1快门分类2.2常见传感器2.3卷帘拍摄3.产生原因4.解决方法4.1振动出处4.2软件方法(辅助作用)4.3硬件方法(直接办法)5.F450试验机FPV视频问题5.1现象5.2测试5.3减震改善5.4其他改善5.5初步结论6后续计划6.1当前摄像头安装方式6.2硬件减震改进方向7.总结8.参考资料这里讨论下穿越机FPV视频果冻效应的问题,看了好多B站的视频。从逻辑上讲,主要的问题来自硬件,软件调参只能解决软件参数导致振动加剧的问题(说明参数调的不是那么特别好),无法本质上解决硬件导致的振动问题。【1】萌新穿越机改pid出现抖动?【

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

图像分类经典神经网络大总结(AlexNet、VGG 、GoogLeNet 、ResNet、 DenseNet、SENet、ResNeXt )

前言在CNN网络结构的演化上,出现过许多优秀的CNN网络,CNN的经典结构始于1998年的LeNet,成于2012年历史性的AlexNet,从此盛于图像相关领域。发展历史:Lenet-->Alexnet-->ZFnet-->VGG-->NIN-->GoogLeNet-->ResNet-->DenseNet-->ResNeXt--->EfficientNet神经网络年份标签作者LeNets1998年CNN开山之作纽约大学AlexNet2012年深度学习CV领域划时代论文具有里程碑意义ImageNet2020冠军多伦多大学 Hinton团队ZFNet2013年ImageNet2013冠军纽约大学G

python - 如何绘制 scikit learn 分类报告?

是否可以使用matplotlibscikit-learn分类报告进行绘图?假设我这样打印分类报告:print'\n*ClassificationReport:\n',classification_report(y_test,predictions)confusion_matrix_graph=confusion_matrix(y_test,predictions)我得到:ClasificationReport:precisionrecallf1-scoresupport10.621.000.766620.930.930.934030.590.970.736740.470.920.622

python - 如何绘制 scikit learn 分类报告?

是否可以使用matplotlibscikit-learn分类报告进行绘图?假设我这样打印分类报告:print'\n*ClassificationReport:\n',classification_report(y_test,predictions)confusion_matrix_graph=confusion_matrix(y_test,predictions)我得到:ClasificationReport:precisionrecallf1-scoresupport10.621.000.766620.930.930.934030.590.970.736740.470.920.622