Scikit-Learn-Keras

【scikit-learn基础】--『预处理』之正则化

数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效本篇介绍的正则化处理，主要功能是对每个样本计算其范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的范数（如l1-norm、l2-norm）等于1。1.原理介绍正则化之前，先简单介绍下范数的概念。1.1.范数范数常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小，可以简

【scikit-learn基础】--『预处理』之数据缩放

数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效本篇介绍的数据缩放处理，主要目的是消除数据的不同特征之间的量纲差异，使得每个特征的数值范围相同。这样可以避免某些特征对模型的影响过大，从而提高模型的性能。1.原理数据缩放有多种方式，其中有一种按照最小值-最大值缩放的算法是最常用的。其主要步骤如下：计算数据列的最小值（min）和最大值（max）对数据列

使用sk-learn库实现k-means算法对iris数据分类

一、释义首先对Iris数据集（鸢尾花数据集）进行简单介绍：1.它分为三个类别，即Irissetosa（山鸢尾）、Irisversicolor（变色鸢尾）和Irisvirginica（弗吉尼亚鸢尾），每个类别各有50个实例。2.数据集定义了五个属性：sepallength（花萼长）、sepalwidth（花萼宽）、petallength（花瓣长）、petalwidth（花瓣宽）、class（类别）。3.最后一个属性一般作为类别属性，其余属性为数值，单位为厘米。注：鸢尾花数据集在sklearn中有保存，我们可以直接使用库中的数据集二、k-means代码原理 K-means算法是典型的

【scikit-learn基础】--『预处理』之标准化

数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效本篇介绍的标准化处理，可以消除数据之间的差异，使不同特征的数据具有相同的尺度，以便于后续的数据分析和建模。1.原理数据标准化的过程如下：计算数据列的算术平均值（mean）计算数据列的标准差（sd）标准化处理：\(new\_data=(data-mean)/sd\)data是原始数据，new_data是

Keras 的模型（Model）和层（Layers）的介绍

我们来做个TensorFlow的快速入门模型分享。这次的学习目标就是模型构建的一些相关API，其中模型的构建，包括Model和layers，然后我们模型的损失函数、优化器、损失等等，主要包括losses、optimizer、metrics。其中这个optimizer呢，之前我们刚刚接触过，已经讲解过了。接着，我们来看看「模型构建」，我们在Tensorflow当中推荐使用Keras来构建模型，它是一个广为流行的高级神经网络API，而且当我们使用Keras模块来构建模型的时候，它的速度是非常非常快的。它既简单、快速，又不失灵活的特性，让大家喜欢的不得了，现在TensorFlow官方已经过内置和做了

【scikit-learn基础】--『数据加载』之外部数据集

这是scikit-learn数据加载系列的最后一篇，本篇介绍如何加载外部的数据集。外部数据集不像之前介绍的几种类型的数据集那样，针对每种数据提供对应的接口，每个接口加载的数据都是固定的。而外部数据集加载之后，数据的字段和类型是不确定的。简单来说，我们在实际的数据分析工作中，用到的是外部数据集加载，在学习数据分析时，更多用到的是前面介绍的数据加载：玩具数据集：【scikit-learn基础】--『数据加载』之玩具数据集真实数据集：【scikit-learn基础】--『数据加载』之真实数据集样本生成器：【scikit-learn基础】--『数据加载』之样本生成器1.openml.org数据集ope

【scikit-learn基础】--『数据加载』之样本生成器

除了内置的数据集，scikit-learn还提供了随机样本的生成器。通过这些生成器函数，可以生成具有特定特性和分布的随机数据集，以帮助进行机器学习算法的研究、测试和比较。目前，scikit-learn库（v1.3.0版）中有20个不同的生成样本的函数。本篇重点介绍其中几个具有代表性的函数。1.分类聚类数据样本分类和聚类是机器学习中使用频率最高的算法，创建各种相关的样本数据，能够帮助我们更好的试验算法。1.1.make_blobs这个函数通常用于可视化分类器的学习过程，它生成由聚类组成的非线性数据集。importmatplotlib.pyplotaspltfromsklearn.datasets

【scikit-learn基础】--『数据加载』之真实数据集

上一篇介绍了scikit-learn中的几个玩具数据集，本篇介绍scikit-learn提供的一些真实的数据集。玩具数据集：scikit-learn基础(01)--『数据加载』之玩具数据集1.获取数据集与玩具数据集不同，真实的数据集的数据不仅数据特征多，而且数据量也比较大，所以没有直接包含在scikit-learn库中。虽然scikit-learn中提供了在线加载数据的函数，不过由于网络方面的原因，在线加载几乎不可能成功。我离线下载了所有scikit-learn的真实数据，并且转换成了缓存文件，经测试可正常离线使用。已经转换好的离线数据集：olivetti：https://url11.ctfi

【scikit-learn基础】--『数据加载』之玩具数据集

机器学习的第一步是准备数据，好的数据能帮助我们加深对机器学习算法的理解。不管是在学习还是实际工作中，准备数据永远是一个枯燥乏味的步骤。scikit-learn库显然看到了这个痛点，才在它的数据加载子模块中为我们准备了直接可用的数据集。在它的数据加载子模块中，提供了6种直接可用来学习算法的经典数据集，被称为ToyDatasets，也就是本篇准备介绍的玩具数据集。1.鸢尾花数据集著名的鸢尾花数据集，最初由R.A.费舍尔爵士使用。数据集取自费舍尔的论文。1.1.加载方式fromsklearn.datasetsimportload_iris#加载后的数据集ds是一个字典ds=load_iris()ds

Scikit -Learn-没有真正的阳性 - 使数据正常化的最佳方法

感谢您抽出宝贵的时间阅读我的问题！因此，我正在进行一个实验，看看是否可以根据他们在推文中使用的单词（或令牌）来预测某人是否已被诊断出患有抑郁症（或至少已经说过）。我发现139位用户在某个时候发推文说“我被诊断出患有抑郁症”或在认真的背景下（.e。不开玩笑或讽刺。辨别制作的推文是否是真实的）。然后，我收集了所有这些用户推文的推文的整个公共时间表，为我提供了约17000条推文的“沮丧用户推文语料库”。接下来，我创建了一个大约4000个随机“控制”用户的数据库，并及其时间表创建了一个约800,000条推文的“控制推文语料库”。然后，我将它们都合并为一个大数据框架，看起来像这样：,class,twee