草庐IT

小样本

全部标签

python - 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用pythonscikit-learn库在5000多个样本上安装了k-means算法。我想将最接近聚类中心的50个样本作为输出。我如何执行此任务? 最佳答案 如果km是k-means模型,则数组X中每个点到第j个质心的距离是d=km.transform(X)[:,j]这给出了一个len(X)距离数组。最接近质心j的50个索引是ind=np.argsort(d)[::-1][:50]所以离质心最近的50个点是X[ind](或者使用argpartition,如果你有足够新的NumPy,因为这样会快很多)。

利用AI+大数据的方式分析恶意样本(四十六)

FromGrimRealitytoPracticalSolution:MalwareClassificationinReal-WorldNoise西北大学,XinyuXing恶意软件数据集由于样本标记所需的专业知识和经验的短缺,不可避免地包含了错误的标签。先前的研究表明,训练集中存在错误标记的样本将导致模型学习的不准确。为解决这个问题,研究人员提出了各种噪声学习方法来抵消错误标记样本的影响,在图像识别和文本挖掘等应用中,这些方法表现出了很好的效果。在这项工作中,我们将代表性和最先进的噪声学习方法应用于现实世界的恶意软件分类任务。令人惊讶的是,我们观察到现有方法都不能最小化错误标签的影响。通过精

python - 有没有办法在决策树的每个叶子下获取样本?

我使用数据集训练了决策树。现在我想看看哪些样本落在树的哪片叶子下。从这里我想要红色圆圈的样本。我正在使用Python的Sklearn决策树实现。 最佳答案 如果你只想要每个样本的叶子,你可以使用clf.apply(iris.data)array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,14,5,

python - 找到包含 0 个样本 (shape=(0, 40)) 的数组,而至少需要 1 个

我正在使用Python2.7、sklearn0.17.1、numpy1.11.0测试一个简单的预测程序。我从LDA模型中获得了概率矩阵,现在我想创建RandomForestClassifier以通过概率预测结果。我的代码是:maxlen=40props=[]fordocincorpus:topics=model.get_document_topics(doc)tprops=[0]*maxlenfortopicintopics:tprops[topics[0]]=topics[1]props.append(tprops)ntheta=np.array(props)ny=np.array(

python - 解决方案适用于样本数据,但在线判断给出错误?

这是我要解决的问题:B:TheFoxen'sTreasureThereareN(1≤N≤4)Foxenguardingacertainvaluabletreasure,whichyou'dlovetogetyourhandson.Theproblemis,theFoxencertainlyaren'tabouttoallowthat-atleast,notwhilethey'reawake.Fortunately,throughcarefulobservation,you'veseenthateachFoxhasaregularsleepcycle.Inparticular,theit

python - 为什么随机抽样与数据集而不是样本量成比例? ( Pandas .sample() 示例)

当我从不同大小的分布中随机抽样时,我惊讶地发现执行时间似乎主要与被抽样的数据集的大小成比例,而不是被抽样的值的数量。示例:importpandasaspdimportnumpyasnpimporttimeastm#generateasmallandalargedatasettestSeriesSmall=pd.Series(np.random.randn(10000))testSeriesLarge=pd.Series(np.random.randn(10000000))sampleSize=10tStart=tm.time()currSample=testSeriesLarge.sa

python - scikit 学习中的样本权重和类权重选项有什么区别?

我有类(class)不平衡问题,想使用成本敏感学习来解决这个问题。欠采样和过采样赋予类权重以使用修改后的损失函数问题Scikitlearn有2个选项,称为类权重和样本权重。样本权重实际上是在执行选项2)和类别权重选项1)。选项2)是处理类不平衡的推荐方法。 最佳答案 这是相似的概念,但使用sample_weights可以强制估计器更加关注某些样本,使用class_weights可以强制估计器关注某些特定类进行学习。sample_weight=0或class_weight=0基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因

python - 如何在给定 Python 分布样本列表的情况下计算值的概率?

不确定这是否属于统计学,但我正在尝试使用Python来实现这一点。我基本上只有一个整数列表:data=[300,244,543,1011,300,125,300...]我想知道给定这些数据值出现的概率。我使用matplotlib绘制了数据的直方图并获得了这些:在第一张图中,数字表示序列中字符的数量。在第二张图中,它是以毫秒为单位的测量时间量。最小值大于零,但不一定有最大值。这些图表是使用数百万个示例创建的,但我不确定我是否可以对分布做出任何其他假设。鉴于我有几百万个值示例,我想知道新值的概率。在第一张图中,我有几百万个不同长度的序列。例如,想知道200长度的概率。我知道对于连续分布,任

python - 使用 SciPy 在矩形网格上集成 2D 样本

SciPy有三种对样本进行一维积分的方法(trapz、simps和romb)和一种对函数进行二维积分的方法(dblquad),但它似乎没有进行二维积分的方法超过样本——甚至是矩形网格上的样本。我看到的最接近的是scipy.interpolate.RectBivariateSpline.integral——您可以从矩形网格上的数据创建一个RectBivariateSpline,然后对其进行积分。但是,这并不是很快。我想要比矩形方法更准确的方法(即只是总结所有内容)。比方说,我可以使用2DSimpson规则,方法是创建一个具有正确权重的数组,将其乘以我想要积分的数组,然后对结果求和。但是,

python - 使用 SciPy 在矩形网格上集成 2D 样本

SciPy有三种对样本进行一维积分的方法(trapz、simps和romb)和一种对函数进行二维积分的方法(dblquad),但它似乎没有进行二维积分的方法超过样本——甚至是矩形网格上的样本。我看到的最接近的是scipy.interpolate.RectBivariateSpline.integral——您可以从矩形网格上的数据创建一个RectBivariateSpline,然后对其进行积分。但是,这并不是很快。我想要比矩形方法更准确的方法(即只是总结所有内容)。比方说,我可以使用2DSimpson规则,方法是创建一个具有正确权重的数组,将其乘以我想要积分的数组,然后对结果求和。但是,