草庐IT

python - 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用pythonscikit-learn库在5000多个样本上安装了k-means算法。我想将最接近聚类中心的50个样本作为输出。我如何执行此任务? 最佳答案 如果km是k-means模型,则数组X中每个点到第j个质心的距离是d=km.transform(X)[:,j]这给出了一个len(X)距离数组。最接近质心j的50个索引是ind=np.argsort(d)[::-1][:50]所以离质心最近的50个点是X[ind](或者使用argpartition,如果你有足够新的NumPy,因为这样会快很多)。

python - 在caffe中使用分类时出错

我在python中使用caffe进行分类。我从here获得代码.在这里,我只使用简单的代码,例如plt.rcParams['figure.figsize']=(10,10)plt.rcParams['image.interpolation']='nearest'plt.rcParams['image.cmap']='gray'mean_filename='./mean.binaryproto'proto_data=open(mean_filename,"rb").read()a=caffe.io.caffe_pb2.BlobProto.FromString(proto_data)mea

python - PEP 0008 : What does the BDFL mean by 'in true XP style' ?

我正在阅读PEP0008(thepythonstyleguide),并遇到以下原因不遵循风格指南中的任何规则。它说打破规则是可以的beconsistentwithsurroundingcodethatalsobreaksit(maybeforhistoricreasons)--althoughthisisalsoanopportunitytocleanupsomeoneelse'smess(intrueXPstyle).“真正的XP风格”是什么意思? 最佳答案 评论中提到,这里的XP是指ExtremeProgramming.我认为评

python - numpy 二维数组的 block 均值

我想在NumPy中找到二维数组的block均值。为简单起见,让我们假设数组如下:array([[0,1,2,3,4,5,6,7,8,9,10,11],[12,13,14,15,16,17,18,19,20,21,22,23]])我想把这个数组分成3个大小为2x4的block,然后求所有三个block的平均值(这样平均值的形状就是2x4。第一个block由前4列组成,下一个接下来的4列等等。所以我的block是:array([[0,1,2,3],[12,13,14,15]])array([[4,5,6,7],[16,17,18,19]])array([[8,9,10,11],[20,21

python - 在 Python 中计算图像数据集 channel 明智均值和标准差的最快方法

我有一个内存无法容纳的巨大图像数据集。我想计算均值和标准差,从磁盘加载图像。我目前正在尝试使用在wikipedia上找到的算法.#foranewvaluenewValue,computethenewcount,newmean,thenewM2.#meanaccumulatesthemeanoftheentiredataset#M2aggregatesthesquareddistancefromthemean#countaggregatestheamountofsamplesseensofardefupdate(existingAggregate,newValue):(count,mea

Python- np.mean() 给出错误的方法?

问题所以我有50个netCDF4数据文件,其中包含全局网格上数十年的每月温度预测。我正在使用np.mean()对所有50个数据文件进行整体平均,同时保留时间长度和空间比例,但np.mean()给了我两个不同的答案。我第一次运行它的代码块时,它给了我一个数字,当对纬度和经度进行平均并针对各个运行绘制时,它略低于合奏的平均值。如果我重新运行该block,它会给我一个看起来正确的不同均值。代码我不能在这里复制每一行,因为它很长,但这是我每次运行时所做的。#Historical(1950-2020)datancin_1=Dataset("/project/wca/AR5/CanESM2/mon

python - 具有无穷大的复数的 numpy 平均值

numpy似乎不是复无穷大的好friend虽然我们可以评估:In[2]:importnumpyasnpIn[3]:np.mean([1,2,np.inf])Out[3]:inf下面的结果比较麻烦:In[4]:np.mean([1+0j,2+0j,np.inf+0j])Out[4]:(inf+nan*j)...\_methods.py:80:RuntimeWarning:invalidvalueencounteredincdouble_scalarsret=ret.dtype.type(ret/rcount)我不确定虚部对我有意义。但如果我错了,请发表评论。对在numpy中与复杂的无限交

python - 规范化 2D Numpy 数组 : Zero Mean Unit Variance

我有一个二维Numpy数组,我想在其中将每一列标准化为零均值和单位方差。因为我主要使用C++,所以我正在做的方法是使用循环迭代列中的元素并执行必要的操作,然后对所有列重复此操作。我想知道这样做的Pythonic方式。让class_input_data成为我的二维数组。我可以得到列的意思是:column_mean=numpy.sum(class_input_data,axis=0)/class_input_data.shape[0]然后我通过以下方式从所有列中减去平均值:class_input_data=class_input_data-column_mean到目前为止,数据应该是零均值

python - 使用 Python 的高效滚动修剪均值

用Python计算滚动(又名移动窗口)修剪均值的最有效方法是什么?例如,对于50K行的数据集和50的窗口大小,对于每一行我需要取最后50行,删除顶部和底部的3个值(窗口大小的5%,四舍五入),并得到剩余44个值的平均值。目前,我正在对每一行进行切片以获取窗口,对窗口进行排序,然后切片以修剪它。它的工作速度很慢,但必须有更有效的方法。示例[10,12,8,13,7,18,19,9,15,14]#datausedforexample,inrealitsa50klinesdf对于5的窗口大小。对于每一行,我们查看最后5行,对它们进行排序并丢弃1个顶部和1个底部行(5%的5=0.25,四舍五入

python - Pandas 和 Rolling_Mean with Offset(平均每日交易量计算)

当我将股票数据从Yahoo提取到数据框中时,我希望能够计算5天的平均交易量,不包括当前日期。有没有办法使用带有偏移量的滚动均值?例如,5天表示不包括当前日期并基于前5天。当我运行下面的代码时r=DataReader("BBRY","yahoo",'2015-01-01','2015-01-31')r['ADV']=pd.rolling_mean(r['Volume'],window=5)它返回5天的交易量,包括当前日期,所以当您查看下面的内容时,1/8具有1/2、1/5、1/6、1/7和1/的平均交易量8.我希望1/9是第一个返回平均交易量的日期,它包含来自1/2、1/5、1/6、1/