草庐IT

小样本

全部标签

两个数组的 Python 随机样本,但匹配索引

我有两个长度为10,000的numpy数组x和y。我想绘制x和y的1,000个条目的随机子集。有没有一种简单的方法可以在x和y上使用可爱、紧凑的random.sample(population,k)来选择相同的相应索引?(y和x向量通过函数y(x)链接。)谢谢。 最佳答案 您可以使用np.random.choice在索引数组上并将其应用于两个数组:idx=np.random.choice(np.arange(len(x)),1000,replace=False)x_sample=x[idx]y_sample=y[idx]

python - 如何在python中进行类别的加权随机样本

给定一个元组列表,其中每个元组包含一个概率和一个项目,我想根据其概率对一个项目进行抽样。例如,给出列表[(.3,'a'),(.4,'b'),(.3,'c')]我想在40%的时间对'b'进行采样。在python中执行此操作的规范方法是什么?我查看了random模块,它似乎没有适当的功能,并且在numpy.random中,虽然它具有多项函数,但似乎并没有以很好的形式返回这个问题的结果。我基本上是在matlab中寻找类似mnrnd的东西。非常感谢。感谢您这么快给出所有答案。澄清一下,我不是在寻找如何编写采样方案的解释,而是指出一种简单的方法来从给定一组对象和权重的多项分布中采样,或者被告知不

python - 如何使用 numpy/scipy 执行两个样本的单尾 t 检验

在R中,可以简单地使用两样本单尾t检验>A=c(0.19826790,1.36836629,1.37950911,1.46951540,1.48197798,0.07532846)>B=c(0.6383447,0.5271385,1.7721380,1.7817880)>t.test(A,B,alternative="greater")WelchTwoSamplet-testdata:AandBt=-0.4189,df=6.409,p-value=0.6555alternativehypothesis:truedifferenceinmeansisgreaterthan095perce

带有生成器/可迭代/迭代器的 Python 随机样本

你知道是否有办法让python的random.sample与生成器对象一起工作。我正在尝试从一个非常大的文本语料库中获取随机样本。问题是random.sample()引发以下错误。TypeError:objectoftype'generator'hasnolen()我在想也许有一些方法可以使用itertools中的某些东西来做到这一点,但通过一些搜索找不到任何东西。一个虚构的例子:importrandomdeflist_item(ls):foriteminls:yielditemrandom.sample(list_item(range(100)),20)更新根据MartinPiete

python - scikit learn中的预处理-单个样本-折旧警告

在Ubuntu下全新安装Anaconda...在使用Scikit-Learn进行分类任务之前,我正在以各种方式预处理我的数据。fromsklearnimportpreprocessingscaler=preprocessing.MinMaxScaler().fit(train)train=scaler.transform(train)test=scaler.transform(test)这一切都很好,但如果我有一个新样本(低于温度)我想分类(因此我想以同样的方式进行预处理,那么我得到temp=[1,2,3,4,5,5,6,....................,7]temp=scal

python - UndefinedMetricWarning : F-score is ill-defined and being set to 0. 0 在没有预测样本的标签中

我收到了这个奇怪的错误:classification.py:1113:UndefinedMetricWarning:F-scoreisill-definedandbeingsetto0.0inlabelswithnopredictedsamples.'precision','predicted',average,warn_for)`但它也会在我第一次运行时打印f分数:metrics.f1_score(y_test,y_pred,average='weighted')我第二次运行时,它提供的分数没有错误。这是为什么呢?>>>y_pred=test.predict(X_test)>>>y_

python - Python Scipy 中的两个样本 Kolmogorov-Smirnov 测试

我不知道如何在Scipy中进行双样本KS测试。阅读文档后scipykstest我可以看到如何测试分布与标准正态分布相同的位置fromscipy.statsimportkstestimportnumpyasnpx=np.random.normal(0,1,1000)test_stat=kstest(x,'norm')#>>>test_stat#(0.021080234718821145,0.76584491300591395)这意味着在p值为0.76时,我们不能拒绝两个分布相同的原假设。但是,我想比较两个分布,看看是否可以拒绝它们相同的原假设,例如:fromscipy.statsimpo

python - 根据样本数据计算置信区间

我有样本数据,我想为其计算置信区间,假设为正态分布。我已经找到并安装了numpy和scipy软件包,并且已经让numpy返回平均值和标准差(numpy.mean(data),数据为列表)。任何有关获取样本置信区间的建议将不胜感激。 最佳答案 importnumpyasnpimportscipy.statsdefmean_confidence_interval(data,confidence=0.95):a=1.0*np.array(data)n=len(a)m,se=np.mean(a),scipy.stats.sem(a)h=se

java - 样本有向图和拓扑排序代码

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭7年前。Improvethisquestion谁知道我在哪里可以获得有向图的示例实现和用于在有向图上执行拓扑排序的示例代码?(最好是Java) 最佳答案 这里是WikipediapageonTopologicalSort中第一个算法的简单实现。:importjava.util.ArrayList;importjava.util.Arrays;imp

mysql - 来自 Sql 数据库的简单随机样本

如何在SQL中获取有效的简单随机样本?有问题的数据库正在运行MySQL;我的表至少有200,000行,我想要一个大约10,000的简单随机样本。“显而易见”的答案是:SELECT*FROMtableORDERBYRAND()LIMIT10000对于大型表,这太慢了:它为每一行调用RAND()(已经将它放在O(n)处),并对它们进行排序,使其成为O(nlgn)最好。有没有比O(n)更快的方法?注意:正如AndrewMao在评论中指出的那样,如果你在SQLServer上使用这种方法,你应该使用T-SQL函数NEWID(),因为RAND()mayreturnthesamevalueforal