小样本

python - 在 StatsModels 中返回样本外预测的标准和置信区间

我想从OLS模型中找出样本外预测的标准差和置信区间。这个问题类似于Confidenceintervalsformodelprediction，但明确关注使用样本外数据。这个想法是针对wls_prediction_std(lm,data_to_use_for_prediction=out_of_sample_df)行的函数，返回样本外的prstd,iv_l,iv_u数据框。例如:importpandasaspdimportrandomimportstatsmodels.formula.apiassmffromstatsmodels.sandbox.regression.predstdim

置信 StatsModels exog out_of_sample_df prediction python linear-regression standard-deviation confidence-interval

python - Tensorflow:小批量中每个样本的不同过滤器的卷积

我想要一个带有过滤器的二维卷积，该过滤器取决于tensorflow中小批量中的样本。任何想法如何做到这一点，特别是如果每个小批量的样本数量未知？具体来说，我有MBxHxWxChannels形式的输入数据inp，我有F形式的过滤器MBxfhxfwxChannelsxOutChannels。假设inp=tf.placeholder('float',[None,H,W,channels_img],name='img_input')。我想做tf.nn.conv2d(inp,F,strides=[1,1,1,1])，但这是不允许的，因为F不能有小批量维度。知道如何解决这个问题吗？

Tensorflow python code channels out conv-neural-network mini-batch

python - 随机森林回归中的样本大小

如果理解正确，在计算随机森林估计量时通常会应用自举，这意味着树(i)仅使用来自样本(i)的数据构建，并通过替换选择。我想知道sklearnRandomForestRegressor的样本大小是多少用途。我唯一看到的是接近:bootstrap:boolean,optional(default=True)Whetherbootstrapsamplesareusedwhenbuildingtrees.但是没有办法指定样本量的大小或比例，也没有告诉我默认样本量。我觉得至少应该有办法知道默认样本大小是多少，我错过了什么？最佳答案呃，我同意

python 随机 code BaggingRegressor section machine-learning scikit-learn random-forest

python - 制作自定义概率分布以从 SciPy 中抽取随机样本

这个问题在这里已经有了答案:Fastarbitrarydistributionrandomsampling(inversetransformsampling)(5个答案)关闭4年前。我希望使用蒙特卡洛类型模拟来总结任意数量的事物概率分布。我想随机抽取某些东西的连续分布并将它们添加到其他连续分布的其他随机样本中，最终得到它们组合的概率分布。分布本身是经验性的——它们不是函数，而是P99=2.4、P90=7.12、P50=24.53、P10=82.14等形式(实际上有很多这样的点)。这些分布或多或少呈对数正态分布，因此如果有必要，将它们近似为对数正态分布可能会很好。但是我怎么能把它输入到S

自定 python section notice 亚历克斯 statistics scipy montecarlo

python - python中的加权随机样本

我正在寻找一个函数weighted_sample的合理定义，它不只为给定权重列表返回一个随机索引(类似于defweighted_choice(weights,random=random):"""Givenalistofweights[w_0,w_1,...,w_n-1],returnanindexiinrange(n)withprobabilityproportionaltow_i."""rnd=random.random()*sum(weights)fori,winenumerate(weights):ifw给出一个具有常量权重的分类分布)但是一个k的随机样本，没有替换，就像rand

python 中的 code weights sample algorithm random

python - 从随机样本(python)构建一个近似均匀的网格

我想根据采样数据构建一个网格。我可以使用机器学习-聚类算法，例如k-means，但我想将中心限制为大致均匀分布。我想出了一种使用scikit-learn最近邻搜索的方法:随机选择一个点，删除半径r内的所有点，然后重复。这很好用，但想知道是否有人有更好(更快)的方法来做到这一点。作为对评论的回应，我尝试了两种替代方法，一种慢得多，另一种大致相同......方法0(我的第一次尝试):defget_centers0(X,r):N=X.shape[0]D=X.shape[1]grid=np.zeros([0,D])nearest=near.NearestNeighbors(radius=r,a

python 近似 code nearest time machine-learning cluster-analysis scikit-learn

python - sklearn LinearSVC - X 每个样本有 1 个特征；期待 5

我正在尝试预测测试数组的类，但出现以下错误以及堆栈跟踪:Traceback(mostrecentcalllast):File"/home/radu/PycharmProjects/Recommender/Temporary/classify_dict_test.py",line24,inprintclassifier.predict(test)File"/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py",line215,inpredictscores=self.decision_func

LinearSVC 期待 34 section sklearn python machine-learning scikit-learn

python - 两种不同输入样本大小的 Keras 多任务学习

我正在使用Keras中的代码实现多任务回归模型API在共享层部分下。有两个数据集，我们称它们为data_1和data_2如下。data_1:shape(1434,185,37)data_2:shape(283,185,37)data_1由1434个样本组成，每个样本的长度为185个字符，37表示唯一字符的总数为37或换句话说vocab_size。比较data_2由283个字符组成。我将data_1和data_2转换为二维numpy数组，然后将其提供给嵌入层。data_1=np.argmax(data_1,axis=2)data_2=np.argmax(data_2,axis=2)这使得

python Keras layers input tensorflow machine-learning nlp

python - scikit-learn 中的样本权重在交叉验证中被破坏

在训练随机森林分类器时，我一直在尝试在scikit-learn中使用加权样本。当我将样本权重直接传递给分类器时效果很好，例如RandomForestClassifier().fit(X,y,sample_weight=weights)，但是当我尝试使用网格搜索为分类器寻找更好的超参数时，我遇到了麻烦:在使用grid参数时传递权重，用法是:grid_search=GridSearchCV(RandomForestClassifier(),params,n_jobs=-1,fit_params={"sample_weight"=weights})问题是交叉验证器不知道样本权重，因此不会将它

重在 scikit-learn code section sample_weight python machine-learning

Python Pandas 从 Groupby 中选择组的随机样本

获取groupby元素的随机样本的最佳方法是什么？据我了解，groupby只是一个可迭代的组。如果我想选择N=200元素，我会为可迭代对象执行此操作的标准方法是:rand=random.sample(data,N)如果你尝试上面的数据是“分组”的，结果列表的元素出于某种原因是元组。我找到了以下随机选择单个键groupby元素的示例，但这不适用于多键groupby。来自，Howtoaccesspandasgroupbydataframebykeycreategroupbyobjectgrouped=df.groupby('some_key')pickNdataframesandgrabt

中选 Groupby code some_key some python pandas random group-by

21 22 232425 26 27