草庐IT

Bootstrap自助抽样法的原理、应用与python实现

搏努力概形 2023-04-11 原文

概念

Bootstrap自助抽样和交叉验证(Cross-Validation)一样也是一种重抽样(resampling)方法,它可以帮助近似得到统计量估计量的分布。

优点

帮助估计统计量估计量的方差①

假设有(其中T是分布的函数)的估计量(X1, ... ,Xn),一般来说,要评价的准确性(accuracy),需要计算其均方误差(MSE ,Mean Squared Error):

当样本量n较大时,经验分布函数会趋近于实际分布,因此的估计量自然是,因此上式的前半部的可写为:

接下来计算后半部分的方差,根据公式有:

由于上式的和中有项,因此计算此式并不合理,即便样本量小到.

考虑到会在X1, ... ,Xn每个数据点上都乘以1/n,所以从中取任何观测值和直接在原始数据中取值一样。

Notice that  puts mass 1/n at each data point X 1 , ... ,X n . Therefore, rawing an observation from is equivalent to drawing one point at random from the original data set. ②

因此,解决上述问题可以通过从中取m个大小为n的随机样本,并根据每个分别样本求(共m个),使用这m个数据的样本方差作为估计量:

这里的m个样本被称为是bootstrap样本(bootstrap samples)或者重抽样样本(resamples),它们的均值称为bootstrap均值(bootstrap mean),bootstrap标准误(bootstrap standard error)则为(下文记为):

应用与步骤

综上所述,bootstrap常用于:

  • 统计量的标准误差

  • 未知参数的置信区间

  • 假设检验的p值

进行步骤

  1. 有放回的重抽样n个样本;

  1. 根据1的样本计算统计量;

  1. 将1和2重复m次,得到bootstrap样本,再计算其样本方差或者样本标准误.

The distribution of statistics(bootstrap samples) in 3 is called a bootstrap distribution, which gives information about the shape, center, and spread of the sampling distribution of the statistic.

更多应用

假设检验内容见③

既然知道了统计量的标准误,就可以进一步计算bootstrap置信区间 (bootstrap confidence interval),主要有3种(证明见②):

    • 正态置信区间(The Normal Interval)

*该区间仅在接近于正态分布时准确(如样本均值)。

2. 枢轴量置信区间(Pivotal Intervals)

定义枢轴量为 bootstrap枢轴量置信区间为:

其中,为bootstrap样本,为bootstrap样本中的α/2分位数。

3. 百分位数置信区间(Percentile Intervals)

Python实现

population = list(np.random.normal(loc =2.0, scale= 2.0, size = 2000))  # 产生总体数据

result = pd.DataFrame({                                  # 产生bootstrap samples的以及模拟数据的容器
    "sample_time": [10,50,100,500,1000,5000,10000,50000,100000,500000,1000000],
    "sample_mean": [NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN],
    "sample_mean_std": [NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN]
})

sampl = random.sample(population,36)  # 抽取36个初始样本

for _ in range(len(result["sample_mean"])):
    btstp_stat = []
    for i in range(int(result["sample_time"][_])): # 指定抽样次数
        bst_sampl = list(np.random.choice(sampl,size=36, replace=True))  # 重抽样
        btstp_stat.append(np.mean(bst_sampl))   # 产生抽样统计量列表
    result.loc[_,"sample_mean"] = np.mean(btstp_stat)
    result.loc[_,"sample_mean_std"] = np.std(btstp_stat,ddof=1)   # 将结果写入bootstrap结果数据框里
    print(len(btstp_stat))
    btstp_stat.clear()

print(result)  #打印结果

从结果中可以看到,随着bootstrap 抽样次数的增加(从10次到100万次),bootstrap mean 和bootstrap standard error渐趋收敛。

参考文献

① https://www.utstat.toronto.edu/mikevans/jeffrosenthal/book.pdf

② 《all-of-statistics》

③ https://zhuanlan.zhihu.com/p/367069334

有关Bootstrap自助抽样法的原理、应用与python实现的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  3. ruby - 将 Bootstrap Less 添加到 Sinatra - 2

    我有一个ModularSinatra应用程序,我正在尝试将Bootstrap添加到应用程序中。get'/bootstrap/application.css'doless:"bootstrap/bootstrap"end我在views/bootstrap中有所有less文件,包括bootstrap.less。我收到这个错误:Less::ParseErrorat/bootstrap/application.css'reset.less'wasn'tfound.Bootstrap.less的第一行是://CSSReset@import"reset.less";我尝试了所有不同的路径格式,但它

  4. ruby-on-rails - Rails 应用程序之间的通信 - 2

    我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此

  5. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  6. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  7. ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby​​ 变量的内容? - 2

    我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby​​中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R

  8. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  9. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  10. ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2

    是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在

随机推荐