草庐IT

区间估计

全部标签

python - 最大似然估计伪代码

我需要编写一个最大似然估计器来估计一些玩具数据的均值和方差。我有一个包含100个样本的向量,使用numpy.random.randn(100)创建。数据应具有零均值和单位方差高斯分布。我查看了维基百科和一些额外的资源,但我有点困惑,因为我没有统计背景。是否有最大似然估计器的伪代码?我得到了MLE的直觉,但我不知道从哪里开始编码。Wiki说采用对数似然的argmax。我的理解是:我需要通过使用不同的参数来计算对数似然,然后我将采用给出最大概率的参数。我没有得到的是:我首先在哪里可以找到参数?如果我随机尝试不同的均值和方差以获得高概率,我应该什么时候停止尝试?

python - 通过间隙统计和预测强度估计集群数量

我正在尝试翻译差距统计和预测强度的R实现http://edchedch.wordpress.com/2011/03/19/counting-clusters/进入python脚本,用于估计具有3个集群的iris数据中的集群数量。我没有得到3个集群,而是在几乎没有估计的3个(实际集群数量)的不同运行中得到不同的结果。Graph显示估计数字为10而不是3。我错过了什么吗?谁能帮我定位问题?importrandomimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansdefdispersion(da

python - 使用 Python 估计自相关

我想对下面显示的信号执行自相关。两个连续点之间的时间为2.5ms(或重复率为400Hz)。这是我想使用的估计自增相关的方程(取自http://en.wikipedia.org/wiki/Autocorrelation,估计部分):在python中查找我的数据的估计自相关的最简单方法是什么?我可以使用类似于numpy.correlate的东西吗?或者我应该只计算均值和方差?编辑:在unutbu的帮助下,我写过:fromnumpyimport*importnumpyasNimportpylabasPfn='data.txt'x=loadtxt(fn,unpack=True,usecols=

python - 如何快速估计两个(纬度、经度)点之间的距离?

我希望能够估计两个(纬度、经度)点之间的距离。我想低于,因为这将用于A*图形搜索,并且我希望它快速。这些点之间的距离最多为800公里。 最佳答案 HaversineFormulainPython(BearingandDistancebetweentwoGPSpoints)的答案提供可以回答您的问题的Python实现。使用下面的实现,我在一台旧笔记本电脑上在不到1秒的时间内执行了100,000次迭代。我认为就您的目的而言,这应该足够了。但是,您应该在优化性能之前分析任何内容。frommathimportradians,cos,sin,

python - 根据样本数据计算置信区间

我有样本数据,我想为其计算置信区间,假设为正态分布。我已经找到并安装了numpy和scipy软件包,并且已经让numpy返回平均值和标准差(numpy.mean(data),数据为列表)。任何有关获取样本置信区间的建议将不胜感激。 最佳答案 importnumpyasnpimportscipy.statsdefmean_confidence_interval(data,confidence=0.95):a=1.0*np.array(data)n=len(a)m,se=np.mean(a),scipy.stats.sem(a)h=se

参数估计的均方误差(MSE),偏置(Bias)与方差(Variance)分解,无偏估计

写在前面均方误差,偏置和方差都是统计学中非常重要的概念。均方误差MSE对于机器学习来说,MSE一般是计算两个东西的MSE,一个是参数估计的MSE,一个是模型预测的MSE。我主要关注的是参数估计的MSE。定义参数估计的MSE定义为MSE=Eθ[(θ^−θ)2]MSE=E_\theta[(\hat{\theta}-\theta)^2]MSE=Eθ​[(θ^−θ)2],其中θ\thetaθ表示真值,θ^\hat{\theta}θ^表示预测值,EθE_\thetaEθ​并不是表示在θ\thetaθ的分布上求期望,而是关于似然函数的期望,即Eθ[(θ^−θ)2]=∫x(θ^−θ)2f(x;θ)dxE_\

c++ - 我如何估计 std::map 的内存使用情况?

例如,我有一个已知sizeof(A)和sizeof(B)的std::map,而map里面有N个条目。你如何估计它的内存使用量?我会说是这样的(sizeof(A)+sizeof(B))*N*factor但因素是什么?可能有不同的公式?也许要求上限更容易? 最佳答案 估计会更接近(sizeof(A)+sizeof(B)+ELEMENT_OVERHEAD)*N+CONTAINER_OVERHEAD您添加的每个元素都有一个开销,并且还有一个固定的开销用于维护用于存储map的数据结构的数据结构。这通常是二叉树,例如Red-BlackTree.

c++ - 如何估计线程上下文切换开销?

我正在尝试通过实时截止日期来提高线程应用程序的性能。它在WindowsMobile上运行并用C/C++编写。我怀疑高频率的线程切换可能会导致有形的开销,但无法证明或反驳它。众所周知,缺乏证据并不是相反的证据:)。因此我的问题是双重的:如果存在,我在哪里可以找到切换线程上下文成本的任何实际测量值?在不花时间编写测试应用程序的情况下,有哪些方法可以估算现有应用程序中的线程切换开销?有谁知道找出给定线程的上下文切换次数(开/关)的方法吗? 最佳答案 我怀疑您是否可以在任何现有平台的网络上找到此开销。存在太多不同的平台。开销取决于两个因素:

formatting - Gnuplot 平滑置信区间线而不是误差线

我希望在我的数据线上方和下方有一条95%的置信区间线-而不是每个点的垂直条。有没有一种方法可以在gnuplot中做到这一点而无需绘制另一条线?还是我需要绘制另一条线,然后适本地标记它? 最佳答案 您可以使用filledcurves样式来填充95%置信度的区域。考虑示例数据文件data.dat的内容:#xyylowyhigh132.63.52546343.24.343.53.33.7并用脚本绘制它setstylefilltransparentsolid0.2noborderplot'data.dat'using1:3:4withfil

非参数统计:两样本和多样本的Brown-Mood中位数检验;Wilcoxon(Mann-Whitney)秩和检验及有关置信区间;Kruskal-Wallis秩和检验

目录两样本和多样本的Brown-Mood中位数检验例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):Wilcoxon(Mann-Whitney)秩和检验及有关置信区间例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):Kruskal-Wallis秩和检验例4.1在一项健康实验中,三人组有三种生活方式,他们的减肥效果如下表:两样本和多样本的Brown-Mood中位数检验定义:零假设:H0:Mx=My,备择假设:H1:Mx如果H0成立,两样本混合中位数Mxy可以均匀的分开X和Y两个样本,检验关注A的数值,A的意义是样本X混合中位数右侧的个数,如果A很大,则表示