草庐IT

statistics

全部标签

python - `python` 中的加权高斯核密度估计

更新:scipy.stats.gaussian_kde现在支持加权样本。参见here和here了解详情。目前无法使用scipy.stats.gaussian_kde根据weightedsamples估计随机变量的密度.基于加权样本估计连续随机变量密度的方法有哪些? 最佳答案 都不是sklearn.neighbors.KernelDensity也不statsmodels.nonparametric似乎支持加权样本。我修改了scipy.stats.gaussian_kde以允许异构采样权重,并认为结果可能对其他人有用。示例如下所示。ip

python - Python 中的评分者间协议(protocol)(Cohen 的 Kappa)

我有3位评分者对60个案例的评分。这些是按文档组织的列表-第一个元素是指第一个文档的评级,第二个是第二个文档的评级,依此类推:rater1=[-8,-7,8,6,2,-5,...]rater2=[-3,-5,3,3,2,-2,...]rater3=[-4,-2,1,0,0,-2,...]某处是否有Cohen的Kappa的python实现?我在numpy或scipy中找不到任何东西,在stackoverflow上也找不到任何东西,但也许我错过了?这是一个很常见的统计数据,所以我很惊讶我找不到像Python这样的语言。 最佳答案 Coh

python - 决定折叠这棵树的截止点的算法?

我有一个Newick通过比较4-9bp长DNA序列的假定DNA调节基序的位置权重矩阵(PWM或PSSM)的相似性(欧氏距离)构建的树。树的交互式版本在iTol(here)上,您可以自由使用它-只需在设置参数后按“更新树”:我的具体目标:如果它们到最近的父进化枝的平均距离小于X(ETE2Pythonpackage),则将图案(尖端/终端节点/叶子)折叠在一起。这在生物学上很有趣,因为一些基因调节DNA基序可能彼此同源(旁系同源物或直系同源物)。这种折叠可以通过上面链接的iTolGUI完成,例如如果您选择X=0.001,那么一些图案会折叠成三角形(图案系列)。我的问题:有人可以建议一种算法

python - SciPy 中的拟合优度检验

我是Python的新手,来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据,我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版?我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验 最佳答案 查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python - SciPy 中的拟合优度检验

我是Python的新手,来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据,我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版?我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验 最佳答案 查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python - numpy 将分类字符串数组转换为整数数组

我正在尝试将分类变量的字符串数组转换为分类变量的整数数组。例如importnumpyasnpa=np.array(['a','b','c','a','b','c'])printa.dtype>>>|S1b=np.unique(a)printb>>>['a''b''c']c=a.desired_function(b)printc,c.dtype>>>[1,2,3,1,2,3]int32我知道这可以通过循环来完成,但我想有更简单的方法。谢谢。 最佳答案 np.unique有一些可选的返回return_inverse给出了我经常用到的整数

python - numpy 将分类字符串数组转换为整数数组

我正在尝试将分类变量的字符串数组转换为分类变量的整数数组。例如importnumpyasnpa=np.array(['a','b','c','a','b','c'])printa.dtype>>>|S1b=np.unique(a)printb>>>['a''b''c']c=a.desired_function(b)printc,c.dtype>>>[1,2,3,1,2,3]int32我知道这可以通过循环来完成,但我想有更简单的方法。谢谢。 最佳答案 np.unique有一些可选的返回return_inverse给出了我经常用到的整数

python - 使用 Python 进行异常检测

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我为网络托管服务商工作,我的工作是查找和清理被黑帐户。我找到90%的shell\malware\injections的方法是寻找“不合适的”文件。例如,eval(base64_decode(.......)),其中“.....”是一大堆base64编码的文本通常永远不会好。当我grep通过文件查找关键字符串时,看起来很奇怪的文件突然出现。如果这些文件突然出现在我面前,我相信我可以在python中构建某种分

python - 使用 Python 进行异常检测

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我为网络托管服务商工作,我的工作是查找和清理被黑帐户。我找到90%的shell\malware\injections的方法是寻找“不合适的”文件。例如,eval(base64_decode(.......)),其中“.....”是一大堆base64编码的文本通常永远不会好。当我grep通过文件查找关键字符串时,看起来很奇怪的文件突然出现。如果这些文件突然出现在我面前,我相信我可以在python中构建某种分

python - 在 Python 中绘制回归线、置信区间和预测区间

我是回归游戏的新手,希望为满足特定条件(即平均复制值超过阈值;请参阅下)。数据是为跨20个不同值的独立变量x生成的:x=(20-np.arange(20))**2,其中rep_num=10为每个条件复制。数据在x上显示出很强的非线性,如下所示:importnumpyasnpmu=[.40,.38,.39,.35,.37,.33,.34,.28,.11,.24,.03,.07,.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0]data=np.zeros((20,rep_num))foriinrange(13):data[i]=np.clip(np.random.normal