statistics_草庐IT

python - `python` 中的加权高斯核密度估计

更新:scipy.stats.gaussian_kde现在支持加权样本。参见here和here了解详情。目前无法使用scipy.stats.gaussian_kde根据weightedsamples估计随机变量的密度.基于加权样本估计连续随机变量密度的方法有哪些？最佳答案都不是sklearn.neighbors.KernelDensity也不statsmodels.nonparametric似乎支持加权样本。我修改了scipy.stats.gaussian_kde以允许异构采样权重，并认为结果可能对其他人有用。示例如下所示。ip

python 中的 code noreferrer noopener statistics scipy kernel-density

python - Python 中的评分者间协议(protocol)(Cohen 的 Kappa)

我有3位评分者对60个案例的评分。这些是按文档组织的列表-第一个元素是指第一个文档的评级，第二个是第二个文档的评级，依此类推:rater1=[-8,-7,8,6,2,-5,...]rater2=[-3,-5,3,3,2,-2,...]rater3=[-4,-2,1,0,0,-2,...]某处是否有Cohen的Kappa的python实现？我在numpy或scipy中找不到任何东西，在stackoverflow上也找不到任何东西，但也许我错过了？这是一个很常见的统计数据，所以我很惊讶我找不到像Python这样的语言。最佳答案 Coh

protocol python section kappa cohen_kappa_score statistics rating

python - 决定折叠这棵树的截止点的算法？

我有一个Newick通过比较4-9bp长DNA序列的假定DNA调节基序的位置权重矩阵(PWM或PSSM)的相似性(欧氏距离)构建的树。树的交互式版本在iTol(here)上，您可以自由使用它-只需在设置参数后按“更新树”:我的具体目标:如果它们到最近的父进化枝的平均距离小于X(ETE2Pythonpackage)，则将图案(尖端/终端节点/叶子)折叠在一起。这在生物学上很有趣，因为一些基因调节DNA基序可能彼此同源(旁系同源物或直系同源物)。这种折叠可以通过上面链接的iTolGUI完成，例如如果您选择X=0.001，那么一些图案会折叠成三角形(图案系列)。我的问题:有人可以建议一种算法

python 的 strong section statistics cluster-analysis bioinformatics

python - SciPy 中的拟合优度检验

我是Python的新手，来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据，我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版？我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验最佳答案查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python SciPy section code statistics

python - SciPy 中的拟合优度检验

我是Python的新手，来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据，我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版？我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验最佳答案查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python SciPy section code statistics

python - numpy 将分类字符串数组转换为整数数组

我正在尝试将分类变量的字符串数组转换为分类变量的整数数组。例如importnumpyasnpa=np.array(['a','b','c','a','b','c'])printa.dtype>>>|S1b=np.unique(a)printb>>>['a''b''c']c=a.desired_function(b)printc,c.dtype>>>[1,2,3,1,2,3]int32我知道这可以通过循环来完成，但我想有更简单的方法。谢谢。最佳答案 np.unique有一些可选的返回return_inverse给出了我经常用到的整数

python numpy 39 gt section statistics machine-learning

python - numpy 将分类字符串数组转换为整数数组

我正在尝试将分类变量的字符串数组转换为分类变量的整数数组。例如importnumpyasnpa=np.array(['a','b','c','a','b','c'])printa.dtype>>>|S1b=np.unique(a)printb>>>['a''b''c']c=a.desired_function(b)printc,c.dtype>>>[1,2,3,1,2,3]int32我知道这可以通过循环来完成，但我想有更简单的方法。谢谢。最佳答案 np.unique有一些可选的返回return_inverse给出了我经常用到的整数

python numpy 39 gt section statistics machine-learning

python - 使用 Python 进行异常检测

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我为网络托管服务商工作，我的工作是查找和清理被黑帐户。我找到90%的shell\malware\injections的方法是寻找“不合适的”文件。例如，eval(base64_decode(.......))，其中“.....”是一大堆base64编码的文本通常永远不会好。当我grep通过文件查找关键字符串时，看起来很奇怪的文件突然出现。如果这些文件突然出现在我面前，我相信我可以在python中构建某种分

python section code class machine-learning statistics intrusion-detection

python - 使用 Python 进行异常检测

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我为网络托管服务商工作，我的工作是查找和清理被黑帐户。我找到90%的shell\malware\injections的方法是寻找“不合适的”文件。例如，eval(base64_decode(.......))，其中“.....”是一大堆base64编码的文本通常永远不会好。当我grep通过文件查找关键字符串时，看起来很奇怪的文件突然出现。如果这些文件突然出现在我面前，我相信我可以在python中构建某种分

python section code class machine-learning statistics intrusion-detection

python - 在 Python 中绘制回归线、置信区间和预测区间

我是回归游戏的新手，希望为满足特定条件(即平均复制值超过阈值；请参阅下)。数据是为跨20个不同值的独立变量x生成的:x=(20-np.arange(20))**2，其中rep_num=10为每个条件复制。数据在x上显示出很强的非线性，如下所示:importnumpyasnpmu=[.40,.38,.39,.35,.37,.33,.34,.28,.11,.24,.03,.07,.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0]data=np.zeros((20,rep_num))foriinrange(13):data[i]=np.clip(np.random.normal

置信 python code 39 section matplotlib statistics regression seaborn