草庐IT

STATISTICS

全部标签

python - 解释 scipy.stats.entropy 值

我正在尝试使用scipy.stats.entropy来估计两个分布之间的Kullback–Leibler(KL)散度。更具体地说,我想使用KL作为衡量标准来确定两个分布的一致性。但是,我无法解释KL值。例如:t1=numpy.random.normal(-2.5,0.1,1000)t2=numpy.random.normal(-2.5,0.1,1000)scipy.stats.entropy(t1,t2)0.0015539217193737955然后,t1=numpy.random.normal(-2.5,0.1,1000)t2=numpy.random.normal(2.5,0.1,

用于抛硬币问题的 Python 代码

我一直在用python编写一个程序,模拟100次抛硬币并给出抛硬币的总数。问题是我还想打印正面和反面的总数。这是我的代码:importrandomtries=0whiletries我一直在绞尽脑汁寻找解决方案,但到目前为止我一无所获。除了抛掷总数之外,还有什么方法可以打印出正面和反面的数量吗? 最佳答案 importrandomsamples=[random.randint(1,2)foriinrange(100)]heads=samples.count(1)tails=samples.count(2)forsinsamples:m

python - 为机器学习准备数据集的正确方法是什么?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion首先,感谢您阅读这篇文章。我是机器学习的菜鸟,我正在尝试使用ML对一些数据进行分类。现在我已经完成了一些关于监督和非监督学习算法的基本阅读,例如决策树、聚类、神经网络等。我很难理解的是为ML问题准备数据集的正确整体过程。如何为机器学习准备数据集,以便衡量算法的准确性?我目前的理解是,为了评估准确性,应该向算法提供预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?如果这是正确的

python - numpy polyfit 中使用的权重值是多少,拟合误差是多少

我正在尝试对numpy中的一些数据进行线性拟合。Ex(其中w是该值的样本数,即点(x=0,y=0)我只有1个测量值,该测量值是2.2,但对于(1,1)点,我有2个测量值为3.5。x=np.array([0,1,2,3])y=np.array([2.2,3.5,4.6,5.2])w=np.array([1,2,2,1])z=np.polyfit(x,y,1,w=w)那么,现在的问题是:在这些情况下,在polyfit中使用w=w是否正确,或者我应该使用w=sqrt(w)我应该使用什么?另外,如何从polyfit中获取拟合误差? 最佳答案

python - 是否有计算对数正态均值和方差的 Python 方法?

我想了解是否有内置的python函数来计算对数正态均值和方差。我只需要此信息,然后将其输入scipy.stats.lognorm以获得覆盖在直方图上的绘图。简单地使用numpy.mean和numpy.std似乎不是正确的想法,因为对数正态均值和方差是特定的并且与numpy完全不同方法。在Matlab中,他们有一个名为lognstat的方便函数,它返回对数正态分布的均值和方差,我似乎无法在Python中找到类似的方法。编写解决方法很容易,但我想知道库中是否存在这种方法。谢谢。 最佳答案 不管它值多少钱,matlab中的所有lognst

python - 哪些关键词最能区分两组人?

我有一个关键字数据库,其中包含不同群体的人在搜索中使用的关键字。像这样的东西:group1person1:x,y,zgroup1person2:x,z,d...group2person1:z,d,l...等等我想看看哪些关键词最能代表给定的群体。我正在尝试做OkCupid在他们的博客中所做的事情:http://blog.okcupid.com/index.php/the-real-stuff-white-people-like/任何人都可以就此任务推荐合适的算法/术语/建议吗?(我将在Python中执行此操作)提前致谢! 最佳答案

python - Python 中的分位数/中位数/2D 装箱

你知道以下问题的快速/优雅的Python/Scipy/Numpy解决方案吗:您有一组x、y坐标和关联值w(所有一维数组)。现在将x和y分箱到二维网格(大小为BINSxBINS)并计算每个分箱的w值的分位数(如中位数),这最终会产生具有所需分位数的BINSxBINS二维数组。使用一些嵌套循环很容易做到这一点,但我确信有更优雅的解决方案。谢谢,标记 最佳答案 这是我想出来的,我希望它有用。它不一定比使用循环更干净或更好,但也许它会让您开始朝着更好的方向发展。importnumpyasnpbins_x,bins_y=1.,1.x=np.a

python /赛通 : Using SciPy with Cython

Cython教程展示了一个很好的示例,说明如何将Numpy与Cython结合使用。但是,我有使用scipy.stats包的代码,在尝试编译代码时,出现如下错误:dvi.pyx:7:8:'scipy.stats.pxd'notfound我担心Cython(?)不支持scipy。有人可以评论在Cython中使用scipy或指出一些资源/教程的方向吗?谢谢! 最佳答案 所以我在CythonGoogleGroup(https://groups.google.com/forum/?fromgroups#!searchin/cython-use

python - 如何用置信区间解释数据点的上限/下限?

给定一个值列表:>>>fromscipyimportstats>>>importnumpyasnp>>>x=list(range(100))使用学生t检验,我可以找到alpha为0.1(即90%置信度)的均值分布的置信区间:defconfidence_interval(alist,v,itv):returnstats.t.interval(itv,df=len(alist)-1,loc=v,scale=stats.sem(alist))x=list(range(100))confidence_interval(x,np.mean(x),0.1)[出去]:(49.134501289005

python - 使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了最佳拟合线的平线,而不是沿着适合数据的e^(-x)模型的漂亮曲线。谁能告诉我如何修复下面的代码以使其适合我的数据?importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.optimizedef_eNegX_(p,x):x0,y0,c,k=py=(c*np.exp(-k*(x-x0)))+y0returnydef_eNegX_residuals(p,x,y):returny-_eNegX_(p,x)defGet_eNegX_Coefficients(x,y):print'xis:',xprint'yis:',y#C