草庐IT

statistics

全部标签

java - 检测集合中不同元素的高效算法

假设您有一组五个元素(A-E),其中包含一些测量属性的数值(每个元素的多个观察值,例如“心率”):A={100,110,120,130}B={110,100,110,120,90}C={90,110,120,100}D={120,100,120,110,110,120}E={110,120,120,110,120}首先,我必须检测平均水平是否存在显着差异。所以我以一种方式运行ANOVA使用StatisticalpackageprovidedbyApacheCommonsMath.到目前为止没有问题,我获得了一个boolean值,告诉我是否发现差异。其次,如果发现差异,我需要知道与其余部

java - 有没有javascript的统计库?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我需要在javascript上实现一些统计测试,例如:T-test、Anova和Wilcoxon。类似Java的-ApacheCommonsMathLibrary,有没有javascript的统计测试库或代码?

python - 将每个值放在 Pandas 的百分位数中

考虑一个具有以下百分位数的系列:>df['col_1'].describe(percentiles=np.linspace(0,1,20))count13859.000000mean421.772842std14665.298998min1.2017550%1.2017555.3%1.43069510.5%1.43841715.8%1.46646221.1%1.47305026.3%1.50083431.6%1.51221836.8%1.54293542.1%1.57984547.4%1.64716250%1.69061252.6%1.74904757.9%1.95558963.2%2

python - 使用 matplotlib 在箱线图中显示传单颜色

根据documentation,Axes.boxplot函数采用字典flierprop作为参数来定义异常值的属性。不幸的是,我找不到关于这本词典的文档。特别是,我想定义标记边框的颜色。默认情况下,绘制空圆。可以设置面部颜色,asshownintheexample.尽管如此,圆形边框始终是一条黑线。我尝试使用color和markercolor键(前者无效,后者产生错误)。如何设置标记线的颜色? 最佳答案 要设置标记颜色,请使用属性markerfacecolor但对于边框颜色-markeredgecolor:importmatplotl

python - 解释 scipy.stats.entropy 值

我正在尝试使用scipy.stats.entropy来估计两个分布之间的Kullback–Leibler(KL)散度。更具体地说,我想使用KL作为衡量标准来确定两个分布的一致性。但是,我无法解释KL值。例如:t1=numpy.random.normal(-2.5,0.1,1000)t2=numpy.random.normal(-2.5,0.1,1000)scipy.stats.entropy(t1,t2)0.0015539217193737955然后,t1=numpy.random.normal(-2.5,0.1,1000)t2=numpy.random.normal(2.5,0.1,

用于抛硬币问题的 Python 代码

我一直在用python编写一个程序,模拟100次抛硬币并给出抛硬币的总数。问题是我还想打印正面和反面的总数。这是我的代码:importrandomtries=0whiletries我一直在绞尽脑汁寻找解决方案,但到目前为止我一无所获。除了抛掷总数之外,还有什么方法可以打印出正面和反面的数量吗? 最佳答案 importrandomsamples=[random.randint(1,2)foriinrange(100)]heads=samples.count(1)tails=samples.count(2)forsinsamples:m

python - 为机器学习准备数据集的正确方法是什么?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion首先,感谢您阅读这篇文章。我是机器学习的菜鸟,我正在尝试使用ML对一些数据进行分类。现在我已经完成了一些关于监督和非监督学习算法的基本阅读,例如决策树、聚类、神经网络等。我很难理解的是为ML问题准备数据集的正确整体过程。如何为机器学习准备数据集,以便衡量算法的准确性?我目前的理解是,为了评估准确性,应该向算法提供预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?如果这是正确的

python - numpy polyfit 中使用的权重值是多少,拟合误差是多少

我正在尝试对numpy中的一些数据进行线性拟合。Ex(其中w是该值的样本数,即点(x=0,y=0)我只有1个测量值,该测量值是2.2,但对于(1,1)点,我有2个测量值为3.5。x=np.array([0,1,2,3])y=np.array([2.2,3.5,4.6,5.2])w=np.array([1,2,2,1])z=np.polyfit(x,y,1,w=w)那么,现在的问题是:在这些情况下,在polyfit中使用w=w是否正确,或者我应该使用w=sqrt(w)我应该使用什么?另外,如何从polyfit中获取拟合误差? 最佳答案

python - 是否有计算对数正态均值和方差的 Python 方法?

我想了解是否有内置的python函数来计算对数正态均值和方差。我只需要此信息,然后将其输入scipy.stats.lognorm以获得覆盖在直方图上的绘图。简单地使用numpy.mean和numpy.std似乎不是正确的想法,因为对数正态均值和方差是特定的并且与numpy完全不同方法。在Matlab中,他们有一个名为lognstat的方便函数,它返回对数正态分布的均值和方差,我似乎无法在Python中找到类似的方法。编写解决方法很容易,但我想知道库中是否存在这种方法。谢谢。 最佳答案 不管它值多少钱,matlab中的所有lognst

python - 哪些关键词最能区分两组人?

我有一个关键字数据库,其中包含不同群体的人在搜索中使用的关键字。像这样的东西:group1person1:x,y,zgroup1person2:x,z,d...group2person1:z,d,l...等等我想看看哪些关键词最能代表给定的群体。我正在尝试做OkCupid在他们的博客中所做的事情:http://blog.okcupid.com/index.php/the-real-stuff-white-people-like/任何人都可以就此任务推荐合适的算法/术语/建议吗?(我将在Python中执行此操作)提前致谢! 最佳答案