草庐IT

高斯分布

全部标签

java - 从数据集中随机抽样,同时保留原始概率分布

我有一组>2000个数字,从测量中收集。我想从这个数据集中抽样,每次测试约10次,同时保留总体概率分布,并在每次测试中(在大约可能的范围内)。例如,在每个测试中,我想要一些小值,一些中等值,一些大值,均值和方差近似接近原始分布。结合所有的测试,我还想要所有样本的总均值和方差,近似接近原始分布。因为我的数据集是long-tailprobabilitydistribution,每个分位数的数据量是不一样的:图1.~2k数据元素的密度图。我正在使用Java,现在我正在使用uniformdistribution,并使用数据集中的随机整数,并返回该位置的数据元素:publicintgetRand

java - 用Java实现概率分布函数

我正在尝试在java中实现一个概率分布函数,它返回ith以概率进入数组:Fi=6i(n-i)/(n3-n)哪里n是数组长度,即对于长度为4的数组:P1=3/10,P2=4/10,P3=3/10,P4=0请注意,此函数假定编号从1到n而不是0到n-1就像在Java中一样。目前我只是使用均匀分布即inti=(int)(Math.random()*((arraySize)-1));使用-1,因此它不会选择最后一个元素(即Pn=0,如上式所示)。有人对实现这个有任何想法或提示吗? 最佳答案 doublerand=Math.random();

java - 数据库分布

有选择地分发数据的可能性有哪些?我用一个例子来解释我的问题。考虑一个保存所有数据的中央数据库。该数据库位于某个地理位置。应用程序A需要中央数据库中存在的信息的子集。此外,应用程序A可能位于与中央数据库所在的地理位置不同(并且可能很远)的地理位置。因此,我考虑在应用程序A的相同位置创建一个新数据库,该数据库将包含中央数据库的一部分信息。哪种技术/产品允许我部署这样的配置?谢谢 最佳答案 寻找databasereplication.SQLServer肯定可以做到这一点,其他人(Oracle,MySQL,...)也应该有。想法是另一个位置

java - 我应该在远程工作站的哪个位置放置 CSV 配置文件以进行分布式 JMeter 测试?

我想做JMeter分布式测试。手册中说,首先我应该在远程节点上启动jmeter-server,然后我应该更新jmeter.config并运行jmeter在主节点上。我做了所有这些步骤。我的测试计划包括使用CSV配置文件。如果我只从1个(主)节点进行测试-那么一切都很好。但是当我尝试分布式测试时,所有测试都失败了。一些调查表明,远程节点发送请求时没有替换${..}-like参数。请求看起来像POSTdata:5|0|6|http://host.com/portal/|67D1C612DCF291DCD0F71AD15E404F37|host.ui.client.services.Logi

java - java中的哈希码桶分布

假设我需要在Hashset中存储1000个对象,我有1000个包含每个对象的桶(通过为每个对象生成唯一的哈希码值)还是有10个大约包含100个对象的桶更好?拥有独特桶的优势之一是我可以节省调用equals()方法的执行周期?为什么设置一定数量的桶并在其中尽可能均匀地分配对象很重要?理想的对象与桶的比例应该是多少? 最佳答案 Whyisitimportanttohavesetnumberofbucketsanddistributetheobjectsamoungthemasevenlyaspossible?HashSet应该能够平均在

java - Java 中的离散概率分布

我有一组整数,每个整数都有一个分配的概率,从早期的实验中得出,例如:0=0.51=0.22=0.3根据概率分布的规范,这些权重总和为1.0。我现在正在寻找一种有效的方法来对其中一个值进行采样,同时考虑给定的概率,例如(伪代码):Distributiondistribution=newDiscreteDistribution(newdouble[]{0.5,0.3,0.2});distribution.sample();根据给定的数字,这应该导致一半时间为0。但是,不要假设其中有任何模式或规律。我一直在使用ApacheCommonsMath对于我以前的实验,但它似乎没有为这种情况提供解决

java - 用于 Java 的开源分布式缓存

可以在Java中使用的最好的开源分布式缓存是什么?我以为是EHCache,但显然只有在使用商业产品TerracottaServerArray时才能在多个节点上进行扩展。我的目标是为有一定延迟的实时流数据构建缓存,我实际估计的数据大小在8gb量级,而生产速度要慢得多,在3mb量级每秒。因为有一个初始延迟,我希望我的缓存也被复制,因为当从0开始时我的缓存需要一个预热期,我非常想避免这一点。 最佳答案 Memcached值得研究。 关于java-用于Java的开源分布式缓存,我们在StackO

java - 使用概率分布生成范围内的随机整数

我有一个问题,我想使用概率分布生成一组介于1和5之间的随机整数值。Poisson和InverseGamma是两个分布,它们显示了我所找到的特征(多数为平均值,较少的较高数字)。我正在考虑使用ApacheCommonsMath但我不确定如何使用可用的分布生成我想要的数字。 最佳答案 根据您的问题描述,听起来您实际上想要一个从离散概率分布生成的样本,您可以使用EnumeratedIntegerDistribution以此目的。为你的每个整数选择合适的概率,也许像下面这样的东西会满足你的需要:int[]numsToGenerate=new

java - 进程内缓存 vs 分布式缓存与可变/不可变对象(immutable对象)的一致性

我听我的同事说,在缓存immutable对象时,进程内缓存是更好的选择,因为一致性不是大问题(最终一致性)。而外部分布式缓存更适合您始终希望读取保持一致(强)的可变对象。这总是事实吗?我真的不明白可变性与一致性有何关系。有人可以帮助我理解这一点吗? 最佳答案 当您使用分布式缓存时,每个对象都在多个独立机器、多个缓存节点之间复制。如果您的对象是不可变的,复制就不是问题:因为对象永远不会改变,所以任何缓存实例都将提供完全相同的对象。一旦对象变得可变,就会出现一致性问题:当您向缓存实例请求对象时,您如何确定交付给您的对象是最新的?如果在一

java - 选择用于实现分布式消息传递算法的编程语言

基本上,我想实现以下算法并分析使用这些算法构建的系统在不同条件下的表现。八卦协议(protocol)多个paxos一致性哈希我的兴趣在于这些算法。我基本上是在寻找一种能让我快速编写这些算法并深入理解这些算法的编程语言。我应该选择哪种语言?Java、Scala、Erlang或其他任何语言。目前,我会Java和C++。 最佳答案 您可以尝试在Erlang中实现协议(protocol)。进程通信非常优雅地嵌入到语言和VM中。两个elrang进程之间的异步消息传递,无论是在同一VM中还是在语义等价的VM之间。算法的容错方面/重试逻辑等方面的