Linux 上的 Java BlockingQueue 延迟高

coder 2023-05-17 原文

我正在使用 BlockingQueue:s(同时尝试 ArrayBlockingQueue 和 LinkedBlockingQueue)在我目前正在处理的应用程序中的不同线程之间传递对象。性能和延迟在这个应用程序中相对重要，所以我很好奇使用 BlockingQueue 在两个线程之间传递对象需要多少时间。为了衡量这一点，我编写了一个带有两个线程(一个消费者和一个生产者)的简单程序，我让生产者将时间戳(使用 System.nanoTime() 获取)传递给消费者，请参见下面的代码。

我记得在某个论坛上的某个地方读到，尝试此操作的其他人花费了大约 10 微秒(不知道使用的是什么操作系统和硬件)，所以当我在我的计算机上花费了大约 30 微秒时，我并不感到惊讶windows 7 box(Intel E7500 core 2 duo CPU, 2.93GHz)，同时在后台运行许多其他应用程序。但是，当我在速度更快的 Linux 服务器(两个 Intel X5677 3.46GHz 四核 CPU，运行内核为 2.6.26-2-amd64 的 Debian 5)上进行相同测试时，我感到非常惊讶。我预计延迟会比我的 windows box 低，但相反，它要高得多 - ~75 - 100 微秒!这两个测试都是使用 Sun 的 Hotspot JVM 版本 1.6.0-23 完成的。

有没有其他人在 Linux 上做过类似的测试并得到类似的结果？或者有谁知道为什么它在 Linux 上慢得多(具有更好的硬件)，与 Windows 相比，Linux 上的线程切换是否会慢得多？如果是这样的话，似乎 windows 实际上更适合某些类型的应用程序。非常感谢帮助我理解相对较高数字的任何帮助。

编辑:
在 DaveC 发表评论后，我还做了一个测试，我将 JVM(在 Linux 机器上)限制为单个核心(即所有线程在同一核心上运行)。这极大地改变了结果——延迟降低到 20 微秒以下，即比 Windows 机器上的结果要好。我还做了一些测试，将生产者线程限制在一个核心，将消费者线程限制在另一个核心(尝试将它们放在同一个套接字和不同的套接字上)，但这似乎没有帮助 - 延迟仍然约为 75微秒。顺便说一句，这个测试应用程序几乎是我在执行测试时在机器上运行的全部内容。

有谁知道这些结果是否有意义？如果生产者和消费者在不同的内核上运行，它真的应该慢得多吗？任何输入都非常感谢。

再次编辑(1 月 6 日):
我对代码和运行环境进行了不同的更改:

我将 Linux 内核升级到 2.6.36.2(从 2.6.26.2)。内核升级后，测量时间从升级前的 75-100 变为 60 微秒，变化非常小。为生产者和消费者线程设置 CPU 亲和性没有任何影响，除非将它们限制在相同的内核上。在同一内核上运行时，测得的延迟为 13 微秒。

在原始代码中，我让生产者在每次迭代之间 hibernate 1 秒，以便给消费者足够的时间来计算耗时并将其打印到控制台。如果我删除对 Thread.sleep() 的调用，而是让生产者和消费者在每次迭代中都调用 barrier.await()(消费者在将耗时打印到控制台后调用它)，则测量的延迟从60 微秒到 10 微秒以下。如果在同一内核上运行线程，则延迟会低于 1 微秒。谁能解释为什么这会如此显着地减少延迟？我的第一个猜测是更改的效果是生产者在消费者调用 queue.take() 之前调用了 queue.put()，因此消费者永远不必阻塞，但是在使用了 ArrayBlockingQueue 的修改版本之后，我发现这个猜测是错误的——消费者确实阻止了。如果您有其他猜测，请告诉我。 (顺便说一句，如果我让生产者同时调用 Thread.sleep() 和 barrier.await()，延迟保持在 60 微秒)。

我还尝试了另一种方法——我没有调用 queue.take()，而是调用 queue.poll()，超时时间为 100 微秒。这将平均延迟降低到 10 微秒以下，但当然 CPU 密集度更高(但 CPU 密集度可能低于忙等待？)。

再次编辑(1 月 10 日) - 问题已解决:
ninjalj 表示，大约 60 微秒的延迟是由于 CPU 必须从更深的 sleep 状态中唤醒——他完全正确!在 BIOS 中禁用 C 状态后，延迟减少到 <10 微秒。这解释了为什么我在上面的第="" 2="" 点下获得了更好的延迟="" -="" 当我更频繁地发送对象时，cpu="" 保持足够忙碌，不会进入更深的="" sleep="">

...

import java.util.concurrent.ArrayBlockingQueue;
import java.util.concurrent.CyclicBarrier;

public class QueueTest {

    ArrayBlockingQueue<Long> queue = new ArrayBlockingQueue<Long>(10);
    Thread consumerThread;
    CyclicBarrier barrier = new CyclicBarrier(2);
    static final int RUNS = 500000;
    volatile int sleep = 1000;

    public void start() {
        consumerThread = new Thread(new Runnable() {
            @Override
            public void run() {
                try {
                    barrier.await();
                    for(int i = 0; i < RUNS; i++) {
                        consume();

                    }
                } catch (Exception e) {
                    e.printStackTrace();
                } 
            }
        });
        consumerThread.start();

        try {
            barrier.await();
        } catch (Exception e) { e.printStackTrace(); }

        for(int i = 0; i < RUNS; i++) {
            try {
                if(sleep > 0)
                    Thread.sleep(sleep);
                produce();

            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    public void produce() {
        try {
            queue.put(System.nanoTime());
        } catch (InterruptedException e) {
        }
    }

    public void consume() {
        try {
            long t = queue.take();
            long now = System.nanoTime();
            long time = (now - t) / 1000; // Divide by 1000 to get result in microseconds
            if(sleep > 0) {
                System.out.println("Time: " + time);
            }

        } catch (Exception e) {
            e.printStackTrace();
        }

    }

    public static void main(String[] args) {
        QueueTest test = new QueueTest();
        System.out.println("Starting...");
        // Run first once, ignoring results
        test.sleep = 0;
        test.start();
        // Run again, printing the results
        System.out.println("Starting again...");
        test.sleep = 1000;
        test.start();
    }
}

最佳答案

您的测试不能很好地衡量队列切换延迟，因为您有一个线程从队列中读取同步写入 System.out (当它在它的时候做一个字符串和长连接)在它再次需要之前。要正确衡量这一点，您需要将此 Activity 移出该线程，并在获取线程中尽可能少做工作。

您最好只在接受者中进行计算(当时)并将结果添加到其他一些集合中，该集合由另一个输出结果的线程定期排出。我倾向于通过添加到通过 AtomicReference 访问的适当大小的数组支持结构中来做到这一点(因此，报告线程只需使用该存储结构的另一个实例对该引用进行 getAndSet 即可获取最新一批结果；例如 make 2列表，将其中一个设置为主动，每个 xsa 线程都会唤醒并交换主动和被动线程)。然后您可以报告一些分布而不是每个结果(例如十分位数范围)，这意味着您不会在每次运行时生成大量日志文件并为您打印有用的信息。

FWIW 我同意 Peter Lawrey 所说的时间，如果延迟真的很重要，那么您需要考虑以适当的 CPU 关联性进行忙等待(即为该线程专门分配一个核心)

1 月 6 日之后编辑

If I remove the call to Thread.sleep () and instead let both the producer and consumer call barrier.await() in every iteration (the consumer calls it after having printed the elapsed time to the console), the measured latency is reduced from 60 microseconds to below 10 microseconds. If running the threads on the same core, the latency gets below 1 microsecond. Can anyone explain why this reduced the latency so significantly?

您正在查看 java.util.concurrent.locks.LockSupport#park 之间的区别(以及相应的 unpark )和 Thread#sleep .大多数 j.u.c.东西建立在 LockSupport (通常通过 AbstractQueuedSynchronizer 提供或直接通过 ReentrantLock 提供)并且此(在 Hotspot 中)解析为 sun.misc.Unsafe#park (和 unpark )，这往往会落入 pthread(posix 线程)库的手中。通常 pthread_cond_broadcast醒来和pthread_cond_wait或 pthread_cond_timedwait对于诸如 BlockingQueue#take 之类的事情.

我不能说我曾经看过 Thread#sleep实际上是实现的(因为我从来没有遇到过不是基于条件的等待的低延迟)，但我想它会导致它以比 pthread 信号机制更积极的方式被调度程序降级，那就是延迟差异的原因是什么。

关于Linux 上的 Java BlockingQueue 延迟高，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4584240/

有关Linux 上的 Java BlockingQueue 延迟高的更多相关文章

ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - openshift 上的 rails 控制台 - 2
我将我的Rails应用程序部署到OpenShift，它运行良好，但我无法在生产服务器上运行“Rails控制台”。它给了我这个错误。我该如何解决这个问题？我尝试更新rubygems，但它也给出了权限被拒绝的错误，我也无法做到。railsc错误:Warning:You'reusingRubygems1.8.24withSpring.UpgradetoatleastRubygems2.1.0andrun`gempristine--all`forbetterstartupperformance./opt/rh/ruby193/root/usr/share/rubygems/rubygems
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby-on-rails - Ruby - 如何从 ruby 上的 .pfx 文件中提取公钥、rsa 私钥和 CA key - 2
我有一个.pfx格式的证书，我需要使用ruby提取公共(public)、私有(private)和CA证书。使用shell我可以这样做:#ExtractPublicKey(askforpassword)opensslpkcs12-infile.pfx-outfile_public.pem-clcerts-nokeys#ExtractCertificateAuthorityKey(askforpassword)opensslpkcs12-infile.pfx-outfile_ca.pem-cacerts-nokeys#ExtractPrivateKey(askforpassword)o
ruby-on-rails - 在所有延迟的作业之前 Hook - 2
是否可以在所有delayed_job任务之前运行一个方法？基本上，我们试图确保每个运行delayed_job的服务器都有我们代码的最新实例，所以我们想运行一个方法来在每个作业运行之前检查它。(我们已经有了“check”方法并在别处使用它。问题只是关于如何从delayed_job中调用它。) 最佳答案现在有一种官方方法可以通过插件来做到这一点。这篇博文通过示例清楚地描述了如何执行此操作http://www.salsify.com/blog/delayed-jobs-callbacks-and-hooks-in-rails(本文中描述
带有 attr_accessor 的类上的 Ruby instance_eval - 2
我了解instance_eval和class_eval之间的基本区别。我在玩弄时发现的是一些涉及attr_accessor的奇怪东西。这是一个例子:A=Class.newA.class_eval{attr_accessor:x}a=A.newa.x="x"a.x=>"x"#...expectedA.instance_eval{attr_accessor:y}A.y="y"=>NoMethodError:undefinedmethod`y='forA:Classa.y="y"=>"y"#WHATTT?这是怎么回事:instance_eval没有访问我们的A类(对象)然后它实际上将它添加到
ruby-on-rails - rails 上的 ruby : radio buttons for collection select - 2
我有一个集合选择:此方法的单选按钮是什么？谢谢最佳答案 Rails3中没有这样的助手。在Rails4中，它是collection_radio_buttons. 关于ruby-on-rails-rails上的ruby:radiobuttonsforcollectionselect，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/18525986/
ruby - 将命令行上的变量传递给 Cucumber 测试 - 2
我正在尝试将cucumber项目的用户名和密码置于版本控制之外。有没有办法在命令行上手动将用户名和密码等变量传递给Cucumber脚本？我的备份计划是将它们放在一个YML文件中，然后将该文件添加到gitignore，这样它们就不会被置于版本控制中。最佳答案所以，我看到了您对铁皮人的评论，答案是肯定的。cucumberPASSWORD=my_passwordPASSWORD被设置为环境变量，您可以通过将其引用为ENV['PASSWORD']来使用它的值。例如，browser.text_field(:id=>'pwd').setEN
ruby - 将哈希值保存到 Ruby 上的文件 - 2
我刚刚迈出了编程的第一步。我刚刚完成了CodeAcademy的另一门类(class)。这次我被要求创建一个小电影目录。这是我的问题:如何在文件中保存/加载带有电影标题和评级的哈希值而不是自己的代码？下面是代码现在的样子(几句葡萄牙语，但您可以忽略它:movies={Memento:3,Primer:4,Ishtar:1}puts"Oquevocêgostariadefazer?"puts"--Digite'add'paraadicionarumfilme."puts"--Digite'update'paraatualizarumfilme."puts"--Digite'display'
ruby - 在 RUBY 上的 PADRINO 框架上使用 RSPEC 进行测试的教程 - 2
我是Ruby新手，并被要求在我们的新项目中使用它。我们还被要求使用Padrino(Sinatra)作为后端/框架。我们被要求使用Rspec进行测试。我一直在寻找可以指导在Padrino上使用RspecforRuby的教程。我得到的主要是引用RoR。但是，我需要RubyonPadrino。请在任何入门/指南/引用/讨论等方面指导我。如有不妥之处请指正。可能是我没有针对我的问题搜索正确的词/短语组合。我正在使用Ruby1.9.3和Padrinov.0.10.6。注意:我还提到了SOquestion,但它没有帮助。最佳答案我没用过Pa

Linux 上的 Java BlockingQueue 延迟高

有关Linux 上的 Java BlockingQueue 延迟高的更多相关文章

随机推荐