java - 如何处理超过默认线程数的 Java 流？

coder 2024-03-19 原文

默认情况下，Java 流由 common thread pool 处理，它是用默认参数构造的。正如在 another question 中回答的那样，可以通过指定自定义池或设置 java.util.concurrent.ForkJoinPool.common.parallelism 系统参数来调整这些默认值。

但是，我一直无法通过这两种方法中的任何一种来增加分配给流处理的线程数。例如，考虑下面的程序，它处理包含在其第一个参数中指定的文件中的 IP 地址列表，并输出解析的地址。在具有大约 13000 个唯一 IP 地址的文件上运行此程序，我看到使用 Oracle Java Mission Control 的线程只有 16 个。其中，只有五个是 ForkJoinPool worker 。然而，这个特定的任务会受益于更多的线程，因为线程大部分时间都在等待 DNS 响应。所以我的问题是，我怎样才能真正增加使用的线程数？

我已经在三个环境中试用了该程序；这些是操作系统报告的线程数。

Java SE Runtime Environment build 1.8.0_73-b02 在运行 Windows 7 的 8 核机器上:17 个线程
在运行 OS X Darwin 15.2.0 的 2 核机器上构建 1.8.0_66-b17 的 Java SE 运行时环境:23 个线程
运行 FreeBSD 11.0 的 24 核机器上的 openjdk 版本 1.8.0_72:44 个线程


import java.io.IOException;
import java.net.InetAddress;
import java.net.UnknownHostException;
import java.nio.file.Files;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.ForkJoinPool;

/** Resolve IP addresses in file args[0] using 100 threads */
public class Resolve100 {
    /** Resolve the passed IP address into a name */
    static String addressName(String ipAddress) {
        try {
            return InetAddress.getByName(ipAddress).getHostName();
        } catch (UnknownHostException e) {
            return ipAddress;
        }
    }

    public static void main(String[] args) {
        Path path = Paths.get(args[0]);
        ForkJoinPool fjp = new ForkJoinPool(100);
        try {
            fjp.submit(() -> {
                try {
                    Files.lines(path)
                    .parallel()
                    .map(line -> addressName(line))
                    .forEach(System.out::println);
                } catch (IOException e) {
                    System.err.println("Failed: " + e);
                }
            }).get();
        } catch (Exception e) {
            System.err.println("Failed: " + e);
        }
    }
}

最佳答案

您的方法有两个问题。首先是使用自定义 FJP 不会更改流 API 创建的单个任务的最大数量，因为这是定义的 in the following way :

static final int LEAF_TARGET = ForkJoinPool.getCommonPoolParallelism() << 2;

因此，即使您使用自定义池，并行任务的数量也会受到 commonPoolParallelism * 4 的限制。 (其实不是硬性限制，而是一个目标，但很多情况下任务数等于这个数)。

上述问题可以通过使用 java.util.concurrent.ForkJoinPool.common.parallelism 系统属性来解决，但是在这里你遇到了另一个问题:Files.lines 是并行化真的很糟糕。参见 this question了解详情。特别是，对于 13000 行输入，最大可能加速是 3.17 倍(假设每行处理花费大致相同的时间)，即使您有 100 个 CPU。我的StreamEx库为此提供了解决方法(使用 StreamEx.ofLines(path).parallel() 创建流)。另一种可能的解决方案是将文件行顺序读取到 List 中，然后从中创建一个并行流:

Files.readAllLines(path).parallelStream()...

这将与系统属性一起工作。然而，一般来说，当任务涉及 I/O 时，Stream API 不太适合并行处理。更灵活的解决方案是对每一行使用 CompletableFuture:

ForkJoinPool fjp = new ForkJoinPool(100);
List<CompletableFuture<String>> list = Files.lines(path)
    .map(line -> CompletableFuture.supplyAsync(() -> addressName(line), fjp))
    .collect(Collectors.toList());
list.stream().map(CompletableFuture::join)
    .forEach(System.out::println);

这样您就不需要调整系统属性，并且可以为单独的任务使用单独的池。

关于java - 如何处理超过默认线程数的 Java 流？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35581819/

何处 java code ForkJoinPool multithreading java-stream

有关java - 如何处理超过默认线程数的 Java 流？的更多相关文章

ruby - 默认情况下使选项为 false - 2
这是在Ruby中设置默认值的常用方法:classQuietByDefaultdefinitialize(opts={})@verbose=opts[:verbose]endend这是一个容易落入的陷阱:classVerboseNoMatterWhatdefinitialize(opts={})@verbose=opts[:verbose]||trueendend正确的做法是:classVerboseByDefaultdefinitialize(opts={})@verbose=opts.include?(:verbose)?opts[:verbose]:trueendend编写Verb
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/
ruby-on-rails - Enumerator.new 如何处理已通过的 block ？ - 2
我在理解Enumerator.new方法的工作原理时遇到了一些困难。假设文档中的示例:fib=Enumerator.newdo|y|a=b=1loopdoy[1,1,2,3,5,8,13,21,34,55]循环中断条件在哪里，它如何知道循环应该迭代多少次(因为它没有任何明确的中断条件并且看起来像无限循环)？最佳答案 Enumerator使用Fibers在内部。您的示例等效于:require'fiber'fiber=Fiber.newdoa=b=1loopdoFiber.yieldaa,b=b,a+bendend10.times.m
ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - 在默认方法参数中使用 .reverse_merge 或 .merge - 2
两者都可以defsetup(options={})options.reverse_merge:size=>25,:velocity=>10end和defsetup(options={}){:size=>25,:velocity=>10}.merge(options)end在方法的参数中分配默认值。问题是:哪个更好？您更愿意使用哪一个？在性能、代码可读性或其他方面有什么不同吗？编辑:我无意中添加了bang(!)...并不是要询问nobang方法与bang方法之间的区别最佳答案我倾向于使用reverse_merge方法:option
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
Observability：从零开始创建 Java 微服务并监控它（二） - 2
这篇文章是继上一篇文章“Observability：从零开始创建Java微服务并监控它（一）”的续篇。在上一篇文章中，我们讲述了如何创建一个Javaweb应用，并使用Filebeat来收集应用所生成的日志。在今天的文章中，我来详述如何收集应用的指标，使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值，然后一切都回到一个请求。这也意味着这些指标可能不准确，你还想提取最小/

java - 如何处理超过默认线程数的 Java 流？

有关java - 如何处理超过默认线程数的 Java 流？的更多相关文章

随机推荐