读Java实战（第二版）笔记15_并行数据处理与性能

躺柒 2023-03-28 原文

1. Stream

1.1. 允许你声明性地将顺序流转变成并行流

1.2. 能对这些集合执行操作流水线，可以充分利用计算机的多个核

2. 并行流

2.1. 把内容拆分成多个数据块，用不同线程分别处理每个数据块的流

2.2. 自动地把工作负荷分配到多核处理器的所有核

2.3. 内部迭代让你可以并行处理一个流，而无须在代码中显式使用和协调不同的线程

2.4. 对顺序流调用parallel方法，你可以将流转换成并行流

2.5. 并行流调用sequential方法就可以把它变成顺序流

2.6. 最后一次parallel或sequential调用会影响整个流水线

2.7. 内部使用了默认的ForkJoinPool

2.7.1. 默认的线程数量就是你的处理器数量

2.7.2. Runtime.getRuntime().availableProcessors()得到

2.7.3. java.util.concurrent.ForkJoinPool.common.parallelism来修改线程池大小

3. Java微基准套件

3.1. Java microbenchmark harness, JMH

3.2. 一个以声明方式帮助大家创建简单、可靠微基准测试的工具集

3.3. 支持Java

3.4. 支持可以运行在Java虚拟机（Java virtual machine, JVM）上的其他语言

3.5. 选择适当的数据结构往往比并行化算法更重要

3.5.1. LongStream.rangeClosed

3.6. 并行软件的行为和性能有时是违反直觉的，因此一定要测量，确保你并没有把程序拖得更慢

4. 并行化的代价

4.1. 并行化过程本身需要对流做递归划分

4.2. 把每个子流的归约操作分配到不同的线程

4.3. 然后把这些操作的结果合并成一个值

4.4. 多个核之间移动数据的代价也可能比你想的要大

4.4.1. 保证在核中并行执行工作的时间比在核之间传输数据的时间长

4.5. 很多情况下不可能或不方便并行化

4.5.1. 如果结果错了，算得快就毫无意义了

5. 高效使用并行流

5.1. 适用于要处理的元素数量庞大，或处理单个元素特别耗时的时候

5.2. 并行流并不总是比顺序流快

5.2.1. 用适当的基准来检查其性能

5.3. 自动装箱和拆箱操作会大大降低性能

5.4. 有些操作本身在并行流上的性能就比顺序流差

5.4.1. limit和findFirst等依赖于元素顺序的操作

5.4.2. findAny会比findFirst性能好，因为它不一定要按顺序来执行

5.5. 调用unordered方法来把有序流变成无序流

5.5.1. 对无序并行流调用limit可能会比单个有序流（比如数据源是一个List）更高效

5.6. 流的操作流水线的总计算成本

5.6.1. **设N是要处理的元素的总数，Q是一个元素通过流水线的大致处理成本，则N*Q就是这个对成本的一个粗略的定性估计**

5.6.2. Q值较高就意味着使用并行流时性能好的可能性比较大

5.7. 对于较小的数据量，选择并行流几乎从来都不是一个好的决定

5.8. 流背后的数据结构是否易于分解

5.8.1. ArrayList的拆分效率比LinkedList高得多

5.9. 终端操作中合并步骤的代价是大是小

6. 分支/合并框架

6.1. 分治算法的并行版本

6.2. 以递归方式将可以并行的任务拆分成更小的任务，然后将每个子任务的结果合并起来生成整体结果

6.3. ExecutorService接口的一个实现，它把子任务分配给线程池（称为ForkJoinPool）中的工作线程

6.4. 对一个任务调用join方法会阻塞调用方，直到该任务做出结果

6.5. 不应该在RecursiveTask内部使用ForkJoinPool的invoke方法

6.6. 应该始终直接调用compute或fork方法，只有顺序代码才应该用invoke来启动并行计算

6.7. 对子任务调用fork方法可以把它排进ForkJoinPool

6.8. 工作窃取

6.8.1. 随机选了一个别的线程，从队列的尾巴上“偷走”一个任务

7. Spliterator

7.1. 一种自动机制来为你拆分流

7.2. 代表“可分迭代器”（splitable iterator）

7.3. 用于遍历数据源中的元素，但它是为了并行执行而设计的

7.4. 特性是通过characteristics方法声明的

7.5. Java没有元组（tuple，用来表示由异类元素组成的有序列表的结构，不需要包装对象），所以你必须创建一个新类来把状态封装起来

有关读Java实战（第二版）笔记15_并行数据处理与性能的更多相关文章

ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
Observability：从零开始创建 Java 微服务并监控它（二） - 2
这篇文章是继上一篇文章“Observability：从零开始创建Java微服务并监控它（一）”的续篇。在上一篇文章中，我们讲述了如何创建一个Javaweb应用，并使用Filebeat来收集应用所生成的日志。在今天的文章中，我来详述如何收集应用的指标，使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值，然后一切都回到一个请求。这也意味着这些指标可能不准确，你还想提取最小/
【Java 面试合集】HashMap中为什么引入红黑树，而不是AVL树呢 - 2
HashMap中为什么引入红黑树，而不是AVL树呢1.概述开始学习这个知识点之前我们需要知道，在JDK1.8以及之前，针对HashMap有什么不同。JDK1.7的时候，HashMap的底层实现是数组+链表JDK1.8的时候，HashMap的底层实现是数组+链表+红黑树我们要思考一个问题，为什么要从链表转为红黑树呢。首先先让我们了解下链表有什么不好？？？2.链表上述的截图其实就是链表的结构，我们来看下链表的增删改查的时间复杂度增：因为链表不是线性结构，所以每次添加的时候，只需要移动一个节点，所以可以理解为复杂度是N(1)删：算法时间复杂度跟增保持一致查：既然是非线性结构，所以查询某一个节点的时候
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
微信小程序开发入门与实战（Behaviors使用） - 2
@作者:SYFStrive @博客首页:HomePage📜：微信小程序📌：个人社区（欢迎大佬们加入）👉：社区链接🔗📌：觉得文章不错可以点点关注👉：专栏连接🔗💃：感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序（🔥）目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中，用于实现
【Java入门】使用Java实现文件夹的遍历 - 2
遍历文件夹我们通常是使用递归进行操作，这种方式比较简单，也比较容易理解。本文为大家介绍另一种不使用递归的方式，由于没有使用递归，只用到了循环和集合，所以效率更高一些！一、使用递归遍历文件夹整体思路1、使用File封装初始目录，2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组，取出每个File对象4-1、如果File是否是一个文件，打印4-2、否则就是一个目录，递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg

随机推荐

读Java实战（第二版）笔记15_并行数据处理与性能

1. Stream

1.1. 允许你声明性地将顺序流转变成并行流

1.2. 能对这些集合执行操作流水线，可以充分利用计算机的多个核

2. 并行流

2.1. 把内容拆分成多个数据块，用不同线程分别处理每个数据块的流

2.2. 自动地把工作负荷分配到多核处理器的所有核

2.3. 内部迭代让你可以并行处理一个流，而无须在代码中显式使用和协调不同的线程

2.4. 对顺序流调用parallel方法，你可以将流转换成并行流

2.5. 并行流调用sequential方法就可以把它变成顺序流

2.6. 最后一次parallel或sequential调用会影响整个流水线

2.7. 内部使用了默认的ForkJoinPool

2.7.1. 默认的线程数量就是你的处理器数量

2.7.2. Runtime.getRuntime().availableProcessors()得到

2.7.3. java.util.concurrent.ForkJoinPool.common.parallelism来修改线程池大小

3. Java微基准套件

3.1. Java microbenchmark harness, JMH

3.2. 一个以声明方式帮助大家创建简单、可靠微基准测试的工具集

3.3. 支持Java

3.4. 支持可以运行在Java虚拟机（Java virtual machine, JVM）上的其他语言

3.5. 选择适当的数据结构往往比并行化算法更重要

3.5.1. LongStream.rangeClosed

3.6. 并行软件的行为和性能有时是违反直觉的，因此一定要测量，确保你并没有把程序拖得更慢

4. 并行化的代价

4.1. 并行化过程本身需要对流做递归划分

4.2. 把每个子流的归约操作分配到不同的线程

4.3. 然后把这些操作的结果合并成一个值

4.4. 多个核之间移动数据的代价也可能比你想的要大

4.4.1. 保证在核中并行执行工作的时间比在核之间传输数据的时间长

4.5. 很多情况下不可能或不方便并行化

4.5.1. 如果结果错了，算得快就毫无意义了

5. 高效使用并行流

5.1. 适用于要处理的元素数量庞大，或处理单个元素特别耗时的时候

5.2. 并行流并不总是比顺序流快

5.2.1. 用适当的基准来检查其性能

5.3. 自动装箱和拆箱操作会大大降低性能

5.4. 有些操作本身在并行流上的性能就比顺序流差

5.4.1. limit和findFirst等依赖于元素顺序的操作

5.4.2. findAny会比findFirst性能好，因为它不一定要按顺序来执行

5.5. 调用unordered方法来把有序流变成无序流

5.5.1. 对无序并行流调用limit可能会比单个有序流（比如数据源是一个List）更高效

5.6. 流的操作流水线的总计算成本

5.6.1. 设N是要处理的元素的总数，Q是一个元素通过流水线的大致处理成本，则N*Q就是这个对成本的一个粗略的定性估计

5.6.2. Q值较高就意味着使用并行流时性能好的可能性比较大

5.7. 对于较小的数据量，选择并行流几乎从来都不是一个好的决定

5.8. 流背后的数据结构是否易于分解

5.8.1. ArrayList的拆分效率比LinkedList高得多

5.9. 终端操作中合并步骤的代价是大是小

6. 分支/合并框架

6.1. 分治算法的并行版本

6.2. 以递归方式将可以并行的任务拆分成更小的任务，然后将每个子任务的结果合并起来生成整体结果

6.3. ExecutorService接口的一个实现，它把子任务分配给线程池（称为ForkJoinPool）中的工作线程

6.4. 对一个任务调用join方法会阻塞调用方，直到该任务做出结果

6.5. 不应该在RecursiveTask内部使用ForkJoinPool的invoke方法

6.6. 应该始终直接调用compute或fork方法，只有顺序代码才应该用invoke来启动并行计算

6.7. 对子任务调用fork方法可以把它排进ForkJoinPool

6.8. 工作窃取

6.8.1. 随机选了一个别的线程，从队列的尾巴上“偷走”一个任务

7. Spliterator

7.1. 一种自动机制来为你拆分流

7.2. 代表“可分迭代器”（splitable iterator）

7.3. 用于遍历数据源中的元素，但它是为了并行执行而设计的

7.4. 特性是通过characteristics方法声明的

7.5. Java没有元组（tuple，用来表示由异类元素组成的有序列表的结构，不需要包装对象），所以你必须创建一个新类来把状态封装起来

有关读Java实战（第二版）笔记15_并行数据处理与性能的更多相关文章

随机推荐

5.6.1. **设N是要处理的元素的总数，Q是一个元素通过流水线的大致处理成本，则N*Q就是这个对成本的一个粗略的定性估计**