草庐IT

java - 为什么Stream <T> collect方法返回不同的键顺序?

coder 2024-03-03 原文

我有以下代码:

public enum Continent {ASIA, EUROPE}

public class Country {      
   private String name;
   private Continent region;

    public Country (String na, Continent reg) { 
        this.name = na;
        this.region = reg;
    }
    public String getName () {return name;} 
    public Continent getRegion () {return region;}
    @Override
    public String toString() {
        return "Country [name=" + name + ", region=" + region + "]";
    }
}

在主要类(class):
public static void main(String[] args) throws IOException {
        List<Country> couList = Arrays.asList(
            new Country ("Japan", Continent.ASIA), 
            new Country ("Sweden", Continent.EUROPE), 
            new Country ("Norway", Continent.EUROPE));
        Map<Continent, List<String>> regionNames = couList
                .stream()
                //.peek(System.out::println)
                .collect(Collectors.groupingBy(Country::getRegion, Collectors.mapping(Country::getName, Collectors.toList())));
        System.out.println(regionNames);
}

如果运行此代码,则会得到以下输出:
{EUROPE=[Sweden, Norway], ASIA=[Japan]}

但是,如果我取消注释peek函数,则会得到以下输出:
Country [name=Japan, region=ASIA]
Country [name=Sweden, region=EUROPE]
Country [name=Norway, region=EUROPE]
{ASIA=[Japan], EUROPE=[Sweden, Norway]}

我的问题是,有人可以告诉我,当regionNames函数到位时,为什么键顺序在 map peek中有所不同?

最佳答案

enumhashCode实现使用Object提供的默认值。该方法的The documentation提到:

Whenever it is invoked on the same object more than once during an execution of a Java application, the hashCode method must consistently return the same integer, provided no information used in equals comparisons on the object is modified. This integer need not remain consistent from one execution of an application to another execution of the same application.



由于哈希码决定了HashMap内部的存储区的顺序(这是groupingBy使用的顺序),因此当哈希码更改时,顺序也会更改。如何生成此哈希码是VM的实现细节(如Eugene所指出)。通过使用peek注释和取消注释该行,您仅找到了一种方法(可靠地或不可靠地)影响此实现。

既然这个问题悬而未决,似乎人们对我的回答不满意。我将更深入地介绍hashCode open-jdk8实现(因为它是开源的)。 免责声明:我将再次声明,身份哈希码算法的实现未指定,并且对于不同的VM或同一VM的不同版本可能完全不同。 由于OP正在观察此行为,因此我假设他使用的VM是Hotspot(Oracle,即afaik使用与opendjk相同的哈希码实现的Oracle)。但是这样做的主要目的是表明注释或取消注释看似无关的代码行可以更改HashMap中存储桶的顺序。 ,这也是为什么永远不要依赖于未指定集合的​​迭代顺序的原因之一(例如HashMap)。

现在,在synchronizer.cpp中定义了openjdk8的实际哈希算法:
 // Marsaglia's xor-shift scheme with thread-specific state
 // This is probably the best overall implementation -- we'll
 // likely make this the default in future releases.
 unsigned t = Self->_hashStateX ;
 t ^= (t << 11) ;
 Self->_hashStateX = Self->_hashStateY ;
 Self->_hashStateY = Self->_hashStateZ ;
 Self->_hashStateZ = Self->_hashStateW ;
 unsigned v = Self->_hashStateW ;
 v = (v ^ (v >> 19)) ^ (t ^ (t >> 8)) ;
 Self->_hashStateW = v ;
 value = v ;

如您所见,哈希码基于_hashState对象的这些Thread字段,并且输出从一个调用更改为下一个调用,因为变量值已“混洗”。

这些变量在Thread构造函数中初始化,如下所示:
_hashStateX = os::random() ;
_hashStateY = 842502087 ;
_hashStateZ = 0x8767 ;    // (int)(3579807591LL & 0xffff) ;
_hashStateW = 273326509 ;

唯一可动的部分是os::random,它在os.cpp中定义,并带有描述该算法的注释:
next_rand = (16807*seed) mod (2**31-1)

seed是唯一移动的部分,由_rand_seed定义,并通过一个名为init_random的函数进行了初始化,在该函数的结尾,返回的值用作下一次调用的种子。 repo 中的grep显示如下:
PS $> grep -r init_random
os/bsd/vm/os_bsd.cpp:  init_random(1234567);
os/linux/vm/os_linux.cpp:  init_random(1234567);
os/solaris/vm/os_solaris.cpp:  init_random(1234567);
os/windows/vm/os_windows.cpp:  init_random(1234567);
... test methods

看起来初始种子在我正在测试的平台(Windows)上是一个常数。

由此得出的结论是,生成的身份哈希码(在openjdk-8中)根据之前在同一线程上生成了多少身份哈希码以及在生成线程之前被调用os::random多少次而改变。哈希码被实例化,对于示例程序保持不变。我们已经可以看到这种情况,因为如果程序保持不变,则键的顺序在程序的运行之间不会改变。但是另一种查看方法是将System.out.println(new Object().hashCode());放在main方法的开头,如果多次运行该程序,则输出始终是相同的。

您还将注意到,在流调用之前生成标识哈希码也将更改枚举常量的哈希码,从而可以更改存储区在映射中的顺序。

现在,让我们回到Java示例。如果枚举常量的身份哈希码根据之前已生成的身份哈希码而变化,则逻辑结论是在peek调用的某处生成了身份哈希码,该哈希码更改了之后为带有collect的行上的枚举常量生成的:
Map<Continent, List<String>> regionNames = couList
        .stream()
        //.peek(System.out::println) // Does this call Object.hashCode?
        .collect(Collectors.groupingBy(Country::getRegion,
            Collectors.mapping(Country::getName, Collectors.toList()))); // hash code for constant generated here

您可以使用普通的Java调试器看到它​​。我在Object#hashCode上放置了一个断点,并等待看是否有peek的行调用了它。 (如果您亲自尝试,我会注意到虚拟机本身使用了HashMap,并且会在hashCode方法之前多次调用main。因此请注意)

瞧!
Object.hashCode() line: not available [native method]   
HashMap<K,V>.hash(Object) line: 338 
HashMap<K,V>.put(K, V) line: 611    
HashSet<E>.add(E) line: 219 
Collections$SynchronizedSet<E>(Collections$SynchronizedCollection<E>).add(E) line: 2035 
Launcher$AppClassLoader(ClassLoader).checkPackageAccess(Class<?>, ProtectionDomain) line: 508   
Main.main(String...) line: 19   

带有peek的行在加载hashCode类的类加载器使用的ProtectionDomain对象上调用LambdaMetafactory(这是您看到的Class<?>,我可以从调试器获取值)。在整个MethodHandle框架中,对于hashCode的行,peek方法实际上被调用了很多次(也许几百次?)。

因此,由于带有peek的行调用Object#hashCode,所以在生成枚举常量的哈希码之前(也通过调用Object#hashCode),这些常量的哈希码会发生变化。因此,使用peek添加或删除行会更改常量的哈希码,从而更改存储区在 map 中的顺序。

最后一种确认方法是通过添加peek在行之前生成常量的哈希码:
Continent.ASIA.hashCode();
Continent.EUROPE.hashCode();

main方法的开头。

现在,您将看到用peek注释或取消注释该行对存储桶的顺序没有影响。

关于java - 为什么Stream <T> collect方法返回不同的键顺序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44066380/

有关java - 为什么Stream <T> collect方法返回不同的键顺序?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  5. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  6. Ruby 方法() 方法 - 2

    我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby​​-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco

  7. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  8. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  9. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  10. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

随机推荐