草庐IT

java - 如何编写 Java 代码以允许使用 SSE 和边界检查消除(或其他高级优化)?

coder 2023-05-14 原文

情况:
我正在优化 LZF 压缩算法的纯 Java 实现,它涉及大量 byte[] 访问和用于散列和比较的基本 int 数学。性能真的很重要,因为压缩的目标是减少 I/O 要求。我没有发布代码,因为它尚未清理干净,并且可能会进行大量重组。
问题:

  • 如何编写代码以允许它使用更快的 SSE 操作 JIT 编译为表单?
  • 如何构造它以便编译器可以轻松消除数组边界检查?
  • 是否有关于特定数学运算的相对速度的广泛引用(等于正常加/减需要多少增量/减量,移位或数组访问的速度有多快)?
  • 我怎样才能优化分支——有很多带有短体的条件语句,还是一些长的,或带有嵌套条件的短的条件语句更好?
  • 使用当前的 1.6 JVM,在 System.arraycopy 击败复制循环之前必须复制多少元素?

  • 我已经做了什么:
    在我因过早优化而受到攻击之前:基本算法已经很出色,但 Java 实现的速度还不到等效 C 的 2/3。我已经用 System.arraycopy 替换了复制循环,致力于优化循环并消除了 un - 需要的操作。
    我大量使用 bit twiddling 并将字节打包成 int 以提高性能,以及移位和掩码。
    出于法律原因,我无法查看类似库中的实现,而且现有库的许可条款过于严格,无法使用。
    GOOD(接受)答案的要求:
  • Not Acceptable 答案: “这更快”没有解释多少和为什么,或者没有用 JIT 编译器测试过。
  • 边界答案:在 Hotspot 1.4 之前没有经过任何测试
  • 基本答案:将提供一般规则和解释为什么它在编译器级别更快,以及大约快多少
  • 好答案:包括几个示例代码来演示
  • 优秀回答:具有 JRE 1.5 和 1.6 的基准测试
  • 完美答案:由从事 HotSpot 编译器工作的人员编写,可以完全解释或引用要使用的优化的条件,以及它通常要快多少。可能包括由 HotSpot 生成的 Java 代码和示例汇编代码。

  • 另外:如果有人有详细介绍 Hotspot 优化和分支性能的内容的链接,欢迎使用。我对字节码有足够的了解,因此在字节码而不是源代码级别分析性能的站点会有所帮助。
    (编辑)部分答案:边界检查消除:
    这取自提供的指向 HotSpot 内部 wiki 的链接:https://wikis.oracle.com/display/HotSpotInternals/RangeCheckElimination
    HotSpot 将在以下条件下消除所有 for 循环中的边界检查:
  • 数组是循环不变的(不在循环内重新分配)
  • 索引变量具有恒定的步幅(以恒定的量增加/减少,如果可能,仅在一个位置)
  • 数组由变量的线性函数索引。

  • 示例: int val = array[index*2 + 5] 或: int val = array[index+9] 不是: int val = array[Math.min(var,index)+7]
    早期版本代码:
    这是一个示例版本。不要窃取它,因为它是 H2 数据库项目代码的未发布版本。最终版本将是开源的。这是对此处代码的优化:H2 CompressLZF code
    从逻辑上讲,这与开发版本相同,但该版本使用 for(...) 循环来单步执行输入,并使用 if/else 循环来处理文字和反向引用模式之间的不同逻辑。它减少了阵列访问和模式之间的检查。
    public int compressNewer(final byte[] in, final int inLen, final byte[] out, int outPos){
            int inPos = 0;
            // initialize the hash table
            if (cachedHashTable == null) {
                cachedHashTable = new int[HASH_SIZE];
            } else {
                System.arraycopy(EMPTY, 0, cachedHashTable, 0, HASH_SIZE);
            }
            int[] hashTab = cachedHashTable;
            // number of literals in current run
            int literals = 0;
            int future = first(in, inPos);
            final int endPos = inLen-4;
    
            // Loop through data until all of it has been compressed
            while (inPos < endPos) {
                    future = (future << 8) | in[inPos+2] & 255;
    //                hash = next(hash,in,inPos);
                    int off = hash(future);
                    // ref = possible index of matching group in data
                    int ref = hashTab[off];
                    hashTab[off] = inPos;
                    off = inPos - ref - 1; //dropped for speed
    
                    // has match if bytes at ref match bytes in future, etc
                    // note: using ref++ rather than ref+1, ref+2, etc is about 15% faster
                    boolean hasMatch = (ref > 0 && off <= MAX_OFF && (in[ref++] == (byte) (future >> 16) && in[ref++] == (byte)(future >> 8) && in[ref] == (byte)future));
    
                    ref -=2; // ...EVEN when I have to recover it
                    // write out literals, if max literals reached, OR has a match
                    if ((hasMatch && literals != 0) || (literals == MAX_LITERAL)) {
                        out[outPos++] = (byte) (literals - 1);
                        System.arraycopy(in, inPos - literals, out, outPos, literals);
                        outPos += literals;
                        literals = 0;
                    }
    
                    //literal copying split because this improved performance by 5%
    
                    if (hasMatch) { // grow match as much as possible
                        int maxLen = inLen - inPos - 2;
                        maxLen = maxLen > MAX_REF ? MAX_REF : maxLen;
                        int len = 3;
                        // grow match length as possible...
                        while (len < maxLen && in[ref + len] == in[inPos + len]) {
                            len++;
                        }
                        len -= 2;
    
                        // short matches write length to first byte, longer write to 2nd too
                        if (len < 7) {
                            out[outPos++] = (byte) ((off >> 8) + (len << 5));
                        } else {
                            out[outPos++] = (byte) ((off >> 8) + (7 << 5));
                            out[outPos++] = (byte) (len - 7);
                        }
                        out[outPos++] = (byte) off;
                        inPos += len;
    
                        //OPTIMIZATION: don't store hashtable entry for last byte of match and next byte
                        // rebuild neighborhood for hashing, but don't store location for this 3-byte group
                        // improves compress performance by ~10% or more, sacrificing ~2% compression...
                        future = ((in[inPos+1] & 255) << 16) | ((in[inPos + 2] & 255) << 8) | (in[inPos + 3] & 255);
                        inPos += 2;
                    } else { //grow literals
                        literals++;
                        inPos++;
                    } 
            }
            
            // write out remaining literals
            literals += inLen-inPos;
            inPos = inLen-literals;
            if(literals >= MAX_LITERAL){
                out[outPos++] = (byte)(MAX_LITERAL-1);
                System.arraycopy(in, inPos, out, outPos, MAX_LITERAL);
                outPos += MAX_LITERAL;
                inPos += MAX_LITERAL;
                literals -= MAX_LITERAL;
            }
            if (literals != 0) {
                out[outPos++] = (byte) (literals - 1);
                System.arraycopy(in, inPos, out, outPos, literals);
                outPos += literals;
            }
            return outPos; 
        }
    

    最终编辑:
    到目前为止,我已将最佳答案标记为已接受,因为截止日期快到了。由于我花了很长时间才决定发布代码,因此我将继续投票并在可能的情况下回复评论。 如果代码困惑,请道歉:这代表了正在开发中的代码,而不是为了提交而打磨。

    最佳答案

    不是完整的答案,我只是没有时间做您的问题需要的详细基准测试,但希望有用。

    了解你的敌人

    您的目标是 JVM(本质上是 JIT)和底层 CPU/内存子系统的组合。因此,当您进入更积极的优化时,“这在 JVM X 上更快”不太可能在所有情况下都有效。

    如果您的目标市场/应用程序将主要在特定架构上运行,您应该考虑投资于特定于它的工具。
    * 如果您在 x86 上的性能是关键因素,那么英特尔的 VTune非常适合深入了解 jit output analysis你描述。
    * 64 位和 32 位 JIT 之间的差异可能相当大,尤其是在 x86 平台上,调用约定可以更改和 enregistering机会非常不同。

    获得正确的工具

    您可能想要一个采样分析器。针对您的特定需求的检测开销(以及相关联的内联、缓存污染和代码大小膨胀等问题)的开销太大了。英特尔 VTune 分析器实际上可以用于 Java,尽管集成不像其他分析器那么紧密。
    如果您使用的是 sun JVM 并且很高兴只知道最新/最好的版本在做什么,那么 investigate the output of the JIT 可用的选项如果你知道一点组装,那是相当可观的。
    article details some interesting analysis using this functionality

    从其他实现中学习

    The Change history更改历史表明以前的内联汇编实际上适得其反,并且允许编译器完全控制输出(通过代码中的调整而不是汇编中的指令)产生更好的结果。

    一些细节

    由于 LZF 在现代桌面 CPU 上的高效非托管实现中,很大程度上受内存带宽限制(因此它与未优化的 memcpy 的速度相比),因此您需要将代码完全保留在 1 级缓存中。
    因此,任何不能作为常量的静态字段都应放置在同一个类中,因为这些值通常放置在专用于与类相关联的 vtable 和元数据的同一内存区域中。

    需要避免逃逸分析无法捕获的对象分配(仅在 1.6 及更高版本中)。

    c code积极使用循环展开。然而,这在较旧的(1.4 时代)VM 上的性能是 heavily dependant on the mode the JVM is in .显然,后来的 sun jvm 版本在内联和展开方面更加激进,尤其是在服务器模式下。

    JIT 生成的预取指令可以对像这样接近内存限制的代码产生很大的影响。

    “它直接来找我们”

    您的目标正在移动,并将继续移动。再次 Marc Lehmann 之前的经历:

    default HLOG size is now 15 (cpu caches have increased)



    即使是对 jvm 的微小更新也可能涉及 significant compiler changes

    6544668 Don't vecorized array operations that can't be aligned at runtime. 6536652 Implement some superword (SIMD) optimizations 6531696 don't use immediate 16-bits value store to memory on Intel cpus 6468290 Divide and allocate out of eden on a per cpu basis



    上尉明显

    测量,测量,测量。如果您可以让您的库包含(在单独的 dll 中)一个简单且易于执行的基准测试,它会记录相关信息(vm 版本、cpu、操作系统、命令行开关等)并使其易于发送给您,您将增加您的承保范围,最重要的是,您将承保那些关心使用它的人。

    关于java - 如何编写 Java 代码以允许使用 SSE 和边界检查消除(或其他高级优化)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1352422/

    有关java - 如何编写 Java 代码以允许使用 SSE 和边界检查消除(或其他高级优化)?的更多相关文章

    1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

      我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

    2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    3. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    4. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

      类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

    5. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

      很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

    6. ruby - 在 Ruby 中使用匿名模块 - 2

      假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

    7. ruby - 其他文件中的 Rake 任务 - 2

      我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

    8. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

      我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

    9. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

      关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

    10. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

      给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

    随机推荐