草庐IT

c++ - C/C++中的gettext国际化系统的性能开销

coder 2024-02-04 原文

我只是阅读了http://www.gnu.org/software/gettext/manual/gettext.html的文档,而根本没有关于性能开销的讨论。在互联网上,我只发现了针对其他语言(PHP和Java)的性能讨论,而没有针对C/C++的性能讨论。

因此,我的问题是:

  • 使用gettext的程序启动过程中的性能开销是什么(加载共享库?翻译如何加载到内存中?所有翻译是在启动还是按需加载的吗?)
  • 该程序正常运行期间的性能损失是多少? (即需要翻译时)程序增加的内存占用量是多少?如何组织内存?在程序空闲时将程序的某些部分交换到磁盘上是否有更高的危险/可能性? (如果翻译与程序的其余部分存储在内存中非常不同的部分,那么据我所知,与该程序的非国际化版本相比,页面错误的可能性更高)
  • 在“C”语言环境下运行的程序是否也会遭受这些性能损失?

  • 非常感谢。

    最佳答案

    鉴于此方法的替代方案是拥有大量构建,每个构建中都包含以下内容:

    int main()
    {
        printf(
    #ifdef SWEDISH
               "Hej världen\n"
    #elsif ENGLISH
               "Hello, World\n"
    #elsif PORTUGUESE
               "Olá, Mundo\n"
    #else  
       #error Language not specified. 
    #endif
        );
        return 0l;
    }
    

    相反,我们得到:
    int main()
    {
       printf(gettext("Hello, World\n")); 
    }
    

    易于阅读和理解。

    我不知道gettext实现的确切结构,但是我希望它一旦加载便是一个哈希表。可能是二叉树,但散列表似乎更明智。

    至于确切的开销,很难在上面加上数字-尤其是,正如您所说,如果将某些内容交换到磁盘上,并且磁盘已停止,则需要3-4秒才能使磁盘达到最高速度。那么如何量化呢?是的,如果系统一直在忙于占用大量内存,那么gettext所需的页面可能会换出。

    仅当消息文件很大时,加载消息文件才需要很大的开销,但是,如果磁盘没有旋转并且文件没有被缓存,则加载消息文件的开销将为几秒钟。同样,如何量化。文件的大小显然与翻译的(或本地语言)消息的实际大小成正比。

    关于第二点:

    据我所知,在Linux和Windows中,页面都是根据“最近最少使用”(或其他使用情况统计信息)交换出来的,这与它们所在的位置无关。显然,翻译后的消息与实际代码位于不同的位置-源文件中没有15种不同翻译的列表,因此这些翻译在运行时加载,并且位于与代码本身不同的位置。但是,其开销类似于以下两者之间的开销差异:
    static const char *msg = "Hello, World\n";
    


    static const char *msg = strdup("Hello, World\n"); 
    

    考虑到文本字符串通常总是放在程序的二进制文件中,因此我认为它们与执行代码的“近距离”与堆中某个位置的动态分配内存没有明显不同。如果您经常调用gettext函数,则该内存将保持为“当前”状态,而不被换出。如果一段时间没有调用gettext,它可能会被换出。但这适用于“最近没有使用存储在可执行文件中的字符串,因此它们被换出了”。

    3)我认为英语(或“未选择任何语言”)与任何其他语言的变体完全一样。

    我需要进一步挖掘,首先需要早餐...

    非常不科学:
    #include <libintl.h>
    #include <cstdio>
    #include <cstring>
    
    static __inline__ unsigned long long rdtsc(void)
    {
        unsigned hi, lo;
        __asm__ __volatile__ ("rdtsc" : "=a"(lo), "=d"(hi));
        return ( (unsigned long long)lo)|( ((unsigned long long)hi)<<32 );
    }
    
    
    int main()
    {
        char str[10000] = {};
        char *s = str;
        unsigned long long time;
    
        for(int i = 0; i < 10; i++)
        {
        time = rdtsc();
        s += sprintf(s, "Hello, World %d", i);
        time = rdtsc() - time;
        printf("Time =%lld\n", time);
        }
        printf("s = %s\n", str);
        s = str;
    
        strcpy(s, "");
        for(int i = 0; i < 10; i++)
        {
        time = rdtsc();
        s += sprintf(s, gettext("Hello, World %d"), i);
        time = rdtsc() - time;
        printf("Time =%lld\n", time);
        }
        printf("s = %s\n", str);
    }
    

    得到以下结果:
    $ g++ -Wall -O2 intl.cpp
    $ ./a.out
    Time =138647
    Time =9528
    Time =6710
    Time =5537
    Time =5785
    Time =5427
    Time =5406
    Time =5453
    Time =5644
    Time =5431
    s = Hello, World 0Hello, World 1Hello, World 2Hello, World 3Hello, World 4Hello, World 5Hello, World 6Hello, World 7Hello, World 8Hello, World 9
    Time =85965
    Time =11929
    Time =10123
    Time =10226
    Time =10628
    Time =9613
    Time =9515
    Time =9336
    Time =9440
    Time =9095
    s = Hello, World 0Hello, World 1Hello, World 2Hello, World 3Hello, World 4Hello, World 5Hello, World 6Hello, World 7Hello, World 8Hello, World 9
    
    dcigettext.c中的代码混合使用二进制搜索(在平面字符串数组中)和将字符串哈希为PJW哈希的哈希函数(请参阅:http://www.cs.hmc.edu/~geoff/classes/hmc.cs070.200101/homework10/hashfuncs.html)。

    因此,一旦应用程序启动,开销似乎就在“仅可察觉的”范围内(在计算时钟周期时),但并不是很大。

    在两种情况下,运行第一个sprintf所需的确切时间有所不同,因此我不会说“使用gettext”使sprintf在第一次调用时更快-这次运行只是“运气不好”(我还有其他一些运气)代码的变体,并且在第一次调用sprintf时,它们的差异很大,而在以后的调用中,差异很小)。可能需要一些额外的时间(在某些地方进行设置(可能是缓存[printf导致缓存被其他垃圾覆盖的可能性],分支预测等),...

    现在,这显然不能回答您关于分页等问题。而且,我也没有尝试对“Hello,World”消息进行瑞典语,葡萄牙语或德语的翻译。我仍然相信它不是很大,除非您确实确实在每秒运行一个应用程序的实例化数百次,并且该应用程序除了做一些简单的计算后在屏幕上显示一条消息外,不做其他任何事情,当然,这可能很重要。

    找出有什么不同的唯一真实方法是使用#define _(x) x而不是#define _(x) gettext(x)编译相同的应用程序,并查看是否注意到任何区别。

    我仍然认为“分页”是一个红色的鲱鱼。如果计算机承受高内存压力,那么无论如何(如果我编写一段分配16GB [我的计算机中有16GB RAM]的代码,除了键盘本身,几乎所有东西都将运行缓慢)。可以使Num-lock LED闪烁),并且鼠标指针本身(可以在屏幕上四处移动鼠标指针)无响应)。

    关于c++ - C/C++中的gettext国际化系统的性能开销,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18268608/

    有关c++ - C/C++中的gettext国际化系统的性能开销的更多相关文章

    1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    2. ruby - 其他文件中的 Rake 任务 - 2

      我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

    3. ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2

      作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代

    4. ruby-on-rails - Rails 3 中的多个路由文件 - 2

      Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

    5. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

      我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

    6. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

      我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

    7. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

      我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

    8. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

      刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

    9. ruby-on-rails - form_for 中不在模型中的自定义字段 - 2

      我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢

    10. ruby - rspec 需要 .rspec 文件中的 spec_helper - 2

      我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只

    随机推荐