multibyte

ruby-on-rails - pdf-writer-1.1.8/lib/pdf/writer.rb :712: invalid multibyte char (US-ASCII)

我正在使用rubyversion1.9.3并且在启动thinserver时出现错误/usr/local/lib/ruby/gems/1.9.1/gems/bundler-1.12.4/lib/bundler/runtime.rb:100:in`require':/usr/local/lib/ruby/gems/1.9.1/gems/pdf-writer-1.1.8/lib/pdf/writer.rb:712:invalidmultibytechar(US-ASCII)(SyntaxError)/usr/local/lib/ruby/gems/1.9.1/gems/pdf-writer-

ruby - 多字节字符是否会干扰正则表达式中的结束行字符？

使用这个正则表达式:regex1=/\z/以下字符串匹配:"hello"=~regex1#=>5"こんにちは"=~regex1#=>5但是使用这些正则表达式:regex2=/#$/?\z/regex3=/\n?\z/他们表现出不同:"hello"=~regex2#=>5"hello"=~regex3#=>5"こんにちは"=~regex2#=>nil"こんにちは"=~regex3#=>nil什么是干扰？字符串编码为UTF-8，操作系统为Linux(即$/为"\n")。多字节字符是否会干扰$/？怎么办？最佳答案你报告的问题肯定是Re

多字 ruby code pre regex encoding multibyte ruby-2.0

ruby 1.9 : Convert byte array to string with multibyte UTF-8 characters

我正试图在Ruby中找到一种方法来获取UTF-8字节数组并将其转换回字符串。在irb(Ruby1.9.2预览版3)中，我可以从UTF-8字符串创建正确的字节数组:ruby-1.9.2-preview3>'Café'.bytes.to_a=>[67,97,102,195,169]但是，我找不到从字节返回数组的方法。我尝试将Array.pack与U*选项一起使用，但这不适用于多字节字符。ruby-1.9.2-preview3>[67,97,102,195,169].pack('U*')=>"CafÃ©"有没有人知道如何将包含多字节字符的UTF-8字节数组转换回字符串？谢谢。

UTF-8 characters section code ruby unicode

ruby 1.9 : how can I properly upcase & downcase multibyte strings?

因此matz决定在ruby1.9.1中将upcase和downcase限制为/[A-Z]/i。ActiveSupport::Multibyte长期以来在ruby1.8.x中通过String#mb_chars进行了很好的i18n大小写调整。但是在ruby1.9.1下试了一下，好像不行。这是我编写的一个简单的测试脚本，以及我得到的输出:$cattest.rb#encoding:UTF-8puts("@#{RUBY_VERSION}"+(__ENCODING__rescue$KCODE).to_s)sd,su="Iñtërnâtiônàlizætiøn","IÑTËRNÂTIÔNÀL

amp multibyte code active_support chars ruby unicode utf-8 internationalization

c++ - 为什么我们从 MultiByte 转换为 WideChar？

我习惯于处理ASCII字符串，但现在使用UNICODE我对某些术语感到非常困惑:什么是多字节字符，什么是widechar有什么不同？多字节是指内存中包含多于一个字节的字符吗和widechar只是一种数据类型来表示吗？为什么我们从MultiByteToWideChar转换和WideCharToMultiByte?如果我声明如下:wchar_t*wcMsg=L"مرحبا";MessageBoxW(0,wcMsg,0,0);如果我定义了UNICODE，它会正确打印消息但是为什么我没有从WideCharToMultiByte在这里转换??我的项目中的字符集有什么区别:_MBCS和UNICOD

amp MultiByte code 多字 br c++windows unicode

c - 是否有关于多字节字符串转换为 unicode wstring 的快速实现？

在我的项目中，我采用Aho-Corasick算法在服务器端做了一些消息过滤模式，服务器得到的消息是多字节字符串。但是经过多次测试发现瓶颈是mulitbytestring和unicodewstring之间的转换。我现在用的是一对mbstowcs_s和wcstombs_s，占了整个模式将近95%的时间成本。另外，我试过MultiByteToWideChar/WideCharToMultiByte，它得到了同样的结果。所以我想知道是否还有其他更有效的方法来完成这项工作？我的项目是用VS2005搭建的，转换后的字符串会包含汉字。非常感谢。最佳答案

多字 unicode section UTF c windows multibyte

php - 检测字符串是否包含至少 2 个字母(任何语言)和至少 2 个单词

我想制作一个函数来检测/验证一个字符串至少有2个单词，并且每个单词至少有2个字母(除了这两个字母，它可以包含任何其他字符{withoutnumbers}，但我不关心哪个和多少)。现在，我不确定我是否应该为此使用正则表达式或者我可以用其他方式做到这一点。如果我需要为它制作正则表达式，我也不知道该怎么做，因为我需要检查所有可用的字母。这是我现在得到的正则表达式[A-Za-z]{2,}(\s[A-Za-z]{2,})验证2个单词和2个字母至少在每个单词中。编辑:重新考虑后，我决定支持大多数语言，因为kr-jp-cn语言与其他语言的工作方式不同。我的主要规则不会让kr-jp-cn字母算作字母，

单词 php code 39 section regex utf-8 multibyte

php - 为什么默认情况下 PHP 字符串函数不是多字节安全的？

为什么在PHP中默认不使用PHP多字节字符串函数(以mb_开头的函数)？最佳答案向后兼容。旧的PHP脚本依赖于非多字节功能。另请参阅:http://www.php.net/manual/en/mbstring.overload.php 关于php-为什么默认情况下PHP字符串函数不是多字节安全的？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/12716064/

多字 php section encoding multibyte

php - 在 PHP 中处理泰语字符

我正在努力让泰语字符和PHP协同工作。这就是我想要做的:但我没有给我$string(ท)的第一个字符，而是得到了一些困惑的输出。然而，显示$string本身工作正常。文件本身当然也是UTF-8。Header中的Content-Type也设置为UTF-8。我根据thissite更改了php.ini中的必要行.utf8_encoding()和utf8_decoding()也没有帮助。也许你们有什么想法？最佳答案在PHP中，当您使用$string[0]访问字符串时，它不会返回第一个字符，而是第一个字节。你应该使用mb_substr反而

泰语 php code section string encoding multibyte thai southeast-asian-languages

PHP mb_substr 划分错误 utf 8

我试图将一个字符串分成两列，每列6行。问题是，如果最后一行包含(Ø,Æ,Å)，即使第一行有空格，它也会跳到下一列。这似乎是编码问题，有人知道可能发生了什么吗？我用来生成列的代码是:$iter=6;$str=$shortd;$count_line=0;$str=$shortd;for($x=0;$x");$text=mb_substr($str,0,$pos+6);$str=mb_substr($str,$pos+6);echo$text;$x++;}?>");$text=mb_substr($str,0,$pos+6);$str=mb_substr($str,$pos+6);echo$

mb_substr substr section str php string unicode substring multibyte

12 3 4