php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常

coder 2024-01-01 原文

我们正在处理一个以前从未发生过的 Joyent Solaris 服务器中的奇怪错误(不会发生在本地主机或其他两个具有相同 php 配置的 Solaris 服务器中)。其实我也不确定是要看php还是solaris，是软件问题还是硬件问题...

我只是想发布这个，以防有人能为我们指明正确的方向。

所以，问题似乎出在 var_export() 处理奇怪的字符时。在 CLI 中执行此操作，我们在本地主机和两台服务器中获得了预期的结果，但在第三台服务器中没有。所有这些都配置为使用 utf-8。

$ php -r "echo var_export('ñu', true);"

在较旧的服务器和本地主机中提供此(预期):

'ñu'

但在服务器中我们遇到了问题 (PHP 版本 => 5.3.6)，它会在遇到“不常见”字符时添加 \0 空字符: è, á, ç, ... 随你便。

'' . "\0" . '' . "\0" . 'u'

关于应该看哪里的任何想法？提前致谢。

更多信息:

PHP 版本 5.3.6。
setlocale() 没有解决任何问题。
default_charset 是 php.ini 中的 UTF-8。
mbstring.internal_encoding 在 php.ini 中设置为 UTF-8。
mbstring.func_overload = 0。
这在 CLI(示例)和 Web 应用程序(php-fpm + nginx)中都会发生。
iconv编码也是UTF-8
所有文件 utf-8 编码。

system('locale') 返回:

LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_ALL=

到目前为止完成的一些测试(CLI):

正常行为:

$ php -r "echo bin2hex('ñu');" => 'c3b175'
$ php -r "echo mb_strtoupper('ñu');" => 'ÑU'
$ php -r "echo serialize(\"\\xC3\\xB1\");" => 's:2:"ñ";'
$ php -r "echo bin2hex(addcslashes(b\"\\xC3\\xB1\", \"'\\\\\"));" => 'c3b1'
$ php -r "echo ucfirst('iñu');" => 'Iñu'

不正常:

$ php -r "echo strtoupper('ñu');" => 'U' 
$ php -r "echo ucfirst('ñu');" => '?u' 
$ php -r "echo ucfirst(b\"\\xC3\\xB1u\");" => '?u' 
$ php -r "echo bin2hex(ucfirst('ñu'));" => '00b175'
$ php -r "echo bin2hex(var_export('ñ', 1));" => '2727202e20225c3022202e202727202e20225c3022202e202727'
$ php -r "echo bin2hex(var_export(b\"\\xC3\\xB1\", 1));" => '2727202e20225c3022202e202727202e20225c3022202e202727'

所以问题似乎出在 var_export() 和 "string functions that use the current locale but operate byte-by-byte" ^Docs 中(查看@hakre 的回答)。

最佳答案

我建议您验证遇到问题的 PHP 二进制文件。检查编译器标志及其使用的库。

通常 PHP 在内部使用二进制字符串，这意味着像 ucfirst 这样的函数是逐字节工作的，并且只支持您的语言环境支持的内容(如果配置了的话)。参见 Details of the String Type^Docs。

$ php -r "echo ucfirst('ñu');"

?u

这是有道理的，ñ是

LATIN SMALL LETTER N WITH TILDE (U+00F1)    UTF8: \xC3\xB1

您配置了一些区域设置，使 PHP 将 \xC3 更改为其他内容，破坏了 UTF-8 字节序列并使您的 shell 显示 � replacement character^Wikipedia。

我建议如果你真的想分析问题，你应该从 hexdumps 开始，它位于 shell 和其他地方的显示方式旁边。知道你可以显式定义二进制字符串 b"string" (这是向前兼容，也许你已经启用了一些编译标志并且你正在使用 unicode 实验？)，你也可以按字面意思编写字符串，这里是 UTF-8 的十六进制:

 $ php -r "echo ucfirst(b\"\\xC3\\xB1u\");"

还有很多设置可以发挥作用，我开始在an answer to Preparing PHP application to use with UTF-8中列出一些要点。

多字节 ucfirst 变体示例:

/**
 * multibyte ucfirst
 *
 * @param string $str
 * @param string|null $encoding (optional)
 * @return string
 */
function mb_ucfirst($str, $encoding = NULL)
{
    $first = mb_substr($str, 0, 1, $encoding);
    $rest = mb_substr($str, 1, strlen($str), $encoding);
    return mb_strtoupper($first, $encoding) . $rest;
}

参见 mb_strtoupper^Docs 以及 mb_convert_case^Docs。

关于php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9741240/

UTF-8 characters code 34 39 php localization joyent

有关php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常的更多相关文章

ruby - 怎么来的(a_method || :other) returns :other only when assigning to a var called a_method? - 2
给定以下方法:defsome_method:valueend以下语句按我的预期工作:some_method||:other#=>:valuex=some_method||:other#=>:value但是下面语句的行为让我感到困惑:some_method=some_method||:other#=>:other它按预期创建了一个名为some_method的局部变量，随后对some_method的调用返回该局部变量的值。但为什么它分配:other而不是:value呢？我知道这可能不是一件明智的事情，并且可以看出它可能有多么模棱两可，但我认为应该在考虑作业之前评估作业的右侧...我已经在R
ruby - Ruby 是否使用 $stdout 来写入 puts 和 return 的输出？ - 2
我想知道Ruby用来在命令行打印这些东西的输出流:irb(main):001:0>a="test"=>"test"irb(main):002:0>putsatest=>nilirb(main):003:0>a=>"test"$stdout是否用于irb(main):002:0>和irb(main):003:0>？而且，在这两次调用之间，$stdout的值是否有任何变化？另外，有人能告诉我打印/写入这些内容的Ruby源代码吗？最佳答案是的。而且很容易向自己测试/证明。在命令行试试这个:ruby-e'puts"foo"'>test.
ruby - 为什么 return 关键字会导致我的 'if block' 出现问题？ - 2
下面的代码工作正常:person={:a=>:A,:b=>:B,:c=>:C}berson={:a=>:A1,:b=>:B1,:c=>:C1}kerson=person.merge(berson)do|key,oldv,newv|ifkey==:aoldvelsifkey==:bnewvelsekeyendendputskerson.inspect但是如果我在“ifblock”中添加return，我会得到一个错误:person={:a=>:A,:b=>:B,:c=>:C}berson={:a=>:A1,:b=>:B1,:c=>:C1}kerson=person.merge(berson
ruby-on-rails - 在 Ruby 或 Rails 中，hash.merge({ :order => 'asc' }) can return a new hash with a new key. 什么可以返回带有已删除键的新散列？ - 2
在Ruby(或Rails)中，我们可以做到new_params=params.merge({:order=>'asc'})现在new_params是一个带有添加键:order的散列。但是是否有一行可以返回带有已删除key的散列？线路new_params=params.delete(:order)不会工作，因为delete方法返回值，仅此而已。我们必须分3步完成吗？tmp_params=paramstmp_params.delete(:order)returntmp_params有没有更好的方法？因为我想做一个new_params=(params[:order].blank?||para
ruby-on-rails - Rails 导入 CSV 错误 : invalid byte sequence in UTF-8 - 2
尝试在我的Rails应用程序中导入CSV文件时，出现错误UTF-8中的无效字节序列。一切正常，直到我添加了一个gsub方法来将其中一个CSV列与我的数据库中的一个字段进行比较。当我导入CSV文件时，我想检查每一行的地址是否包含在特定客户端的不同地址数组中。我有一个带有alt_addresses属性的客户端模型，其中包含客户端地址的几种不同可能格式。然后我有一个引用模型(如果您熟悉本地SEO，您就会知道这个术语)。引用模型没有地址字段，但它有一个nap_correct?字段(NAP代表“姓名”、“地址”、“电话号码”)。如果CSV行的名称、地址和电话号码与我在该客户的数据库中拥有的相同，
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它
ruby - 为什么 `include` 在顶层表现不同？ - 2
我使用以下钩子(Hook)来检查在执行includeFoo时执行包含的模块:moduleFoodefself.included(includer)putsincluderendendModule#include在模块中(通常使用它的地方)与在顶层的行为不同。在模块内部，self是模块，它是Module的一个实例.当我调用include，执行包含的模块是whatself是:moduleBarputsself#=>BarincludeFoo#=>includer:Barend在ruby脚本的顶层，self是main，它是Object的一个实例.当我调用include在顶层，包含的模块是
ruby-on-rails - 如何防止错误 "code converter not found (UTF-8)"？ - 2
我在生产环境(CentOS5.6)中遇到此错误，但在开发环境(Ubuntu11.04)中运行良好。在这两种环境中，该应用程序都使用Ruby1.9.3和Rails3.0.9，并由passenger和nginx提供服务。我的Mechanizegem版本是2.3。未找到代码转换器(UTF-8)此代码的最后一行触发它:mech=Mechanize.newpage=mech.get("http://myurl.com/login.php?login_name=a&password=b")form=page.form_with(:name=>"loginForm")form.field_with(
Ruby:模糊测试所有 unicode 字符(UTF8/编码/字符串操作) - 2
我无法遍历整个unicode字符范围。我到处找...我正在构建一个模糊器，并希望将所有unicode字符(一次一个)嵌入到一个url中。例如:http://www.example.com?a=\uff1c我知道有一些内置工具，但我需要更多的灵active。如果我能像下面那样做:"\u"+"ff1c"那就太好了。这是我得到的最接近的:char="\u0000"...#withiniterationchar.succ!...但在字符"\u0039"之后，即数字9，我将得到"10"而不是":" 最佳答案您可以使用pack将数字转换为UT
ruby ， `match' : invalid byte sequence in UTF-8 - 2
我对UTF-8编码有一些问题。我在这里阅读了一些帖子，但它仍然无法正常工作。这是我的代码:#!/bin/envruby#encoding:utf-8defdeterminefile=File.open("/home/lala.txt")file.eachdo|line|puts(line)type=line.match(/DOG/)puts('aaaaa')iftype!=nilputs(type[0])breakendendend这是我文件的前3行:;?lalalalal60000065535-1362490443-0000006334-0000018467-0000000041en

php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常

有关php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常的更多相关文章

随机推荐