php - 我数据库中的 "UTF8"数据真的编码正确吗？

coder 2023-10-10 原文

我有一个带有 MYSQL 数据库的 PHP 应用程序，它“应该”包含 UTF8 编码的数据。关于 unicode 字符，我的应用程序似乎从头到尾都能正常工作。如果有人将“Strömgren”提交到我的数据库(通过 HTML 表单)，当我取回数据时我会看到“Strömgren”，等等。

我的数据库表都是 UTF8，我的 html 页面和表单都是 charset=utf-8。

我最近注意到，在我的应用程序的一部分中，我的 unicode 字符似乎是双重编码的。当我显示应该是 Strömgren 时，我看到了 Strömgren -- Str\xc3\xb6mgren vs Str\xc3\x83\xc2\xb6mgren。如果我对错误的字符串进行 utf8_decode，它看起来又是正确的。

我假设这是“双重编码”。

我发现显示双重编码数据的应用程序部分使用不同的代码来建立其数据库连接，并且该代码正在调用:

$db->set_charset("utf8")

我本来打算为我的所有数据库连接都这样做，但不知何故最终只在一个地方这样做。因此，几乎我所有的应用程序都使用没有 set_charset 命令的连接，并且 Strömgren 总是看起来正确，并且唯一的代码确实有 set_charset("utf8") (并且只从数据库中读取，从不写入它), 显示不正确。

我不确定这是怎么回事，但我怀疑我数据库中的数据并不是真正以 UTF8 编码存储的？也许当我发送 Strömgren(没有 set_charset("utf8"))时，它认为它正在接收 latin1(或其他)，当我读回它时，我得到了 latin1，但是因为我的 html 页面有“charset=utf -8” 它被“错误显示”为 Strömgren，而实际上数据库认为它正在向我发送 Strömgren。 (我可能没有正确或清楚地说，但我希望它能被理解。)

我有两个问题:

首先，我的想法是否有道理，或者我完全没有根据？

其次，确定数据库中的数据是否编码错误(即数据库实际上是否包含 Strömgren 或 Strömgren)的最佳方法是什么？

最佳答案

查看实际存储内容的一种方法是使用 HEX 函数。 (这是 MySQL 最接近 Oracle 风格的 DUMP() 函数。

这是一个演示，展示了如何使用 HEX 函数返回存储的内容...

  CREATE TABLE foo 
  ( foo_lat VARCHAR(10) CHARSET latin1
  , foo_utf VARCHAR(10) CHARSET utf8
  );

  INSERT INTO foo (foo_lat, foo_utf) VALUES
  ( UNHEX('6dc3b1c3b6'), UNHEX('6dc3b1c3b6') );

  SELECT foo_lat
       , foo_utf
       , HEX(foo_lat)
       , HEX(foo_utf)
    FROM foo ;

foo_lat    foo_utf  HEX(foo_lat)  HEX(foo_utf)  
---------  -------  ------------  --------------
mÃ±Ã¶      mñö      6DC3B1C3B6    6DC3B1C3B6

你的思路似乎很清晰。

set_charset 函数是使用 msyqli 接口(interface)指定客户端字符集的推荐方法。

在你运行之前我有点好奇字符集是什么。

  $db->character_set_name();

我也很好奇...从相同的连接，以下查询返回什么。

 SELECT @@session.character_set_client
      , @@session.character_set_connection
      , @@session.character_set_results
      , @@session.character_set_server
      , @@global.character_set_client
      , @@global.character_set_connection
      , @@global.character_set_results
      , @@global.character_set_system

...从“正确”显示字符的示例代码的副本，以及“错误地”显示字符的示例代码的副本，在和之前执行 设置字符集。

如果你在任何地方看到 latin1，那可能是个问题。

如果 latin1 列中存储了 UTF-8 编码值，那就有问题了。当您使用 utf8 字符集将这些值从数据库中提取出来时，这些值将得到“双重编码”。

因此，验证列上的字符集是否为 utf8。

警告:如果您在 latin 列中存储了 UTF-8 值，请不要尝试通过转换列来解决问题到 utf8，这将使存储值的双重编码使问题变得更糟。

如果您想尝试一下，请在单独的 测试数据库上进行；现在可能是测试将您的 mysqldump 备份恢复到另一台测试机器上的另一个测试 MySQL 实例是否正常工作的好时机。如果 mysqldump 生成的 .sql 文件出现错误，您希望现在发现它，而不是等到您实际需要进行恢复时才发现。)

注意:重要的是列定义中的字符集。表上的设置只是一个默认值，当它没有在列上指定时使用。数据库级别的设置只是一个默认值，在创建表时未指定字符集时使用。

也就是说，改变数据库的字符集不会影响现有的表和列。它将对任何未指定字符集的 CREATE TABLE 产生影响。

SHOW CREATE TABLE foo 是查看表和列的实际字符集的便捷方式。

关于php - 我数据库中的 "UTF8"数据真的编码正确吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30813060/

amp 34 code character mgren php mysql utf-8

有关php - 我数据库中的 "UTF8"数据真的编码正确吗？的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身，new.html.erb，有代码:当我运行rspec时，它失败了:1)messages/new.html.erbshou
ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2
为了将Cucumber用于命令行脚本，我按照提供的说明安装了arubagem。它在我的Gemfile中，我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作，我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了，但失败的原因是错误的:@announceScenario:Testingcucumber/ar
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

php - 我数据库中的 "UTF8"数据真的编码正确吗？

有关php - 我数据库中的 "UTF8"数据真的编码正确吗？的更多相关文章

随机推荐