Utf-8_草庐IT

mysql - 带有国家字符的列错误的数据太长

我必须将一些DBS移植到在Windows764bit上运行的独立MySQL版本:5.0.18并且我遇到了一个问题坚持。如果我尝试将任何国家/Unicode字符插入到varchar中，我会收到错误消息:ERROR1406(22001):Datatoolongforcolumn'nam'atrow1这里是MCVESQL脚本:SETNAMESutf8;DROPTABLEIFEXISTS`tab`;CREATETABLE`tab`(`ix`INTdefault0,`nam`VARCHAR(1024)default'')DEFAULTCHARSET=utf8;INSERTINTO`tab`VAL

python - 为什么 rst2html5 会搞乱编码？

我有一个Python程序，它是用PyCharm和SublimeText确认的UTF-8编写的。它打印出井号字符，£(0xC20xA3)，到重组文本:用PyCharm和SublimeText打开重组文本文件，它看起来不错，并且都声称它是UTF-8。当我使用rst2html5从此文件生成HTML时，问题就来了,使用此命令:rst2html5--input-encoding=utf-8--output-encoding=utf-8foo.rst>foo.htmlHTML声称是UTF-8，通过，但是井号字符，£,现在显示为┬ú.在SublimeTex中以UTF-8格式打开它也会显示┬ú而不是£

c - 如何最好地处理 Windows 的 16 位 wchar_t 丑陋？

我正在编写一个与mingw一起使用的包装层，它为应用程序提供了一个虚拟的UTF-8环境。处理文件名的函数是从UTF-8转换并调用相应的“_w”函数等的包装器。我遇到的最大问题是Windows的wchar_t是16位的。对于文件系统操作，这没什么大不了的。我可以在UTF-8和UTF-16之间来回转换，一切正常。但是标准的C多字节/宽字符转换API不允许多wchar_t字符。可能的解决方案:提供CESU-8环境而不是UTF-8。我真的不喜欢这个。走捷径，只支持BMP。将长度为4的UTF-8序列视为无效。扩展包装器以将mingw的wchar_t替换为typedefint32_twchar_t

windows - 检查 UTF8 编码字符串的有效性

我们需要编写一个函数来检查字符串是否为有效的UTF8。客户端发送数据(应该是UTF8)，在服务器端，我们要确认发送的数据是否真的是UTF8。客户端是BREW(移动平台)应用程序，服务器是在windows桌面上编写的(windows的API)。Windows中有没有API可以帮助确定UTF8字符串的有效性？我见过类似MultiByteToWideChar()的东西，它将UTF8转换为宽字符(2个字节)，如果我们使用这个函数但它失败了，这意味着传递的字符串没有UTF8字符/字符。最佳答案您可以使用MultiByteToWideCha

c++ - Windows:UTF-16BE 到 UTF-8

谁能告诉我强制Windows处理bigendianUTF-16所需的secret无证黑魔法咒语？只需简单调用WideCharToMultiByte()即可将UTF-16LE转换为UTF-8。但是我如何使它适用于UTF-16BE？我搜索了又搜索又搜索，但找不到任何关于此的信息。(我不可能是地球上第一个需要这样做的人......)显然，大端数字不是Intel平台原生的，但Windows肯定有一个API来处理这个问题。最佳答案 ObviouslybigendiannumbersarenotnativetotheIntelplatform

windows - 带有特殊字符的 Lazarus ListBox SaveToFile 文件名

我正在使用Lazarus(1.5)fpc(3.1.1)编写一个针对WindowsXP/7/10的应用程序。我的应用程序以用户选择的某些路径在文件系统中读取和写入文件。如果路径或文件名包含特殊字符(如àèé)，例如:C:\Users\DeAndrè\out.txt应用程序抛出异常:'EFCreateError'Unabletocreatefile"C:\Users\DeAndrè\out.txt".可以通过使用单一表单编写一个简单的应用程序来重现此问题:拖入窗体一个TListBox(ListBox1)，两个TButton(Button1和Button2)和一个TSaveDialog(Sa

windows - haskell ，WinX : UTF8 stdin causes problems

我使用windows10和powershell，Haskell似乎对标准输入的UTF编码有一些问题:>chcp65001>stackghci...>putStrLn"자"자>xx"\EOT">interactid자╝ 最佳答案我怀疑GHC在latin1编码(或类似编码)上运行，而putStrLn"자"只是偶然工作。您可以按如下方式检查:>importSystem.IOSystem.IO>hGetEncodingstdin如果它以UTF-8回复，我的假设是错误的。但是，如果它使用UTF-8以外的内容进行回复，您可以使用hSetEnc

windows - 带有 Ada 的 Windows 上的 UTF-8

据我了解，默认情况下，Character是Latin_1，Wide_Character是UCS-2，Wide_Wide_Character是UCS-4，但是GNAT可以指定pragmaWide_Character_Encoding(UTF8);或-gnatW8并且这些字符及其字符串将改为UTF-8编码。至少在Linux和FreeBSD上，结果符合我的预期。但在Windows上，结果很奇怪。对于Wide或Wide_Wide变体，一旦字符超出ASCII集，我就会遇到乱码。我相信这被一些人称为emojibake。所以我认为这是一个代码页问题。毕竟，Windows中的默认代码页以及控制台主机加

windows - 为什么通过管道传递我的命令 | % {echo "$_"} 让 UTF-8 工作？

在WindowsPowerShell中，我使用了chcp65001并选择了一种包含我想要的所有字符的字体。如果我使用typefile.u8显示UTF-8文件，它工作正常并且我得到了所需的字符。如果我运行myprogram.exe然后我在第一个非ASCII字符之后没有输出(如果在chcp65001之前运行这个产生mojibake)。如果我运行myprogram.exe>test.u8然后typetest.u8有效，我会得到所需的输出。所以我推断我可以使用myprogram.exe|绕过该文件(使用我有限的PowerShell知识!)%{echo"$_"}并且有效。因此，当C++运行时直接

php - 如何通过 php 读取 Windows unicode 文件并将它们存储在 utf-8 数据库中？

当您导出注册表项时，Windows注册表编辑器会创建WindowsUnicode(UTF-16-le)文件。我正在尝试找出使用PHP将这些文件导入mysql数据库的最佳方法，以便以后可以再次将它们下载为unicode文件？当我将它们导入数据库时，我使用file_get_contents()并将它们存储到utf-8列中。当我导出它们时，我首先使用mb_convert_encoding($row['reg'],'UTF-16')并发出header以下载文件。但是，当我在Windows中打开它们时，内容只是乱码。关于处理这个问题的正确方法有什么想法吗？最佳答