soft_unicode

python - Python 2.7 中平台特定的 Unicode 语义

Ubuntu11.10:$pythonPython2.7.2+(default,Oct42011,20:03:08)[GCC4.6.1]onlinux2Type"help","copyright","credits"or"license"formoreinformation.>>>x=u'\U0001f44d'>>>len(x)1>>>ord(x[0])128077Windows7:Python2.7.2(default,Jun122011,15:08:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or

c - 是否有关于多字节字符串转换为 unicode wstring 的快速实现？

在我的项目中，我采用Aho-Corasick算法在服务器端做了一些消息过滤模式，服务器得到的消息是多字节字符串。但是经过多次测试发现瓶颈是mulitbytestring和unicodewstring之间的转换。我现在用的是一对mbstowcs_s和wcstombs_s，占了整个模式将近95%的时间成本。另外，我试过MultiByteToWideChar/WideCharToMultiByte，它得到了同样的结果。所以我想知道是否还有其他更有效的方法来完成这项工作？我的项目是用VS2005搭建的，转换后的字符串会包含汉字。非常感谢。最佳答案

多字 unicode section UTF c windows multibyte

windows - 如何在 Windows 中使用 subversion 操作以 unicode 命名的文件？

假设我使用代码页为950(Big5，繁体中文)的Windows7，我想操作一些混合了unicode名称的文件，例如简体中文文件.txt(GB2312，简体中文)svn.如果我使用chcp950，当我运行时:svnadd.\简体中文文件.txt我得到一个错误:svn:warning:W155010:'D:\path\to\work-dir\?体中文文件.txt'notfoundsvn:E200009:Couldnotaddalltargetsbecausesometargetsdon'texistsvn:E200009:Illegaltargetfortherequestedoperat

何在 subversion code section svn windows unicode

c++ - 如何在 C/C++ 中的 Windows 下对两个 Unicode 字符或字符串进行不区分大小写的比较？

我正在寻找一种在Windows(C/C++，而非.NET)下对两个Unicode字符(char32)进行不敏感比较的方法。我知道该解决方案应该是区域设置感知的。我想要一个不需要额外的第三方库的解决方案。最佳答案我的第一个想法是你应该查找CompareStringEx及其参数LOCALE_INVARIANT和NORM_IGNORECASE。关于c++-如何在C/C++中的Windows下对两个Unicode字符或字符串进行不区分大小写的比较？，我们在StackOverflow上找到一

amp 43 section code stackoverflow c++windows unicode

python - 如何让 IDLE 接受 Unicode 字符的粘贴？

当我在IDLE中交互式工作时，我常常想将Unicode字符串粘贴到IDLE窗口中。它似乎粘贴正确，但立即生成错误。在输出中显示相同的字符没有问题。>>>c=u'ĉ'Unsupportedcharactersininput>>>printu'\u0109'ĉ我怀疑输入窗口和大多数Windows程序一样，在内部使用UTF-16，并且可以毫无问题地处理完整的Unicode集；问题是IDLE坚持将所有输入强制转换为默认的mbcs代码页，不在该页中的任何内容都会被拒绝。有什么方法可以配置或哄骗IDLE接受完整的Unicode字符集作为输入吗？Python3.2可以更好地处理这个问题，并且可以毫不

Unicode python code section IOBinding windows python-2.7 python-idle

c - 如何处理跨平台 C 库中的 Unicode 路径？

我正在为C语言库做贡献。它有一个函数，该函数采用char*参数作为文件路径名。作者大多是UNIX开发人员，这在char*主要表示UTF-8的unix上运行良好。(至少inGCC，字符集可配置，默认为UTF-8。)但是，char*在Windows上表示ANSI，这意味着目前无法在Windows上使用此库的Unicode路径名，而应该使用wchar_t*并且仅支持UTF-16。(quicksearchonStackOverflow显示ANSIWindowsAPI函数不能与UTF-8一起使用。)问题是，处理这个问题的正确方法是什么？我们想出了各种方法来做到这一点，但我们都不是Windows专

跨平台何处 code Windows UTF-8 c unicode cross-platform libraries

windows - 比较和排序 Unicode 文件名

为Unicode实用程序和界面使用Delphi2007和TMS组件(不能选择升级到Delphi2009以获得Unicode支持)。我将文件名列表存储在字符串列表(TTntStringList)中。它已排序且不区分大小写。默认排序例程使用CompareStringW(LOCALE_USER_DEFAULT,NORM_IGNORECASE,...)来比较字符串(对于Find也是如此)。然而，这是一个问题，因为这会将dummyss.txt等同于dummyß.txt(例如)，但在NTFS上，将这两个文件放在同一文件夹中是完全合法的，即它们被视为不同的名称。我的理解是，在Vista和更新版本上，

windows Unicode section CompareStringOrdinal noreferrer delphi filenames tstringlist

c++ - 内部和外部编码与 Unicode

由于这个问题的评论中有几位发帖人散布了很多错误信息:C++ABIissueslist我创建这个是为了澄清。用于C风格字符串的编码是什么？Linux是否使用UTF-8编码字符串？外部编码与窄字符串和宽字符串使用的编码有何关系？最佳答案实现已定义。甚至应用程序定义；标准并没有真正对应用程序的用途施加任何限制他们，并期望很多行为取决于语言环境。全部真正实现定义的是字符串中使用的编码文字。在什么意义上。大多数操作系统会忽略大部分编码；你会如果'\0'不是空字节就会有问题，但即使是EBCDIC也能满足要求。否则，根据上下文，会有一些可能重

amp Unicode code section UTF-8 c++c windows posix

windows - Windows 中使用的默认 unicode 字符编码是什么？

Windows中使用的默认unicode字符编码是什么？特别是在Windows编程(Win32和WinRT)中。当我在WinAPI中编程时，“char”映射到1字节字符存储，“wchar_t”映射到2字节字符存储。如果UTF-16以4个字节对超过65536的所有字符进行编码，那么Windows如何将这些字符映射为“wchar_t”数据类型？我知道我的问题不够清楚，但我希望你能理解我的一些担忧。非常感谢! 最佳答案 Windows使用UTF-16LE对于所有Unicode(除了MultiByteToWideChar()和WideCha

windows section code winapi unicode encoding windows-runtime

windows - 批处理文件中的 Unicode 字符

我需要为这个批处理文件使用字符映射中的大量字符。这是我正在使用的批处理文件的一部分:"C:\v2.vbs""C:\file.txt"火a有没有办法让cmd识别批处理文件中的火或任何其他非键盘字符？这个命令似乎只有在我不使用特殊字符时才有效。我还能使用什么来运行批处理文件并完成此操作？最佳答案如果这样"C:\v2.vbs""C:\file.txt"a表示“使用3个参数启动v2.vbs”，然后您可以将第二个参数编码为“&Habcd”(需要引号)并使用sC=ChrW(WScript.Arguments(1))v2.vbs.

windows Unicode section code 34 batch-file vbscript cmd

15 16 171819 20 21