草庐IT

utf8_unicode_cs

全部标签

c++ - 将 unicode(带 BOM)字符串转换为 ASCII std::string

我有一个带有初始BOM的unicode字符串(一系列字节)(它通常是UTF-16little-endian)我需要将其转换为ASCIIstd::string。我尝试使用thissolution但它不适用于visualstudio2015.我怎样才能转换那一系列的字节?目标系统将是Windows。 最佳答案 这应该适用于visualstudio。此函数永远不应内联,因为它会在堆栈上分配临时可变大小的缓冲区。std::stringtoMultibyte(constwchar_t*src,UINTcodepage=CP_ACP){intw

c# - 使用C#创建MS-DOS txt文件使用什么编码(UTF8Encoding vs Encoding)

我正在尝试为遗留系统创建一个平面文件,他们要求数据以MSDOS.txt文件(文本文档-MS-DOS格式CP_OEM)的TextEncoding形式呈现。我对在C#(.net4.0框架)中使用UTF8Encoding类生成的文件感到有点困惑,我认为它在默认txt文件(编码:CP_ACP)中生成一个文件。我认为编码名称CP_ACP、Winodows和ANSI指的是同一事物,Windows默认是ANSI,它将省略任何unicode字符信息。如果我使用C#库中的UTF8Encoding类来创建文本文件(如下所示),它会是MSDOStxt文件格式吗?byte[]title=newUTF8Enco

windows - 将终端区域设置永久设置为 C.UTF8

当我在Git的终端sh.exe中使用locale时(在PhpStormIDE中激活),会出现:$localeLANG=LC_CTYPE="C"LC_NUMERIC="C"LC_TIME="C"LC_COLLATE="C"LC_MONETARY="C"LC_MESSAGES="C"LC_ALL=C而且我不能使用任何字符,例如±、ę等。使用exportLC_ALL=C.UTF8后:$localeLANG=LC_CTYPE="C.UTF8"LC_NUMERIC="C.UTF8"LC_TIME="C.UTF8"LC_COLLATE="C.UTF8"LC_MONETARY="C.UTF8"LC_

python - 如何将 unicode 打印到终端和文件重定向

我阅读了有关Unicode、UTF-8、编码/解码以及所有内容的所有内容,但我仍在挣扎。我做了一个简短的示例片段来说明我的问题。我想像这里写的一样打印字符串'Geïrriteerd'。如果我使用重定向到文件的方式运行它,我需要使用以下代码让它正确打印到文件,例如'Test.py>output'#coding=utf-8importcodecsimportsyssys.stdout=codecs.getwriter('UTF-8')(sys.stdout)printu'Geïrriteerd'但是如果我不重定向,上面的代码会向终端打印“Ge├»rriteerd”。如果我删除“codecs

windows - 获取 unicode 符号的别名

是否有任何WinAPI可以获取Unicode字符的名称?目前我只知道一种方法是解析http://unicode.org/Public/6.1.0/ucd/NamesList.txt文件。 最佳答案 据我所知,没有用于检索该信息的WinAPI函数,但您可以解析UnicodeData.txt(来自unicode.org)文件很容易,这里有该文件的描述UnicodeCharacterDatabase. 关于windows-获取unicode符号的别名,我们在StackOverflow上找到一个

windows - 变量中的 utf8 字符串转换无效

这里的效果是消息文本是正确的希腊字母,但消息标题都是空框,有时其他文本有中文字符。stringmsg="έναμήνυμα";MessageBoxW(null,"έναμήνυμα",cast(wchar*)msg.toStringz,MB_ICONERROR); 最佳答案 您需要使用toUTF16z(来自std.utf)将string转换为LPCWSTR而不是强制转换时:MessageBoxW(null,"έναμήνυμα",toUTF16z(msg),MB_ICONERROR);您不需要对字符串文字做任何事情,因为编译器会通过

我认为 Ruby UTF-16 编码

我有一个在Windows上运行的Ruby程序,它使用Open3调用一个shell命令(已知输出UTF-16):attrs={}attrs[:stdout],attrs[:stderr],status=Open3.capture3(command)unlessattrs[:stderr].nil?beginattrs[:stderr].force_encoding(Encoding::UTF_16LE).encode!(Encoding::UTF_8)rescue=>eattrs[:stderr]=attrs[:stderr].bytes.to_json.encode!(Encoding

html - 将 HTML 文档中的 HTML 实体转换为纯 UTF 字符的任何好工具?

我有许多HTML文档,其中包含许多Unicode代码点表示的HTML实体,例如بروح有没有好的工具可以将多个HTML文档中的HTML实体转换为纯UTF-8/UTF-16/UTF-32字符?我想要一个可以为此目的执行批处理作业的离线转换器工具。 最佳答案 我不知道有这样的工具,但您可以轻松编写一个。例如,此C#代码将转换当前文件夹中的所有html文件:foreach(stringnameinDirectory.GetFiles(".","*.html")){strings=File.ReadAllText(name);s=Regex

windows - 更新一个 unicode 文件给我汉字

我有一个“Application.config”文件,它是一个Unicode(而不是ANSI或UTF8)文件,其中包含类似的内容......18.0.13.227...以下脚本应该将其更改为18.1.00.012,并在32位Perl/OS上执行:my($Company,$Config);$Company=$ENV{ProgramData}."\\Sage\\Accounts\\2012\\Application.config";if(-f$Company){$Config='';if(open(APPCONF,"){$Config.=$_;}close(APPCONF);}if($Co

c++ - Windows 使用带有 UTF-16 的 char * 函数

我将一个应用程序从Linux移植到Windows。在Linux上我使用libmagic在Windows上我不乐意从中删除的库。问题是我需要将以UTF-16编码保存的文件名传递给这样的函数:intmagic_load(magic_tcookie,constchar*filename);不幸的是,它只接受constchar*filename。我的第一个想法是将UTF-16字符串转换为本地编码,但存在一些问题-比如字符串可以包含例如中文符号和本地编码可能是俄语。结果我们将在输出中得到垃圾,程序将无法达到其目标。转换为UTF-8也无济于事,因为这是Windows,Windows以UTF-16格