草庐IT

unicode_normalize

全部标签

c++ - Q : Template class that takes either a normal type or a template template argument

最近我设计了元类型和允许编译时类型连接的可能操作:#includetemplatetypenameT>structMetaTypeTag{};/*variabletemplatehelper*/templatetypenameT>constexprMetaTypeTagmeta_type_tag={};templatestructTypeTag{};/*comparison*/templateconstexprbooloperator==(TypeTag,TypeTag){returntrue;}templateconstexprbooloperator==(TypeTag,TypeT

c++ - 读取 Unicode 文件 C++

我有一个简单的问题要问。我有一个以FFFE开头的UTF16文本文件要读取。处理这种文件的C++工具是什么?我只想阅读它,过滤一些行,然后显示结果。它看起来很简单,但我只是有处理普通ascci文件的经验,而且我很着急。我正在使用VSC++,但我不想使用托管C++。问候这里放一个非常简单的例子wifstreamfile;file.open("C:\\appLog.txt",ios::in);wchar_tbuffer[2048];file.seekg(2);file.getline(buffer,bSize-1);wprintf(L"%s\n",buffer);file.close();

c++ - 逐个字符地遍历 Unicode 代码点

我有一系列的Unicode代码点。我真正需要做的是将这些代码点作为一系列字符进行迭代,不是一系列代码点,并确定每个单独字符的属性,例如是一封信,随便什么。例如,假设我正在编写一个支持Unicode的文本框,并且用户输入了一个不止一个代码点的Unicode字符——例如,“ewithdiacritic”。我知道这个特定字符也可以表示为一个代码点,并且可以标准化为该形式,但我认为在一般情况下这是不可能的。我怎么能实现退格?它显然不能只删除最后一个代码点,因为他们可能刚刚输入了多个代码点。我如何迭代一堆Unicode代码点作为字符?编辑:ICU提供的BreakIterators似乎正是我所需要

c++ - 是否有任何从未使用过的字符(在 ASCII 或 Unicode 中)

我只需要一个可以在字符数组中设置的字符,指示特定位置或一系列位置空闲并可用于存储数据。我需要这个,因为我正在制作一个简单的内存池,需要重置释放的block并将它们指示为空闲。如有任何帮助,我们将不胜感激。 最佳答案 所有ASCII代码点都用于字符,但有很多Unicode代码点保证不是字符,例如U+FFFF.不过,我不确定您会如何处理这些信息。虽然代码点不是有效字符,但您可以构造包含它的字符串。这些字符串在Unicode中是不合法的,但您似乎暗示您可以存储任何数据,而不仅仅是Unicode文本。

C++检查unicode字符是否为全角

如何检查一个unicode字符是否为全角?我使用Win32/MFC比如中是全角,A不是全角,F是全角,F不是全角。 最佳答案 您需要的是检索EastAsianWidth的性格。您可以通过解析EastAsianWidth.txt来做到这一点来自Unicode字符数据库的文件。我找不到返回此信息的Win32API,但在Python中,例如,您可以使用unicodedata.east_asian_width(unichr).参见Annex#11了解问题的背景和更多信息。 关于C++检查unic

c++ - 如何在 ms-dos 控制台中用 C++ 编写 unicode 字符波斯语?

如何在ms-dos中用c++编写unicode字符波斯语?cout 最佳答案 #include#include#includeintmain(){usingnamespacestd;wstringwcs=L"中文";localeold=wcout.imbue(locale(""));//""isenvironment'sdefaultlocalewcout 关于c++-如何在ms-dos控制台中用C++编写unicode字符波斯语?,我们在StackOverflow上找到一个类似的问题:

c++ - 不使用通用字符名直接在character-literal中放入unicode是否违法?

根据ISO/IEC14882:2011(§2.14.3),character-literal,也称为常量,如下图所示。character-literal:’c-char-sequence’u’c-char-sequence’U’c-char-sequence’L’c-char-sequence’...c-char:anymemberofthesourcecharactersetexceptthesingle-quote’,backslash\,ornew-linecharacterescape-sequenceuniversal-character-name乍一看,在character

C++:让我的项目支持 unicode

我的C++项目目前大约有16K行代码,我承认一开始完全没有考虑过unicode支持。我所做的只是将std::string的自定义类型定义为String并开始编码。我自己从未真正在自己编写的程序中使用过unicode。现在将我的项目转换为unicode有多难?这甚至是个好主意吗?我可以直接切换到std::wchar而不会出现任何重大问题吗? 最佳答案 让应用程序识别unicode的最重要部分可能是跟踪字符串的编码,并确保您的公共(public)接口(interface)明确指定并且易于使用您希望使用的编码。切换到更宽的字符(在c++w

C++ unicode字符打印

我需要使用iostream在Linux终端上打印一些unicode字符。奇怪的事情发生了。当我写:cout我得到:➀,这几乎正是我想要的。但是,如果我写:cout我得到:14851712。问题是,我不知道要在编译时打印的确切字符。因此我想做类似的事情:intx;//somecalculations...cout打印:�。使用wcout或wchar_t也不起作用。如何获得正确的打印?根据我在Internet上的发现,我使用直接来自DebianWheezy存储库的g++4.7.2编译器似乎很重要。 最佳答案 Unicode字符\u278

干草堆索引的Unicode Errror

我有一个带有Haystack的Django系统。ElasticsearchPowered搜索。更具体地说,我正在使用Django-CMS和Aldryn搜索将搜索与CMS集成。aldryn-search==0.3.0Django==1.10.7django-cms==3.4.3django-haystack==2.6.0elasticsearch==2.4.1requests==2.13.0requests-aws4auth==0.9索引Haystack的整个过程由第三方应用程序控制,但是我以前从未经历过,因此希望能找到解决方案。运行时update_index对于Haystack,有一些Unic