草庐IT

unicode_normalize

全部标签

python - 在 Cython 中小写 unicode 字符串的 numpy 数组的最快方法

Numpy的字符串函数都非常慢,而且性能不如纯Python列表。我希望使用Cython优化所有普通字符串函数。例如,让我们采用一个包含100,000个数据类型为unicode或对象的unicode字符串的numpy数组,并将每个字符串小写。alist=['JsDated','УКРАЇНА']*50000arr_unicode=np.array(alist)arr_object=np.array(alist,dtype='object')%timeitnp.char.lower(arr_unicode)51.6ms±1.99msperloop(mean±std.dev.of7runs,

python - 从包含 QString 的变量生成 unicode

我有QPlainTextEdit字段,其中的数据包含国家字符(iso-8859-2)。tmp=self.ui.field.toPlainText()(QStringtype)当我这样做时:tmp=unicode(tmp,'iso-8859-2')我得到的是问号而不是民族字符。如何将QPlainTextEdit字段中的数据正确转换为unicode? 最佳答案 正如所说QPlainTextEdit.toPlainText()返回应该是UTF-16的QString,而unicode()构造函数需要一个字节字符串。下面是一个小例子:tmp=

python - 如何将最相似的 Unicode 字符返回到图像的一部分?

我用Python做了一个简单的转换器来将图像转换为ASCII。现在它使用各种深浅不一的深色字符,所以它可以工作,但在低分辨率下很难辨认:例如,GoogleLogo显示为:...;..@a;...;...a.@...;.aa.a.▒.▒.;.;.;;a.▒@a.;...;........;;;;;...a..;这几乎看不出来。有没有一种方法可以将每个部分与Unicode字符的子集进行比较并返回最相似的部分,因此它可以返回例如如下内容:./--.\./▒a;./-.;/\./\\▒./━\.aa-a.▒.▒.|.|.;▒┃▒▒-~┘\;../|\\_//\/.\;;;▒\\.-.pp--▒

python - 什么 Python 正则表达式匹配所有字母字符但不匹配数字? [unicode 感知]

这个问题在这里已经有了答案:MatchingonlyaunicodeletterinPythonre(1个回答)关闭6年前。我正在寻找[\w]&&[^\d]的等效项(当然&&不是正则表达式运算符)。正则表达式只需要匹配由UTF8“字母”字符组成的单词。有人有什么想法吗?

Python 打印 unicode 不显示正确的符号

我使用的是Ubuntu12.04LTS。当我在终端中尝试这样的事情时:rfx@digest:/usr/share/fonts/truetype/ttf-dejavu$echoвдлжофыдвжвдлжофыдвж符号显示正确。但是如果尝试使用python2.7打印unicode符号,我会得到这个:>>>printu'абв'ц│ц┌ц≈如python所示,终端默认使用utf-8编码:>>>sys.stdout.encoding'UTF-8' 最佳答案 终端未正确破译您的输入。这不是Python问题。为了证明这一点,使用unicod

python - 如何将表示 UTF-8 字符的 int 转换为 Unicode 代码点?

让我们使用字符LatinCapitalLetterawithOgonek(U+0104)举个例子。我有一个代表其UTF-8编码形式的int:my_int=0xC484#Decimal:`50308`#Binary:`0b1100010010000100`如果使用unichr函数我得到:\uC484或쒄(U+C484)但是,我需要它来输出:Ą如何将my_int转换为Unicode代码点? 最佳答案 将整数0xC484转换为字节串'\xc4\x84'(Unicode字符Ą的UTF-8表示),你可以使用struct.pack():>>>i

python - PyGame 中的中文 unicode 字体

如何在PyGame中显示汉字?什么是用于此目的的好的免费/自由字体? 最佳答案 pygame使用SDL_ttf进行渲染,因此随着渲染的进行,您应该处于良好的状态。unifont.org似乎有一些关于一系列脚本的开源字体的广泛资源。我抓取了Cyber​​bitpan-unicode字体并提取了包含的ttf。以下“在我的机器上工作”是WindowsVistaHomeBasic和Python2.6:#-*-coding:utf-8-*-importpygame,sysunistr=u"黒澤明"pygame.font.init()srf=p

Python:从非 BMP unicode 字符中查找等效代理对

此处给出的答案:HowtoworkwithsurrogatepairsinPython?告诉您如何将代理项对(例如'\ud83d\ude4f')转换为单个非BMPunicode字符(答案是"\ud83d\ude4f".encode('utf-16','surrogatepass').decode('utf-16')).我想知道如何反向执行此操作。我如何使用Python从非BMP字符中找到等效的代理项对,将'\U0001f64f'(?)转换回'\ud83d\ude4f'。我找不到明确的答案。 最佳答案 您必须用代理对手动替换每个非BM

python - 以 unicode 字符串为名称的 namedtuple

我在将unicode字符串指定为命名元组的名称时遇到问题。这有效:a=collections.namedtuple("test","value")这不是:b=collections.namedtuple("βαδιζόντων","value")我得到了错误Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib64/python3.4/collections/__init__.py",line370,innamedtupleresult=namespace[typename]KeyError:'βαδιζόντων'为什么会

Python - 如何在作为变量的 Unicode 字符上查找字符串?

这行得通s='jiā's.find(u'\u0101')我该如何做这样的事情:s='jiā'zzz='\u0101's.find(zzz)既然我现在使用的是一个变量,那么如何指明该变量代表的字符串是Unicode呢? 最佳答案 SinceI'musingavariablenow,howdoIindicatethestringrepresentedbythevariableisUnicode?首先将其定义为Unicode字符串。zzz=u"foo"或者,如果您已经有一个采用其他编码的字符串,则将其转换为Unicode(如果字符串不是A