草庐IT

detect_unicode

全部标签

python - 如何将表示 UTF-8 字符的 int 转换为 Unicode 代码点?

让我们使用字符LatinCapitalLetterawithOgonek(U+0104)举个例子。我有一个代表其UTF-8编码形式的int:my_int=0xC484#Decimal:`50308`#Binary:`0b1100010010000100`如果使用unichr函数我得到:\uC484或쒄(U+C484)但是,我需要它来输出:Ą如何将my_int转换为Unicode代码点? 最佳答案 将整数0xC484转换为字节串'\xc4\x84'(Unicode字符Ą的UTF-8表示),你可以使用struct.pack():>>>i

python - PyGame 中的中文 unicode 字体

如何在PyGame中显示汉字?什么是用于此目的的好的免费/自由字体? 最佳答案 pygame使用SDL_ttf进行渲染,因此随着渲染的进行,您应该处于良好的状态。unifont.org似乎有一些关于一系列脚本的开源字体的广泛资源。我抓取了Cyber​​bitpan-unicode字体并提取了包含的ttf。以下“在我的机器上工作”是WindowsVistaHomeBasic和Python2.6:#-*-coding:utf-8-*-importpygame,sysunistr=u"黒澤明"pygame.font.init()srf=p

Python:从非 BMP unicode 字符中查找等效代理对

此处给出的答案:HowtoworkwithsurrogatepairsinPython?告诉您如何将代理项对(例如'\ud83d\ude4f')转换为单个非BMPunicode字符(答案是"\ud83d\ude4f".encode('utf-16','surrogatepass').decode('utf-16')).我想知道如何反向执行此操作。我如何使用Python从非BMP字符中找到等效的代理项对,将'\U0001f64f'(?)转换回'\ud83d\ude4f'。我找不到明确的答案。 最佳答案 您必须用代理对手动替换每个非BM

python - 以 unicode 字符串为名称的 namedtuple

我在将unicode字符串指定为命名元组的名称时遇到问题。这有效:a=collections.namedtuple("test","value")这不是:b=collections.namedtuple("βαδιζόντων","value")我得到了错误Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib64/python3.4/collections/__init__.py",line370,innamedtupleresult=namespace[typename]KeyError:'βαδιζόντων'为什么会

Python - 如何在作为变量的 Unicode 字符上查找字符串?

这行得通s='jiā's.find(u'\u0101')我该如何做这样的事情:s='jiā'zzz='\u0101's.find(zzz)既然我现在使用的是一个变量,那么如何指明该变量代表的字符串是Unicode呢? 最佳答案 SinceI'musingavariablenow,howdoIindicatethestringrepresentedbythevariableisUnicode?首先将其定义为Unicode字符串。zzz=u"foo"或者,如果您已经有一个采用其他编码的字符串,则将其转换为Unicode(如果字符串不是A

python - 有效地列出给定 Unicode 类别中的所有字符

人们通常希望列出给定Unicode类别中的所有字符。例如:ListallUnicodewhitespace,HowcanIgetallwhitespacesinUTF-8inPython?CharacterswiththepropertyAlphabetic可以通过遍历所有Unicode代码点并测试所需类别(Python3)来生成此列表:[cforcinmap(chr,range(0x110000))ifunicodedata.category(c)in('Ll',)]或使用正则表达式,re.findall(r'\s',''.join(map(chr,range(0x110000)))

python - 如何加载包含带有 unicode 字符的字典的 pickle 文件?

我有一本字典:mydict={'öö':1,'ää':2}我已经把它写到pickle文件中了:a=codecs.open(r'mydict.pkl','wb','utf-8')pickle.dump(mydict,a)如果我尝试加载它:m=codecs.open(r'mydict.pkl','rb','utf-8')mydict=pickle.load(m)我得到一个错误:KeyError:u"S'\\xe4\\xe4'\np1\nI2\nsS'\\xf6\\xf6'\np2\nI1\ns."有什么解决办法吗?非常感谢帮助。 最佳答案

Python 2 maketrans() 函数不适用于 Unicode : "the arguments are different lengths" when they actually are

[python2]SUB=string.maketrans("0123456789","₀₁₂₃₄₅₆₇₈₉")此代码产生错误:ValueError:maketransargumentsmusthavesamelength我不确定为什么会发生这种情况,因为字符串的长度相同。我唯一的想法是下标文本长度与标准大小的字符有些不同,但我不知道如何解决这个问题。 最佳答案 不,参数的长度不一样:>>>len("0123456789")10>>>len("₀₁₂₃₄₅₆₇₈₉")30您正在尝试传入编码数据;我在这里使用了UTF-8,其中每个数字

python - 从 CSV : delimiter must be a string, 读取不是 unicode

我有一个工作例程(在一些乐于助人的人在this线程中给我一些重要建议之后)从CSV文件创建模型实例。到目前为止,我一直在使用Python2.7并确保没有任何特殊字符出现。目前我需要转向Unicode。我加了#-*-coding:utf-8-*-在我的文件顶部,一切都运行良好(我可以在我的代码和注释中使用特殊字符),除了CSV阅读器例程。即,这部分的shell对象:dataReader=csv.reader(open(filename),delimiter=';',quotechar='"')以前用过TypeError:"delimiter"mustbestring,notunicode

Python:Unicode 和 "\xe2\x80\x99"让我抓狂

所以我有一个来自Google文档的.txt文件,其中包含大卫福斯特华莱士的“Oblivion”中的一些行。使用:withopen("oblivion.txt","r",0)asbookFile:wordList=[]forlineinbookFile:wordList.append(line)然后返回并打印我得到的wordList:"surgeryonthecrow\xe2\x80\x99sfeetaroundhereyes."(并且它截断了很多文本)。但是,如果我不附加wordList而只是forlineinbookFile:printline一切顺利!.read()'ing文件也是