草庐IT

utf8_unicode_cs

全部标签

python - 将 "Quoted-printable"编码改为 "utf-8"

我正在尝试使用imaplib阅读电子邮件。我收到这个邮件正文:=C4=EE=E1=F0=FB=E9=E4=E5=ED=FC!即Quoted-printable编码。我需要从中获取utf-8。它应该是Добрыйдень!我用谷歌搜索了一下,但是它对于Python的版本来说太乱了。它在Python3中已经是unicode,我不能在这里使用.encode('utf-8')。如何将其更改为utf-8? 最佳答案 quoprimodule可以将这些字节转换为未编码的字节流。然后,您需要从它们所在的任何字符集中解码它们,然后编码回utf-8。

Python - 读取表情符号 Unicode 字符

我有一个Python2.7程序,它从SQLite数据库读取iOS文本消息。短信是unicode字符串。在以下短信中:u'that\u2019s\U0001f63b'撇号由\u2019表示,但表情符号由\U0001f63b表示。我查找了相关表情符号的代码点,它是\uf63b。我不确定0001来自哪里。我对字符编码知之甚少。当我逐字符打印文本时,使用:s=u'that\u2019s\U0001f63b'forcins:printc.encode('unicode_escape')程序产生以下输出:that\u2019s\ud83d\ude3b如何在Python中正确读取这些最后的字符?我在

python - 匹配任何 unicode 字母?

在.net中你可以使用\p{L}来匹配任何字母,我如何在Python中做同样的事情?也就是说,我想匹配任何大写、小写和重音字母。 最佳答案 Python的re模块还不支持Unicode属性。但是您可以使用re.UNICODE标志编译正则表达式,然后字符类简写\w也将匹配Unicode字母。由于\w也将匹配数字,因此您需要从字符类中减去这些数字以及下划线:[^\W\d_]将匹配任何Unicode字母。>>>importre>>>r=re.compile(r'[^\W\d_]',re.U)>>>r.match('x')>>>r.matc

python - 'utf- 8' codec can' t 解码字节 0x80

我正在尝试下载BVLC训练的模型,但我遇到了这个错误UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0x80inposition110:invalidstartbyte我认为这是因为以下功能(completecode)#Closure-dfunctionforcheckingSHA1.defmodel_checks_out(filename=model_filename,sha1=frontmatter['sha1']):withopen(filename,'r')asf:returnhashlib.sha1(f.read()).hexdig

python - 错误 : 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

我正在尝试执行以下操作kaggleassignmnet.我正在使用gensim包来使用word2vec。我能够创建模型并将其存储到磁盘。但是,当我尝试重新加载文件时,出现以下错误。-HP-dx2280-MT-GR541AV:~$pythonprog_w2v.pyTraceback(mostrecentcalllast):File"prog_w2v.py",line7,inmodels=gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt',binary=True)File"/u

Python: "...".encode ("utf8") 修复了什么?

我想对python字符串进行url编码,但希伯来文字符串出现异常。我无法修复它并开始做一些面向猜测的编程。最后,在将它发送到url编码器之前执行mystr=mystr.encode("utf8")挽救了这一天。有人能解释一下发生了什么吗?.encode("utf8")是做什么的?无论如何,我的原始字符串是一个unicode字符串(即以u为前缀)。 最佳答案 Myoriginalstringwasaunicodestringanyways(i.e.prefixedbyau)...这就是问题所在。它本身不是“字符串”,而是“Unicod

python - 如何将unicode字符串拆分为列表

这个问题在这里已经有了答案:HowdoIsplitastringintoalistofcharacters?(15个答案)关闭5年前。我有以下代码:stru="۰۱۲۳۴۵۶۷۸۹"strlist=stru.decode("utf-8").split()printstrlist[0]我的输出是:۰۱۲۳۴۵۶۷۸۹但是当我使用:printstrlist[1]我得到以下traceback:IndexError:listindexoutofrange我的问题是,如何拆分我的字符串?当然,还记得我从function得到我的string吗,认为它是一个variable吗?

python - 如何将 unicode 重音字符转换为没有重音的纯 ascii?

我正在尝试从http://dictionary.reference.com/browse/apple?s=t等字典网站下载一些内容我遇到的问题是原始段落有所有那些波浪线和反向字母等,所以当我读取本地文件时,我最终得到那些有趣的转义字符,如\x85、\xa7、\x8d等我的问题是,有什么方法可以将所有这些转义字符转换为它们各自的UTF-8字符,例如,如果有一个'à',我如何将其转换为标准的'a'?Python调用代码:importosword='apple'os.system(r'wget.lnk--directory-prefix=G:/projects/words/dictionar

python - 为什么我不能在 Mac OS X Terminal.app 的 Python Interpreter 中显示 unicode 字符?

如果我尝试粘贴一个unicode字符,例如中间的点:·在我的python解释器中它什么都不做。我在MacOSX上使用Terminal.app,当我只是在bash中时,我没有遇到任何问题::~$·但是在解释器中::~$pythonPython2.6.1(r261:67515,Feb112010,00:51:29)[GCC4.2.1(AppleInc.build5646)]ondarwinType"help","copyright","credits"or"license"formoreinformation.>>>^^我什么也没得到,它只是忽略了我刚刚粘贴的字符。如果我使用中间点'\xc

python - 升级 pip : UnicodeDecodeError: 'utf-8' codec can't decode byte 时出错

我刚刚在Windows10上安装了python,我正在尝试升级pip。我的windows用户名有希伯来语字符...当我尝试运行时:python-mpipinstall--upgradepip我收到这个错误:CollectingpipUsingcachedpip-8.0.2-py2.py3-none-any.whlInstallingcollectedpackages:pipFoundexistinginstallation:pip7.1.2Exception:Traceback(mostrecentcalllast):File"C:\Users\עדי\AppData\Local\Pr