草庐IT

utf8_unicode_cs

全部标签

python - string.decode() 与 unicode(string)

myString='éíěřáé'我需要将这个字符串解码为un​​icode。下面的用法和这两种方法之间一般有什么区别吗?myString.decode(encoding='UTF-8',errors='ignore')和unicode(myString,encoding='UTF-8',errors='ignore') 最佳答案 unicode构造函数可以接受除字符串之外的其他类型:>>>unicode(10)u'10'然而,对于bytestring的情况,这两种形式在很大程度上是等价的。某些编码选项对unicode构造函数无效,

python - 在 Python 中将 ASCII 字符转换为 Unicode FULLWIDTH 拉丁字母?

你能轻松地在ASCII字符和它们的亚洲全角Unicode宽字符之间转换吗?喜欢:0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&()*+,-./:;?@[\\]^_`{|}~到0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!゛#$%&()*+、ー。/:;〈==〉?@[\\]^_‘{|}~ 最佳答案 那些“宽”字符被命名为FULLWIDTHLATINLETTER:http

python - shlex.split 仍然不支持 unicode?

根据文档,在Python2.7.3中,shlex应该支持UNICODE。但是,当运行下面的代码时,我得到:UnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition184-189:ordinalnotinrange(128)我做错了什么吗?importshlexcommand_full=u'software.py-fileA="sequence.fasta"-fileB="新建文本文档.fasta.txt"-output_dir="..."-FORMtitle="tst"'shlex.split(command_full

python - Windows 上使用 Python 和 subprocess.Popen() 的 Unicode 文件名

为什么会出现以下情况:>>>u'\u0308'.encode('mbcs')#UMLAUT'\xa8'>>>u'\u041A'.encode('mbcs')#CYRILLICCAPITALLETTERKA'?'>>>我有一个Python应用程序接受来自操作系统的文件名。它适用于某些国际用户,但不适用于其他用户。例如,这个unicode文件名:你'\u041a\u0433\u044b\u044b\u0448\u0444\u0442'不会使用Windows的“mbcs”编码(文件系统使用的编码,由sys.getfilesystemencoding()返回)进行编码。我得到“????????

用于 unicode 大写单词的 Python 正则表达式

我有一组不同语言(英语、波兰语、芬兰语、俄语等)的单词,需要检查哪些单词是用大写字母写的。我尝试使用简单的正则表达式:^[A-Z],但它只匹配拉丁字母,然后我添加了俄语大写字母:^[A-ZА-Я]。但是许多带有变音符号的unicode字母仍然存在。如何将所有大写字母添加到我的正则表达式中?是否可以在不枚举符号的情况下做到这一点?附言我知道如何在Ruby中实现这一点,但现在我正在使用Python。 最佳答案 如果您需要使用正则表达式,您有两个选择:安装PyPiregexmodule并使用\p{Lu}或[[:upper:]](其中包含更

python - Python 3 变量名接受哪些 Unicode 符号?

我想在我的Python3脚本中使用更多种类的Unicode符号作为变量名。在Python3变量名称中可以使用哪些字符?我最近开始使用Unicode符号(例如希腊和亚洲符号)进行代码混淆。 最佳答案 根据PEP3131,标识符的第一个字符需要属于ID_Start,其余属于ID_Continue,定义如下:ID_Startisdefinedasallcharactershavingoneofthegeneralcategoriesuppercaseletters(Lu),lowercaseletters(Ll),titlecaselet

python - JSON 在 Jinja2 模板中显示为 unicode 实体

我将Jinja2与webapp2结合使用。正如他们的文档所说,Jinja2将所有“上下文”数据编码为un​​icode。当我尝试将json字符串插入模板时,这被证明是有问题的:jsonData=json.loads(get_the_file('catsJson.txt'))我将jsonData传递给模板并且我能够成功循环它但是当我将一个json元素插入到HTML中时,它看起来像这样:我希望它看起来像这样(因为它在原始json字符串中):有什么建议吗? 最佳答案 您必须通过safe过滤器过滤该值,以告诉jinja2它不应该对输出应用任

python - python中的双重解码unicode

我正在处理一个似乎热衷于返回的应用程序,我认为是双UTF-8编码字符串。我发送使用UTF-8编码的字符串u'XüYß',从而变成X\u00fcY\u00df(等于X\xc3\xbcY\xc3\x9f).服务器应该简单地回应我发送的内容,但返回以下内容:X\xc3\x83\xc2\xbcY\xc3\x83\xc2\x9f(应为X\xc3\xbcY\xc3\x9f)。如果我使用str.decode('utf-8')将其解码为u'X\xc3\xbcY\xc3\x9f',它看起来像...unicode-string,包含使用UTF-8编码的原始字符串。但是Python不会让我在不先重新编码的情

python - Selenium webdriver 和 unicode

这是我使用Selenium2库的第二天,Unicode带来的痛苦似乎从未消退。我只是做最基本的操作,想打印页面源码:fromseleniumimportwebdriverdriver=webdriver.Firefox()driver.get("http://google.com")printdriver.page_source果然报错了:UnicodeEncodeError:'ascii'codeccan'tencodecharacteru'\u0119'inposition62045:ordinalnotinrange(128)我怎样才能将其编码为utf-8?

python - 我可以在 __unicode__ 返回中使用 ForeignKey 吗?

我有以下类(class):Ingredients、Recipe和RecipeContent...classIngredient(models.Model):name=models.CharField(max_length=30,primary_key=True)qty_on_stock=models.IntegerField()def__unicode__(self):returnself.nameclassRecipe(models.Model):name=models.CharField(max_length=30,primary_key=True)comments=models.