草庐IT

unicode_literals

全部标签

python - 打印对象和 unicode,背后是什么?好的指导方针是什么?

我正在为打印和unicode转换而苦苦挣扎。这是在2.5windows解释器中执行的一些代码。>>>importsys>>>printsys.stdout.encodingcp850>>>printu"é"é>>>printu"é".encode("cp850")é>>>printu"é".encode("utf8")├®>>>printu"é".__repr__()u'\xe9'>>>classA():...def__unicode__(self):...returnu"é"...>>>printA()>>>classB():...def__repr__(self):...retur

python - 如何将泰米尔语unicode值数组转换为带有空格的python中的泰米尔语字符串?

这是泰米尔语unicode代码点列表[u'\u0b9a',u'\u0b9f',u'\u0bcd',u'\u0b9f',u'\u0b9a',u'\u0baa',u'\u0bc8',u'\u0baf',u'\u0bbf',u'\u0bb2',u'\u0bcd',u'\u0ba8',u'\u0bc7',u'\u0bb1',u'\u0bcd',u'\u0bb1',你'\u0bc1]如何将其转换为可读字符串? 最佳答案 无需转换。>>>alist=[u'\u0b9a',u'\u0b9f',u'\u0bcd',u'\u0b9f',u'\u0b9

python dateutil unicode警告

我正在使用sixohsix库从TwitterAPI解析一些推文数据。我正在尝试将推文的日期转换为我的语言环境:frompytzimporttimezonefromdateutilimportparsertimestamp=parser.parse(tweet["created_at"])timestamp_arg=timestamp.astimezone(timezone('America/Buenos_Aires'))我收到一个unicode警告:dateutil\parser.py:339:UnicodeWarning:Unicodeequalcomparisonfailedtoc

Python Scrapy : TypeError: to_bytes must receive a unicode, str 或 bytes 对象,得到 int

我不知道这段代码有什么问题。我正在尝试从99acres.com抓取数据。我已经通过了帖子参数。这是代码fromscrapyimportSpiderfromscrapy.httpimportFormRequestfromscrapy.selectorimportHtmlXPathSelectorclassaagSpider(Spider):name="acre"start_urls=["http://www.99acres.com"]defparse(self,response):frmdata3={"Refine_Localities":"RefineLocalities","acti

python - 这是确保 python unicode "string"以 utf-8 编码的最佳方法吗?

从我无法控制的库中给出任意“字符串”,我想确保“字符串”是unicode类型并以utf-8编码。我想知道这是否是最好的方法:importtypesinput=ifisinstance(input,types.StringType):input=input.decode("utf-8")elifisinstance(input,types.UnicodeType):input=input.encode("utf-8").decode("utf-8")在我的实际代码中,我将其包装在try/except中并处理错误,但我将那部分省略了。 最佳答案

python - Django 用户名中的 Unicode 字符

我正在使用Django1.4开发一个网站,我使用django-registration进行注册过程。事实证明,无论何时用户输入例如Unicode字符都不允许作为用户名。中文字符作为用户名的一部分注册失败:Thisvaluemaycontainonlyletters,numbersand@/./+/-/_characters.是否可以更改它以便用户名中允许使用Unicode字符?如果是,我该怎么做?另外,它会引起什么问题吗? 最佳答案 这真的不是问题-因为这个字符限制仅在我记得的UserCreationForm(或django-reg

python - ipython笔记本中的Unicode输出

我必须在IPythonNotebook中使用Unicode(西里尔字母)字符。有什么方法可以输出Unicode字符串,而不是它们的unicode或utf8代码?我想在下面的最后两个示例中将["АБ","ВΓ"]作为输出。In[62]:"АБВ"Out[62]:'\xd0\x90\xd0\x91\xd0\x92'In[63]:u"АБВ"Out[63]:u'\u0410\u0411\u0412'In[64]:print"АБВ"АБВIn[65]:printu"АБВ"АБВIn[66]:print["АБ","ВГ"]['\xd0\x90\xd0\x91','\xd0\x92\xd0\

Python字符串splitlines()去除某些Unicode控制字符

我注意到Python的标准字符串方法splitlines()实际上也删除了一些关键的Unicode控制字符。示例>>>s1=u'asdf\nfdsa\x1dasdf'>>>s1.splitlines()[u'asdf',u'fdsa',u'asdf']注意“\x1d”字符是如何悄悄消失的。如果字符串s1仍然是Python字节串(没有“u”前缀),则不会发生:>>>s2='asdf\nfdsa\x1dasdf'>>>s2.splitlines()['asdf','fdsa\x1dasdf']我在引用资料中找不到任何关于此的信息https://docs.python.org/2.7/lib

python - 带有python和fileinput的Unicode文件

我越来越相信,文件编码业务是故意弄得尽可能困惑的。我在读取仅包含一行的utf-8编码文件时遇到问题:“blablathisissometext”(请注意引号是标准引号的一些奇特版本)。现在,我在上面运行这段Python代码:importfileinputdefcharinput(paths):withopen(paths)asfi:forlineinfi:forcharinline:yieldchari=charinput('path/to/file.txt')foritemini:print(item)有两个结果:如果我从命令提示符运行我的python代码,结果是一些奇怪的字符,然后

python - 如何将 unicode 数字转换为整数?

ArabicandChinesehavetheirownglyphsfordigits.intworkscorrectlywithallthedifferentwaystowritenumbers.我无法重现该行为(python3.5.0)>>>fromunicodedataimportname>>>name('?')'RUMIDIGITFIVE'>>>int('?')ValueError:invalidliteralforint()withbase10:'?'>>>int('五')#chinese/japanesenumberfiveValueError:invalidliteral