草庐IT

utf8_unicode_cs

全部标签

Python:如何将 Windows 1251 转换为 Unicode?

我正在尝试使用Python将文件内容从Windows-1251(西里尔文)转换为Unicode。我找到了这个功能,但是它不起作用。#!/usr/bin/envpythonimportosimportsysimportshutildefconvert_to_utf8(filename):#gathertheencodingsyouthinkthatthefilemaybe#encodedinsideatupleencodings=('windows-1253','iso-8859-7','macgreek')#trytoopenthefileandexitifsomeIOErrorocc

Python Unicode 对象和 C API(从 pyunicode 对象中检索 char*)

我目前正在将我所有的C++引擎类绑定(bind)到python以用于游戏脚本编写。最新的挑战是,当假设您在脚本中将变量设为字符串时,例如string='helloworld'这成为一个PyUnicodeObject。接下来,我们要从绑定(bind)的C端函数调用脚本中此对象的函数。PrintToLog(string),举个例子,假设这个c函数是这样的voidPrintToLog(constchar*thisString){//fileIOstuffasexpectedmyLog所以我的绑定(bind)需要从PyUnicodeObject中提取一个char*,它首先由python传递给我

Python 打印不使用 __repr__、__unicode__ 或 __str__ 作为 unicode 子类?

Python打印在打印时没有为我的unicode子类使用__repr__、__unicode__或__str__。关于我做错了什么的任何线索?这是我的代码:使用Python2.5.2(r252:60911,2009年10月13日,14:11:59)>>>classMyUni(unicode):...def__repr__(self):...return"__repr__"...def__unicode__(self):...returnunicode("__unicode__")...def__str__(self):...returnstr("__str__")...>>>s=MyU

python - Unicode解码错误: 'utf-8' codec can't decode byte error

我正在尝试从urllib获取响应并对其进行解码为可读格式。文本为希伯来语,还包含{和/等字符首页编码为:#-*-coding:utf-8-*-原始字符串是:b'\xff\xfe{\x00\x00\r\x00\n\x00"\x00i\x00d\x00"\x00\x00:\x00\x00"\x001\x004\x000\x004\x008\x003\x000\x000\x006\x004\x006\x009\x006\x00"\x00,\x00\r\x00\n\x00"\x00t\x00i\x00t\x00l\x00e\x00"\x00\x00:\x00\x00"\x00\xe4\x05\

python - python 中的 u' ' 前缀和 unicode() 有什么区别?

u''前缀和unicode()有什么区别?#-*-coding:utf-8-*-printu'上午'#thisworksprintunicode('上午',errors='ignore')#thisworksbutprintoutnothingprintunicode('上午')#error对于第三个print,错误显示:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe4inposition0如果我有一个包含非ascii字符的文本文件,例如“上午”,如何正确读取并打印出来? 最佳答案

python - 如何根据 Python 中的名称确定 Unicode 字符,即使该字符是控制字符?

我想创建一个Unicode代码点数组,它们构成JavaScript中的空白(减去Unicode-white-space代码点,我单独处理)。这些字符是水平制表符、垂直制表符、换页符、空格、不间断空格和BOM。我可以用神奇的数字来做到这一点:whitespace=[0x9,0xb,0xc,0x20,0xa0,0xfeff]这有点晦涩;名字会更好。通过ord传递的unicodedata.lookup方法有一些帮助:>>>ord(unicodedata.lookup("NO-BREAKSPACE"))160但这对0x9、0xb或0xc不起作用——我认为是因为它们是控制字符,而“名称”FORM

Python:Unicode 和 ElementTree.parse

我正在尝试迁移到Python2.7,因为Unicode在那里很重要,我会尝试使用XML文件和文本处理它们,并使用xml.etree.cElementTree解析它们图书馆。但是我遇到了这个错误:>>>importxml.etree.cElementTreeasET>>>fromioimportStringIO>>>source="""\...............Text............""">>>srcbuf=StringIO(source.decode('utf-8'))>>>doc=ET.parse(srcbuf)Traceback(mostrecentcalllast

python - 属性错误 : 'unicode' object has no attribute 'values' when parsing JSON dictionary values

我有以下JSON字典:{u'period':16,u'formationName':u'442',u'formationId':2,u'formationSlots':[1,2,3,4,5,6,7,8,9,10,11,0,0,0,0,0,0,0],u'jerseyNumbers':[1,20,3,15,17,5,19,6,18,25,10,2,4,12,16,22,24,34],u'playerIds':[23122,38772,24148,39935,29798,75177,3860,8505,26013,3807,34693,18181,4145,23446,8327,107395

python - Python 3.5编码utf-8和utf8的区别

编码utf-8和utf8(如果有的话)有什么区别?给定以下示例:u=u'€'print('utf-8',u.encode('utf-8'))print('utf8',u.encode('utf8'))它产生以下输出:utf-8b'\xe2\x82\xac'utf8b'\xe2\x82\xac' 最佳答案 没有区别。查看tableofstandardencodings.专门针对'utf_8',以下都是有效的别名:'U8','UTF','utf8'另请注意第一段中的声明:Noticethatspellingalternativestha

Mysql导入sql文件报COLLATION ‘utf8_general_ci‘ is not valid for CHARACTER SET ‘utf8mb4‘原因

这个错误通常是因为MySQL数据库版本较旧,不支持使用utf8mb4字符集,而使用了utf8mb4字符集的COLLATION排序规则。utf8mb4字符集支持存储更多的字符,包括一些表情符号等,而utf8字符集则不支持。如果MySQL版本不支持utf8mb4字符集,就会出现以上错误。解决这个问题的方法是升级MySQL到支持utf8mb4字符集的版本,或者使用MySQL支持的字符集和排序规则来创建数据表。例如,可以使用utf8字符集和utf8_general_ci排序规则来创建数据表:CREATETABLEtable_name(idINT(11)NOTNULLAUTO_INCREMENT,col