草庐IT

unicode_literals

全部标签

Python:如何将具有 unicode 文件名的文件移动到 unicode 文件夹

我在Windows下的Python脚本中在unicode命名的文件夹之间移动一个unicode命名的文件时遇到了麻烦...您将使用什么语法来查找文件夹中所有*.ext类型的文件并将它们移动到相对位置?假设文件和文件夹是unicode。 最佳答案 基本问题是Unicode和字节串之间未转换的混合。解决方案可以转换为单一格式或使用一些技巧来避免问题。我所有的解决方案都包括glob和shutil标准库。例如,我有一些以ods结尾的Unicode文件名,我想将它们移动到名为א的子目录(希伯来文Aleph,一个unicode字符).第一个解决

python - 转换或去除 "illegal"Unicode 字符

我在MSSQL中有一个数据库,我正在将其移植到SQLite/Django。我正在使用pymssql连接到数据库并将文本字段保存到本地SQLite数据库。但是对于某些角色,它会爆炸。我收到这样的投诉:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0x97inposition1916:ordinalnotinrange(128)有什么方法可以将字符转换为正确的unicode版本?还是剥离它们? 最佳答案 一旦你有了字节串s,不要直接将它用作unicodeobj,而是使用正确的编解码器显式转换

python - 如何控制包含东亚字符的 Unicode 字符串的填充

我得到了三个UTF-8字符串:hello,worldhello,世界hello,世rld我只想要前10个ascii-char-width,这样一列中的括号:[hello,wor][hello,世][hello,世r]在控制台中:width('世界')==width('worl')width('世')==width('wor')#awhitespacebehind'世'一个汉字是三个字节,但在控制台显示时只有2个ascii字符的宽度:>>>bytes("hello,世界",encoding='utf-8')b'hello,\xe4\xb8\x96\xe7\x95\x8c'当UTF-8字符

Python 2 如何将 values_list 操作返回的 unicode 列表更改为字符串列表

我执行此操作以检索查询集:Name.objects.values_list('name',flat=True)它返回这些结果:[u'accelerate',u'acute',u'bear',u'big']结果都是unicode(u')。如何将它们全部删除以便获得结果:['accelerate','acute','bear','big'] 最佳答案 如果你想在utf8中编码,你可以简单地做:definitions_list=[definition.encode("utf8")fordefinitionindefinitions.obj

Python3 将 Unicode String 转换为 int 表示

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭10年前。众所周知,计算机处理数字。我现在正在输入这段文字,服务器从中生成一个数字,当你想阅读它时,你将从服务器获得文本。我怎样才能自己做这件事?我想用我自己的算法加密一些东西,我的算法可以很好地处理整数,但现在我想加密一个字符串,但我不知道如何将Unicode字符串转换为整数,反之亦然。我正在使用Python3。有人知道解决我的问题的优雅方法吗?

python - 在 python 中使用 re 删除 unicode 表情符号

我尝试从unicode推文文本中删除表情符号并使用python2.7打印出结果myre=re.compile(u'[\u1F300-\u1F5FF\u1F600-\u1F64F\u1F680-\u1F6FF\u2600-\u26FF\u2700-\u27BF]+',re.UNICODE)printmyre.sub('',text)但似乎几乎所有字符都从文本中删除了。我检查了其他帖子的几个答案,不幸的是,它们在这里都不起作用。我在re.compile()中做错了什么吗?这是一个所有字符都被删除的示例输出:“'//./”!###… 最佳答案

Mac OS X 终端中的 Python unicode

谁能给我解释一下这个奇怪的事情:在pythonshell中输入以下西里尔字符串:>>>print'абвгд'абвгд但是当我输入时:>>>printu'абвгд'Traceback(mostrecentcalllast):File"",line1,inUnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition0-9:ordinalnotinrange(128)由于第一个字符串正确出现,我认为我的OSX终端可以表示unicode,但事实证明在第二个情况下它不能。为什么? 最佳答案

python - jinja + form + unicode 控制字符 + xml/docx 集成

我正在根据用户在表单中输入的内容创建word文档。但是,当用户输入一个unicode控制字符,并尝试使用python-docx包从中创建一个word文件时,会发生此错误:File"src\lxml\apihelpers.pxi",line1439,inlxml.etree._utf8ValueError:AllstringsmustbeXMLcompatible:UnicodeorASCII,noNULLbytesorcontrolcharacters我设法解决了这个问题,方法是在每次请求之前检查表单中是否存在无效的xml字符(我有很多可能会出现此问题的表单),并从字段中删除任何无效的

python - 追踪 Python 2 中的隐式 unicode 转换

我有一个大型项目,在不同的地方使用了有问题的隐式Unicode转换(强制转换),例如:someDynamicStr="bar"#couldcomefromvarioussources#worksu"foo"+someDynamicStru"foo{}".format(someDynamicStr)someDynamicStr="\xff"#uh-oh#raisesUnicodeDecodeErroru"foo"+someDynamicStru"foo{}".format(someDynamicStr)(也可能是其他形式。)现在我想追踪这些用法,尤其是那些在活跃使用的代码中的用法。如果我

python - 如何在 Python 中获得可靠的 unicode 字符数?

GoogleAppEngine使用Python2.5.2,显然启用了UCS4。但是GAE数据存储在内部使用UTF-8。因此,如果您将u'\ud834\udd0c'(长度为2)存储到数据存储区,当您检索它时,您会得到'\U0001d10c'(长度为1)。我正在尝试以一种在存储前后给出相同结果的方式计算字符串中unicode字符的数量。因此,我在收到字符串(从u'\ud834\udd0c'到'\U0001d10c')后立即对其进行规范化,然后再计算其长度并将其放入数据存储区。我知道我可以将它编码为UTF-8,然后再次解码,但有没有更直接/更有效的方法? 最佳答案