草庐IT

utf8_unicode_cs

全部标签

python - 在 Python 中解码双重编码的 utf8

我从我的一个客户通过xmlrpc获得的字符串有问题。他向我发送了编码两次的utf8字符串:(所以当我在python中获取它们时,我有一个必须再解码一次的unicode对象,但显然python不允许这样做。我注意到我的客户但是我需要在他修复它之前先做一个快速的解决方法。来自tcp转储的原始字符串:Rafa\xc3\x85\xc2\x82这被转换成:u'Rafa\xc5\x82'我们得到的最好的是:eval(repr(u'Rafa\xc5\x82')[1:]).decode("utf8")这导致正确的字符串是:u'Rafa\u0142'然而,这工作很丑陋,不能在生产代码中使用。如果有人知道

python - 在 Python 中解码双重编码的 utf8

我从我的一个客户通过xmlrpc获得的字符串有问题。他向我发送了编码两次的utf8字符串:(所以当我在python中获取它们时,我有一个必须再解码一次的unicode对象,但显然python不允许这样做。我注意到我的客户但是我需要在他修复它之前先做一个快速的解决方法。来自tcp转储的原始字符串:Rafa\xc3\x85\xc2\x82这被转换成:u'Rafa\xc5\x82'我们得到的最好的是:eval(repr(u'Rafa\xc5\x82')[1:]).decode("utf8")这导致正确的字符串是:u'Rafa\u0142'然而,这工作很丑陋,不能在生产代码中使用。如果有人知道

python - Pandas df.to_csv ("file.csv"encode ="utf-8")仍然为减号提供垃圾字符

我读过一些关于Pandas的to_csv(...etc...)的Python2限制。我击中了吗?我在Python2.7.3当≥和-出现在字符串中时,这会变成垃圾字符。除此之外,导出是完美的。df.to_csv("file.csv",encoding="utf-8")有什么解决办法吗?df.head()是这样的:demographyAdults≥49yrsAdults18−49yrsathighrisk||\stateAlabama32.738.6Alaska31.233.2Arizona22.938.8Arkansas31.234.0California29.838.8csv输出是这样

python - Pandas df.to_csv ("file.csv"encode ="utf-8")仍然为减号提供垃圾字符

我读过一些关于Pandas的to_csv(...etc...)的Python2限制。我击中了吗?我在Python2.7.3当≥和-出现在字符串中时,这会变成垃圾字符。除此之外,导出是完美的。df.to_csv("file.csv",encoding="utf-8")有什么解决办法吗?df.head()是这样的:demographyAdults≥49yrsAdults18−49yrsathighrisk||\stateAlabama32.738.6Alaska31.233.2Arizona22.938.8Arkansas31.234.0California29.838.8csv输出是这样

python - (unicode 错误) 'unicodeescape' 编解码器无法解码字节 - 带有 '\u' 的字符串

为Python2.6编写代码,但考虑到Python3,我认为这是一个好主意from__future__importunicode_literals在一些模块的顶部。换句话说,我是在自找麻烦(为了将来避免它们),但我可能在这里遗漏了一些重要的知识。我希望能够传递一个表示文件路径的字符串并像一样简单地实例化一个对象MyObject('H:\unittests')在Python2.6中,这工作得很好,无需使用双反斜杠或原始字符串,即使对于以'\u..'开头的目录也是如此,这正是我想要的。在__init__方法我确保所有单个\出现次数被解释为'\\',包括特殊字符之前的字符,如\a,\b,\f

python - (unicode 错误) 'unicodeescape' 编解码器无法解码字节 - 带有 '\u' 的字符串

为Python2.6编写代码,但考虑到Python3,我认为这是一个好主意from__future__importunicode_literals在一些模块的顶部。换句话说,我是在自找麻烦(为了将来避免它们),但我可能在这里遗漏了一些重要的知识。我希望能够传递一个表示文件路径的字符串并像一样简单地实例化一个对象MyObject('H:\unittests')在Python2.6中,这工作得很好,无需使用双反斜杠或原始字符串,即使对于以'\u..'开头的目录也是如此,这正是我想要的。在__init__方法我确保所有单个\出现次数被解释为'\\',包括特殊字符之前的字符,如\a,\b,\f

python - 如何使用 BeautifulSoup 将 UTF-8 编码的 HTML 正确解析为 Unicode 字符串?

这个问题在这里已经有了答案:PythonandBeautifulSoupencodingissues[duplicate](5个回答)PythoncorrectencodingofWebsite(BeautifulSoup)(3个回答)关闭去年。我正在运行一个获取UTF-8编码网页的Python程序,并使用BeautifulSoup从HTML中提取一些文本。但是,当我将此文本写入文件(或在控制台上打印)时,它会以意外的编码写入。示例程序:importurllib2fromBeautifulSoupimportBeautifulSoup#FetchURLurl='http://www.v

python - 如何使用 BeautifulSoup 将 UTF-8 编码的 HTML 正确解析为 Unicode 字符串?

这个问题在这里已经有了答案:PythonandBeautifulSoupencodingissues[duplicate](5个回答)PythoncorrectencodingofWebsite(BeautifulSoup)(3个回答)关闭去年。我正在运行一个获取UTF-8编码网页的Python程序,并使用BeautifulSoup从HTML中提取一些文本。但是,当我将此文本写入文件(或在控制台上打印)时,它会以意外的编码写入。示例程序:importurllib2fromBeautifulSoupimportBeautifulSoup#FetchURLurl='http://www.v

python - Python 3.4、Unicode、不同的语言和 Windows 有什么关系?

快乐的例子:#!/usr/bin/envpython#-*-coding:utf-8-*-czech=u'LeošJanáček'.encode("utf-8")print(czech)pl=u'ZdzisławBeksiński'.encode("utf-8")print(pl)jp=u'リング山村貞子'.encode("utf-8")print(jp)chinese=u'五行'.encode("utf-8")print(chinese)MIR=u'МашинадляИнженерныхРасчётов'.encode("utf-8")print(MIR)pt=u'MinhaLíng

python - Python 3.4、Unicode、不同的语言和 Windows 有什么关系?

快乐的例子:#!/usr/bin/envpython#-*-coding:utf-8-*-czech=u'LeošJanáček'.encode("utf-8")print(czech)pl=u'ZdzisławBeksiński'.encode("utf-8")print(pl)jp=u'リング山村貞子'.encode("utf-8")print(jp)chinese=u'五行'.encode("utf-8")print(chinese)MIR=u'МашинадляИнженерныхРасчётов'.encode("utf-8")print(MIR)pt=u'MinhaLíng