草庐IT

US_ASCII

全部标签

Python 正则表达式替换为 ASCII 值

我的输入字符串类似于He#108##108#o,输出应该是Hello。基本上我想用##中数字的相关ASCII字符替换每个#[0-9]+#。 最佳答案 在正则表达式中使用替换函数,它提取数字,将它们转换为整数,然后转换为字符:importres="He#108##108#o"print(re.sub("#(\d+)#",lambdax:chr(int(x.group(1))),s))结果:Hello 关于Python正则表达式替换为ASCII值,我们在StackOverflow上找到一个类

python - 如何在 Python 中处理 Unicode(非 ASCII)字符?

我在Python编程我正在通过urllib2从网页获取信息图书馆。问题是该页面可以为我提供非ASCII字符,例如'ñ'、'á'等。就在这一刻urllib2获取这个字符,它会引发异常,如下所示:File"c:\Python25\lib\httplib.py",line711,insendself.sock.sendall(str)File"",line1,insendall:UnicodeEncodeError:'ascii'codeccan'tencodecharacteru'\xf1'inposition74:ordinalnotinrange(128)我需要处理这些字符。我的意思是

python - 一个有弹性的、实际工作的非 ascii 的 CSV 实现?

[更新]感谢所有的答案和输入,但工作代码将是最受欢迎的。如果您可以提供可以读取示例文件的代码,那么您就是国王(或王后)。[更新2]感谢您的出色回答和讨论。我需要用这些做的是读入它们,解析它们,并将它们的一部分保存在Django模型实例中。我相信这意味着将它们从它们的native编码转换为unicode,以便Django可以处理它们,对吗?有severalquestions在Stackoverflow上已经讨论了非asciipythonCSV读取的主题,但是那里和python文档中显示的解决方案不适用于我正在尝试的输入文件。解决方案的要点似乎是对CSV阅读器的输入进行编码('utf-8'

python - 用于从两端删除非 ASCII 字符的正则表达式

我必须使用这段代码循环多次,有没有更好的方法?item='!@#$abc-123-4;5.def)(*&^;\n'或'!@#$abc-123-4;5.def)(*&^;\n_'或'!@#$abc-123-4;5.def)_(*&^;\n_'我的那个没用item=re.sub('^\W|\W$','',item)期待abc-123-4;5.def最终目标是只保留从两端删除不是[a-zA-Z0-9]的任何内容,同时保留中间的任何字符。第一个和最后一个字母在[a-zA-Z0-9]类中 最佳答案 Thisexpression不受左侧限制,如

Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下Unicode转换为ASCII:u'ABRA\xc3OJOS\xc9'我试过encode和decode,他们都不行。有人有什么建议吗? 最佳答案 Unicode字符u'\xce0'和u'\xc9'没有任何对应的ASCII值。因此,如果您不想丢失数据,则必须以某种有效的ASCII方式对该数据进行编码。选项包括:>>>prints.encode('ascii',errors='backslashreplace')ABRA\xc3OJOS\xc9>>>prints.encode('ascii',errors

python - 编码给出 "' ascii' 编解码器无法编码字符......序号不在范围内(128)“

我正在研究DjangoRSS阅读器项目here.RSS提要将显示类似“俄克拉荷马城(美联社)—詹姆斯·哈登让”的内容。RSS提要的编码读取encoding="UTF-8"所以我相信我在下面的代码片段中将utf-8传递给markdown。破折号是它窒息的地方。我收到Django错误“'ascii'编解码器无法编码位置109中的字符u'\u2014':序号不在范围(128)内”,这是一个UnicodeEncodeError。在传递的变量中,我看到“OKLAHOMACITY(AP)\u2014JamesHarden”。不起作用的代码行是:content=content.encode(pars

python - 以未知编码读取包含非 ASCII 字符的文本文件

我想读取一个还包含德语而不仅仅是字符的文件。我发现我可以这样做>>>importcodecs>>>file=codecs.open('file.txt','r',encoding='UTF-8')>>>lines=file.readlines()当我尝试在PythonIDLE中运行我的工作时,这是有效的,但是当我尝试从其他地方运行它时,却没有给出正确的结果。有想法吗? 最佳答案 您需要知道文本是用哪种字符编码编码的。如果您事先不知道,可以尝试使用chardet进行猜测。模块。首先安装它:$pipinstallchardet然后,例如

python - 统一码编码错误 : 'ascii' codec can't encode character u'\xe4'

我一直收到以下错误:UnicodeEncodeError:'ascii'codeccan'tencodecharacteru'\xe4'inposition27:ordinalnotinrange(128)我已经试过了x.encode("ascii","ignore")x.encode("utf-8")x.decode("utf-8")然而,没有任何效果。 最佳答案 你必须在源头发现这个字符是用什么编码的。我猜这是ISO-8859-1(欧洲语言),在这种情况下它是“ä”,但你应该检查一下。它也可以是西里尔字母或希腊字母。参见http

python - 使用 python/django 从字符串中删除非 ASCII 字符

我有一个存储在数据库中的HTML字符串。不幸的是,它包含诸如®之类的字符我想用它们的HTML等价物替换这些字符,无论是在数据库本身还是在我的Python/Django代码中使用FindReplace。关于我如何做到这一点有什么建议吗? 最佳答案 您可以使用ASCII字符是前128个字符,因此使用ord获取每个字符的编号,如果超出范围则将其删除#-*-coding:utf-8-*-defstrip_non_ascii(string):'''ReturnsthestringwithoutnonASCIIcharacters'''stri

jQuery $.inArray 不适用于 ASCII 字符

正如您在jsfiddle中看到的那样,我拿了两枚黑币。如果我将一枚黑色硬币放在另一枚黑色硬币上,那么它应该显示“不能杀死你自己的同类”的警告并将硬币放在它们之前的位置。但如您所见,它不起作用。 最佳答案 我认为您的问题是您正在寻找UTF-8字符的HTML实体编码版本。HTML实体编码使用&#XXXX;形式,其中XXXX是实体的十进制值(在本例中为UTF-8字符代码)。在JavaScript方面,您需要使用实体的JavaScript形式,即\uXXXX,其中XXXX是十六进制实体的值(value)。因此,通过将您的十进制值转换为十六进