草庐IT

utf8_unicode_cs

全部标签

python - 在 Python 中从 unicode 字符串中去除标点符号的最快方法

我正在尝试有效地从unicode字符串中去除标点符号。对于常规字符串,使用mystring.translate(None,string.punctuation)显然是fastestapproach.但是,此代码在Python2.7中的unicode字符串上中断。作为对此answer的评论解释一下,translate方法仍然可以实现,但必须用字典来实现。当我使用这个implementation不过,我发现translate的性能大大降低。这是我的计时码(主要从这个answer复制):importre,string,timeitimportunicodedataimportsys#Stri

python - unicode.isdigit() 和 unicode.isnumeric() 的区别

方法unicode.isdigit()和unicode.isnumeric()有什么区别? 最佳答案 Python3documentation比Python2文档更清晰:str.isdigit()[...]Digitsincludedecimalcharactersanddigitsthatneedspecialhandling,suchasthecompatibilitysuperscriptdigits.Formally,adigitisacharacterthathasthepropertyvalueNumeric_Type=

python - 使用 Python 3 的 readlines() 处理 Unicode 错误

我在阅读文本文件时不断收到此错误。是否可以处理/忽略它并继续?UnicodeEncodeError:‘charmap’codeccan’tdecodebyte0x81inposition7827:charactermapstoundefined. 最佳答案 在Python3中,在创建文件对象时传递适当的errors=值(例如errors=ignore或errors=replace)(假设它是io.TextIOWrapper的子类——如果不是,请考虑将其包装在一个中!);另外,考虑传递比charmap更有可能的编码(当您不确定时,ut

python - 在 Python 中将 unicode 文本规范化为文件名等

是否有任何独立的解决方案可以将国际unicode文本标准化为Python中的安全id和文件名?例如将MyInternationalText:åäö转为my-international-text-aaoplone.i18n确实做得很好,但不幸的是它依赖于zope.security和zope.publisher以及其他一些使其脆弱的依赖包。Someoperationsthatplone.i18napplies 最佳答案 你想要做的也被称为“slugify”一个字符串。这是一个可能的解决方案:importrefromunicodedata

python - 将 UTF-16 转换为 UTF-8 并删除 BOM?

我们有一个数据录入人员,他在Windows上使用UTF-16编码,希望使用utf-8并删除BOM。utf-8转换有效,但BOM仍然存在。我将如何删除它?这是我目前拥有的:batch_3={'src':'/Users/jt/src','dest':'/Users/jt/dest/'}batches=[batch_3]forbinbatches:s_files=os.listdir(b['src'])forfile_nameins_files:ff_name=os.path.join(b['src'],file_name)if(os.path.isfile(ff_name)andff_na

python - CS231n : How to calculate gradient for Softmax loss function?

我正在观看StanfordCS231:ConvolutionalNeuralNetworksforVisualRecognition的一些视频,但不太了解如何使用numpy计算softmax损失函数的分析梯度。来自thisstackexchange答案,softmax梯度计算为:上面的Python实现是:num_classes=W.shape[0]num_train=X.shape[1]foriinrange(num_train):forjinrange(num_classes):p=np.exp(f_i[j])/sum_idW[j,:]+=(p-(j==y[i]))*X[:,i]谁能

python - 使用 lxml HTML 解析 UTF-8/unicode 字符串

我一直在尝试使用etree.HTML()解析编码为UTF-8的文本,但没有成功。→pythonPython2.7.1(r271:86832,Jun162011,16:59:05)[GCC4.2.1(BasedonAppleInc.build5658)(LLVMbuild2335.15.00)]ondarwinType"help","copyright","credits"or"license"formoreinformation.>>>fromlxmlimportetree>>>importrequests>>>headers={'User-Agent':"Opera/9.80(Mac

python - 从 Unicode 字符串中正确提取表情符号

我在Python2中工作,我有一个包含表情符号以及其他unicode字符的字符串。我需要将其转换为列表中的每个条目都是单个字符/表情符号的列表。x=u'??xyz??'char_list=[cforcinx]想要的输出是:['?','?','x','y','z','?','?']实际输出为:[u'\ud83d',u'\ude18',u'\ud83d',u'\ude18',u'x',u'y',u'z',u'\ud83d',u'\ude0a',u'\ud83d',u'\ude0a']我怎样才能达到想要的输出? 最佳答案 首先,在Pyth

python - 带有 Unicode 项的 ConfigParser

我对ConfigParser的困扰仍在继续。它似乎不太支持Unicode。配置文件确实保存为UTF-8,但是当ConfigParser读取它时,它似乎被编码成其他东西。我认为它是latin-1并且我认为覆盖optionxform可能会有所帮助:--configfile.cfg--[rules]Häjsan=3☃=mysnowman--myapp.py--#-*-coding:utf-8-*-importConfigParserdef_optionxform(s):try:newstr=s.decode('latin-1')newstr=newstr.encode('utf-8')ret

python - 在python中大约将unicode字符串转换为ascii字符串

不知道这是否微不足道,但我需要将unicode字符串转换为ascii字符串,而且我不希望周围有所有这些转义字符。我的意思是,是否可以“近似”转换为一些非常相似的ascii字符?例如:GavinO'Connor被转换为GavinO\x92Connor,但我真的希望它只是转换为GavinO'Connor。这可能吗?有没有人写了一些工具来做,还是我必须手动替换所有字符?非常感谢!马可 最佳答案 使用Unidecode用于音译字符串的包。>>>importunidecode>>>unidecode.unidecode(u'GavinO’Co