我正在处理多语言文本数据,其中包括使用西里尔字母的俄语和土耳其语。我基本上必须比较两个文件中的单词 my_file和 check_file如果my_file中的话可以在 check_file 中找到,将它们写入一个输出文件中,同时保留来自两个输入文件的关于这些词的元信息。
一些单词是小写的,而另一些单词是大写的,所以我必须将所有单词都小写才能比较它们。当我使用 Python 3.6.5 并且 Python 3 默认使用 unicode 时,它会处理小写字母,然后再为西里尔字母正确地大写单词。然而,对于土耳其语,有些字母没有得到正确处理。大写 'İ'应该对应小写的'i' , 大写 'I'应该对应小写的'ı'和小写 'i'应该对应大写的'İ'如果我在控制台中键入以下内容,情况就不是这样了:
>>> print('İ'.lower())
i̇ # somewhat not rendered correctly, corresponds to unicode 'i\u0307'
>>> print('I'.lower())
i
>>> print('i'.upper())
I
我正在做如下(简化示例代码):
# python my_file check_file language
import sys
language = sys.argv[3]
# code to get the files as lists
my_file_list = [['ıspanak', 'N'], ['ısır', 'N'], ['acık', 'V']]
check_file_list = [['109', 'Ispanak', 'food_drink'], ['470', 'Isır', 'action_words'], [409, 'Acık', 'action_words']]
# get the lists as dict
my_dict = {}
check_dict = {}
for l in my_file_list:
word = l[0].lower()
pos = l[1]
my_dict[word] = pos
for l in check_file_list:
word_id = l[0]
word = l[1].lower()
word_cat = l[2]
check_dict[word] = [word_id, word_cat]
# compare the two dicts
for word, pos in my_dict.items():
if word in check_dict:
word_id = check_dict[word][0]
word_cat = check_dict[word][1]
print(word, pos, word_id, word_cat)
这只给我一个结果,但它应该给我三个词作为结果:
acık V 409 action_words
到目前为止,我基于 this question 所做的工作:
import locale和 locale.setlocale(locale.LC_ALL, 'tr_TR.UTF-8')正如问题中提到的,但它没有改变任何东西。实现两个函数turkish_lower(self)和 turkish_upper(self)对于第二个答案中描述的三个有问题的字母,这似乎是唯一的解决方案:
def turkish_lower(self):
self = re.sub(r'İ', 'i', self)
self = re.sub(r'I', 'ı', self)
self = self.lower()
return self
def turkish_upper(self):
self = re.sub(r'i', 'İ', self)
self = self.upper()
return self
但是我如何在不检查 if language == 'Turkish' 的情况下使用这两个函数?每次?我应该重写内置函数吗 lower()和 upper() ?如果是,这样做的 pythonic 方式是什么?我是否应该为我正在使用的各种语言实现类并覆盖土耳其语类中的内置函数?
最佳答案
您可以创建一个简单的“语言感知”字符串,它是 str 的子类,并将进行适当的大写和小写,例如:
class LanguageAwareStr(str):
lang = None
class RussianStr(LanguageAwareStr):
lang = 'ru'
class TurkishStr(LanguageAwareStr):
lang = 'tr'
_case_lookup_upper = {'İ': 'i', 'I': 'ı'} # lookup uppercase letters
_case_lookup_lower = {v: k for (k, v) in _case_lookup_upper.items()}
# here we override the lower() and upper() methods
def lower(self):
chars = [self._case_lookup_upper.get(c, c) for c in self]
result = ''.join(chars).lower()
cls = type(self) # so we return a TurkishStr result
return cls(result)
def upper(self):
chars = [self._case_lookup_lower.get(c, c) for c in self]
result = ''.join(chars).upper()
cls = type(self) # so we return a TurkishStr result
return cls(result)
然后当你读取一个字符串时,知道它是什么语言,你将它包装在适当的 LanguageAwareStr 子类中,然后定期使用它:
from langaware import RussianStr, TurkishStr
if language == 'turkish':
LangStr = TurkishStr # can also create a dict to lookup the correct class
然后当您读取语言字符串时,您只需将它们包装在对 LangStr() 的调用中:
for l in my_file_list:
word = LangStr(l[0]).lower()
pos = l[1]
my_dict[word] = pos
for l in check_file_list:
word_id = l[0]
word = LangStr(l[1]).lower()
word_cat = l[2]
check_dict[word] = [word_id, word_cat]
关于python - 正确处理土耳其语大写和小写,需要修改/覆盖内置函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50135094/
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
我正在查看instance_variable_set的文档并看到给出的示例代码是这样做的:obj.instance_variable_set(:@instnc_var,"valuefortheinstancevariable")然后允许您在类的任何实例方法中以@instnc_var的形式访问该变量。我想知道为什么在@instnc_var之前需要一个冒号:。冒号有什么作用? 最佳答案 我的第一直觉是告诉你不要使用instance_variable_set除非你真的知道你用它做什么。它本质上是一种元编程工具或绕过实例变量可见性的黑客攻击
我想在一个没有Sass引擎的类中使用Sass颜色函数。我已经在项目中使用了sassgem,所以我认为搭载会像以下一样简单:classRectangleincludeSass::Script::FunctionsdefcolorSass::Script::Color.new([0x82,0x39,0x06])enddefrender#hamlengineexecutedwithcontextofself#sothatwithintemlateicouldcall#%stop{offset:'0%',stop:{color:lighten(color)}}endend更新:参见上面的#re
我正在尝试用ruby中的gsub函数替换字符串中的某些单词,但有时效果很好,在某些情况下会出现此错误?这种格式有什么问题吗NoMethodError(undefinedmethod`gsub!'fornil:NilClass):模型.rbclassTest"replacethisID1",WAY=>"replacethisID2andID3",DELTA=>"replacethisID4"}end另一个模型.rbclassCheck 最佳答案 啊,我找到了!gsub!是一个非常奇怪的方法。首先,它替换了字符串,所以它实际上修改了
我有一些代码在几个不同的位置之一运行:作为具有调试输出的命令行工具,作为不接受任何输出的更大程序的一部分,以及在Rails环境中。有时我需要根据代码的位置对代码进行细微的更改,我意识到以下样式似乎可行:print"Testingnestedfunctionsdefined\n"CLI=trueifCLIdeftest_printprint"CommandLineVersion\n"endelsedeftest_printprint"ReleaseVersion\n"endendtest_print()这导致:TestingnestedfunctionsdefinedCommandLin
我有一个驼峰式字符串,例如:JustAString。我想按照以下规则形成长度为4的字符串:抓取所有大写字母;如果超过4个大写字母,只保留前4个;如果少于4个大写字母,则将最后大写字母后的字母大写并添加字母,直到长度变为4。以下是可能发生的3种情况:ThisIsMyString将产生TIMS(大写字母);ThisIsOneVeryLongString将产生TIOV(前4个大写字母);MyString将生成MSTR(大写字母+tr大写)。我设法用这个片段解决了前两种情况:str.scan(/[A-Z]/).first(4).join但是,我不太确定如何最好地修改上面的代码片段以处理最后一种
question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参
我喜欢使用Textile或Markdown为我的项目编写自述文件,但是当我生成RDoc时,自述文件被解释为RDoc并且看起来非常糟糕。有没有办法让RDoc通过RedCloth或BlueCloth而不是它自己的格式化程序运行文件?它可以配置为自动检测文件后缀的格式吗?(例如README.textile通过RedCloth运行,但README.mdown通过BlueCloth运行) 最佳答案 使用YARD直接代替RDoc将允许您包含Textile或Markdown文件,只要它们的文件后缀是合理的。我经常使用类似于以下Rake任务的东西:
我一直致力于让我们的Rails2.3.8应用程序在JRuby下正确运行。一切正常,直到我启用config.threadsafe!以实现JRuby提供的并发性。这导致lib/中的模块和类不再自动加载。使用config.threadsafe!启用:$rubyscript/runner-eproduction'pSim::Sim200Provisioner'/Users/amchale/.rvm/gems/jruby-1.5.1@web-services/gems/activesupport-2.3.8/lib/active_support/dependencies.rb:105:in`co