tokzr_草庐IT

python - 用 Python 编写分词器

我想在Python中设计一个自定义分词器模块，让用户可以指定用于输入的分词器。例如，考虑以下输入:Q:Whatisagoodwaytoachievethis?A:Iamnotsosure.IthinkIwillusePython.我希望能够提供NLTK'ssentencetokenization,sent_tokenize()作为一个选项，因为它在许多情况下都能很好地工作，我不想重新发明轮子。除此之外，我还想提供一个更细粒度的标记化构建器(类似于规则引擎的东西)。让我解释一下:假设我提供了几个分词器:SENTENCE#Tokenizesthegiveninputbyusingsent_

python - 用 Python 编写分词器