collocations_草庐IT

python - 如何使用 Python NLTK 识别单个字符之间的搭配？

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样，一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如，日本=日本，日文中的ni-hon和中文中的ri-ben).给定字符A(日)，本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A，哪些字符最有可能是字符B？(2)给定字符B，哪些字符最有可能是字符A？(3)字符A和字符B在一个句子中同时出现的可能性有多大，即使它们没有并排出现？相关:如果我有一个汉字/汉字频率列表，我可以强制NLTK搭配模块只

搭配 python 39 collocations 流路 string nlp nltk linguistics

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外，如果您为此指出任何基于Python的解决方案/库，我将不胜感激。谢谢最佳答案执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如，假设在更大的文档集合中，“马尔可夫”一词几乎从未见过。但是，在同一集合中的特定文档中，马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字，您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc

python 从文马尔 section collocations tags machine-learning nlp nltk

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外，如果您为此指出任何基于Python的解决方案/库，我将不胜感激。谢谢最佳答案执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如，假设在更大的文档集合中，“马尔可夫”一词几乎从未见过。但是，在同一集合中的特定文档中，马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字，您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc

python 从文马尔 section collocations tags machine-learning nlp nltk