草庐IT

collocations

全部标签

python - 如何使用 Python NLTK 识别单个字符之间的搭配?

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样,一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如,日本=日本,日文中的ni-hon和中文中的ri-ben).给定字符A(日),本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A,哪些字符最有可能是字符B?(2)给定字符B,哪些字符最有可能是字符A?(3)字符A和字符B在一个句子中同时出现的可能性有多大,即使它们没有并排出现?相关:如果我有一个汉字/汉字频率列表,我可以强制NLTK搭配模块只

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外,如果您为此指出任何基于Python的解决方案/库,我将不胜感激。谢谢 最佳答案 执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如,假设在更大的文档集合中,“马尔可夫”一词几乎从未见过。但是,在同一集合中的特定文档中,马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字,您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。此外,如果您为此指出任何基于Python的解决方案/库,我将不胜感激。谢谢 最佳答案 执行此操作的一种方法是提取文档中出现频率高于您预期的单词。例如,假设在更大的文档集合中,“马尔可夫”一词几乎从未见过。但是,在同一集合中的特定文档中,马尔可夫非常频繁地出现。这表明马尔科夫可能是与文档相关联的一个很好的关键字或标签。要识别这样的关键字,您可以使用point-wisemutualinformation关键字和文档。这由PMI(term,doc