我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区我使用了PorterStemmer算法的实现(顺便说一下,我是用PHP编写的):http://tartarus.org/~martin/PorterStemmer/php.txt这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。我尝试过“Snowball”(在另一个StackOverflow线程中建议)。http://snowball.tartarus.org/demo.php对于我的示例(社区/社区),Snowball源于
我正在寻找一个类或方法,它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣非常感谢。 最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu
我正在寻找一个类或方法,它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣非常感谢。 最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu
我正在一个Java应用程序中处理一些英文文本,我需要对它们进行词干处理。例如,从文本“amenities/amenity”我需要得到“amenit”。函数如下:StringstemTerm(Stringterm){...}我找到了LuceneAnalyzer,但它看起来太复杂了,无法满足我的需求。http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html有没有办法在不构建分析器的情况下使用它来词干?我不了解所有Analyzer业务...编辑:我实际上需要词干提取+词形还
我正在一个Java应用程序中处理一些英文文本,我需要对它们进行词干处理。例如,从文本“amenities/amenity”我需要得到“amenit”。函数如下:StringstemTerm(Stringterm){...}我找到了LuceneAnalyzer,但它看起来太复杂了,无法满足我的需求。http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html有没有办法在不构建分析器的情况下使用它来词干?我不了解所有Analyzer业务...编辑:我实际上需要词干提取+词形还
关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭6年前。Improvethisquestion我正在处理java中的文档分类任务。强烈推荐这两种算法,每种算法的优缺点是什么?哪种算法在自然语言处理任务的文献中更常用? 最佳答案 在它的基础上,porter和lancaster词干提取算法之间的主要区别在于,lancaster词干提取器比porter词干提取器更具侵略性。目前使用的三种主要词干提取算法是Porter、Snowball(Porter