Stemming_草庐IT

php - 产生真实单词的词干提取算法

我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是，我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区我使用了PorterStemmer算法的实现(顺便说一下，我是用PHP编写的):http://tartarus.org/~martin/PorterStemmer/php.txt这在一定程度上有效，但不会返回“真实”单词。上面的例子源于“commun”。我尝试过“Snowball”(在另一个StackOverflow线程中建议)。http://snowball.tartarus.org/demo.php对于我的示例(社区/社区)，Snowball源于

单词 php 词形 section nlp stemming snowball porter-stemmer

java - Java 中的分词器、停用词删除、词干提取

我正在寻找一个类或方法，它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”，例如“最有趣”会变得有趣非常感谢。最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu

用词 java section code tokenize stemming stop-words

java - Java 中的分词器、停用词删除、词干提取

我正在寻找一个类或方法，它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”，例如“最有趣”会变得有趣非常感谢。最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu

用词 java section code tokenize stemming stop-words

java - 使用 Lucene 提取英语单词

我正在一个Java应用程序中处理一些英文文本，我需要对它们进行词干处理。例如，从文本“amenities/amenity”我需要得到“amenit”。函数如下:StringstemTerm(Stringterm){...}我找到了LuceneAnalyzer，但它看起来太复杂了，无法满足我的需求。http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html有没有办法在不构建分析器的情况下使用它来词干？我不了解所有Analyzer业务...编辑:我实际上需要词干提取+词形还

单词 Lucene section apache java stemming porter-stemmer

java - 使用 Lucene 提取英语单词

我正在一个Java应用程序中处理一些英文文本，我需要对它们进行词干处理。例如，从文本“amenities/amenity”我需要得到“amenit”。函数如下:StringstemTerm(Stringterm){...}我找到了LuceneAnalyzer，但它看起来太复杂了，无法满足我的需求。http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html有没有办法在不构建分析器的情况下使用它来词干？我不了解所有Analyzer业务...编辑:我实际上需要词干提取+词形还

单词 Lucene section apache java stemming porter-stemmer

java - Porter 和 Lancaster Stemming 算法的主要区别和优势是什么？

关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭6年前。Improvethisquestion我正在处理java中的文档分类任务。强烈推荐这两种算法，每种算法的优缺点是什么？哪种算法在自然语言处理任务的文献中更常用？最佳答案在它的基础上，porter和lancaster词干提取算法之间的主要区别在于，lancaster词干提取器比porter词干提取器更具侵略性。目前使用的三种主要词干提取算法是Porter、Snowball(Porter

Lancaster Stemming section 分析器 Snowball java machine-learning nlp