草庐IT

nlp - 词形还原与词干提取有什么区别?

我什么时候使用每个?另外...NLTK词形还原是否依赖于词性?如果是这样不是更准确吗? 最佳答案 短而密:http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.htmlThegoalofbothstemmingandlemmatizationistoreduceinflectionalformsandsometimesderivationallyrelatedformsofawordtoacommonbaseform.However

java - Java 中的分词器、停用词删除、词干提取

我正在寻找一个类或方法,它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣非常感谢。 最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu

java - Java 中的分词器、停用词删除、词干提取

我正在寻找一个类或方法,它需要包含100多个单词的长字符串并进行标记、删除停用词和词干以用于IR系统。例如:"Thebigfatcat,said'yourfunniestguyiknow'tothekangaroo..."tokenizer会删除标点符号并返回一个ArrayList单词停用词删除器会删除“the”、“to”等词词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣非常感谢。 最佳答案 AFAIKLucene可以做你想做的事。使用StandardAnalyzer和StopAnalyzer您可以去除停用词。结合Lu

php - 波特词干算法的"Opposite"?

我正在寻找与PorterStemmeralgorithm相反的方法,即字符串“search”将返回一个数组“searches,searched,searchingetc..”是否已经存在这样的东西(在php中为首)?感谢您的帮助! 最佳答案 我不确定这是否是您想要的方向,但我会获取一个字典单词文件(Mac和nix机器通常在/usr/share/dict/words)并将其加载到易于搜索的存储机制中。接下来,我将编译suffixes的列表并在rulesappliedtosuffixes中编程.关于所问的实际问题,我还没有发现任何像这样

java - 是否有 Porter2 词干分析器的 java 实现

您知道Porter2词干分析器的任何java实现(或任何用java编写的更好的词干分析器)吗?我知道这里有一个Java版本的Porter(不是Porter2):http://tartarus.org/~martin/PorterStemmer/java.txt但是在http://tartarus.org/~martin/PorterStemmer/作者提到Porter有点过时并建议使用Porter2,可在http://snowball.tartarus.org/algorithms/english/stemmer.html但是,我的问题是这个Porter2是用snowball写的(我以

python - 一些与 Python 中的语法、标记、词干提取和词义消歧有关的 NLP 内容

背景(TLDR;为了完成而提供)就奇怪需求的最佳解决方案寻求建议。我是大学四年级的(文学)学生,只有我自己的编程指导。我对Python足够胜任,因此我不会在实现我找到的解决方案(大部分时间)并对其进行开发时遇到问题,但由于我的新手,我正在寻求有关解决这个特殊问题的最佳方法的建议.已经在使用NLTK,但与NLTK书中的示例不同。我已经在利用NLTK的很多东西,特别是WordNet,所以这些Material对我来说并不陌生。我已经阅读了大部分NLTK书籍。我正在使用零散的原子语言。用户输入单词和句子片段,WordNet用于寻找输入之间的联系,并生成新的单词和句子/片段。我的问题是关于将Wo

python - 结合 NLTK 和 scikit-learn 中的文本词干提取和标点符号删除

我正在使用NLTK和scikit-learn的CountVectorizer的组合来进行词干提取和标记化。以下是CountVectorizer的简单用法示例:fromsklearn.feature_extraction.textimportCountVectorizervocab=['Theswimmerlikesswimmingsoheswims.']vec=CountVectorizer().fit(vocab)sentence1=vec.transform(['Theswimmerlikesswimming.'])sentence2=vec.transform(['Theswim

python - Python中最好的词干提取方法是什么?

我尝试了所有用于词干提取的nltk方法,但它给了我一些奇怪的结果。例子它经常在不应该这样做的时候切断词尾:Poodle=>Poodle文章文章或者干得不太好:easy和easy不是同一个词叶子,生长,完全没有词干提取你知道python中的其他词干库,还是一本好的词典?谢谢 最佳答案 您获得的结果(通常)是英语词干分析器所期望的。您说您尝试了“所有nltk方法”,但是当我尝试您的示例时,情况似乎并非如此。以下是一些使用PorterStemmer的示例importnltkps=nltk.stemmer.PorterStemmer()ps

ruby-on-rails - 没有词干的 Searchkick

我正在使用searchkick(https://github.com/ankane/searchkick)作为数组索引我的一些数据,它几乎可以正常工作:)defsearch_data{isbn:isbn,title:title,abstract_long:abstract_long,authors:authors.map(&:name)}end我感兴趣的领域是作者。我想要完成的是搜索“Marias”并找到所有在他们的姓氏中实际具有该确切字符串的作者(JavierMarias),而不是Searchkick返回的所有Maria/Mario/Marais,并让他们与一个更大的优先级。这就是我