我使用StanfordNLP在我的分类工具中进行字符串标记化。我只想得到有意义的词,但我得到的是非词标记(如---、>、.等)而不是重要的词,如am、is、to(停用词)。有人知道解决这个问题的方法吗? 最佳答案 在stanfordCorenlp中,有一个stopwordremovalannotator它提供了删除标准停用词的功能。您还可以根据需要在此处定义自定义停用词(即---、可以看例子here:Propertiesprops=newProperties();props.put("annotators","tokenize,ss
我需要找出一个词是动词还是名词还是两者都是例如,单词是“搜索”,它既可以是名词也可以是动词,但是斯坦福解析器给它赋予了NN标签。stanford解析器有什么办法可以让“搜索”既是名词又是动词吗?我现在使用的代码publicstaticStringLemmatize(Stringword){WordTagw=newWordTag(word);w.setTag(POSTagWord(word));Morphologym=newMorphology();WordLemmaTagwT=m.lemmatize(w);returnwT.lemma();}或者我应该使用任何其他软件来完成它吗?请给我
考虑以下两个字符串,第一个是代码,第二个是英文句子(准确地说是短语)。我怎样才能检测到第一个是代码而第二个不是。1.for(inti=0;i我正在考虑对特殊字符(例如“=”、“;”、“++”等)进行计数,并将if设置为某个阈值。有没有更好的方法来做到这一点?任何Java库?请注意,代码可能无法解析,因为它不是完整的方法/语句/表达式。我的假设是英语句子很规则,它很可能只包含“,”、“.”、“_”、“(”、“)”等。它们不包含这样的东西:write("全部文本"); 最佳答案 您可以尝试OpenNLP句子解析器。它返回一个句子的n个最
我想使用javaAPI为特定句子创建感叹号?例如很惊喜==是不是很惊喜!例如好冷==不冷吗!如果您给出一个句子(即上例中的左侧),是否有任何供应商或工具可以帮助您生成感叹号。注意:句子将由用户提供,我们应该可以得到正确的句子。我不确定,是否需要将其标记在其他类别下编辑1更多示例,我希望它尽可能通用例如他们迟到了==他们不是迟到了吗!例如他看起来很累==他看起来不累吗!例如那个child脏==那个child不脏吗!例如好热==好不热啊! 最佳答案 根据您希望它变得多么“聪明”和“复杂”,这可能是非常困难或非常简单的问题。这是一个非常愚
给定一组词性标记的词,我想找到那些在主流英语中是淫秽的词。我该怎么做?我是否应该列出一个巨大的列表,然后检查列表中是否存在任何内容?我应该尝试使用正则表达式来捕获单个根上的一堆变体吗?如果它更容易,我不想过滤掉,只是为了得到一个计数。因此,即使存在一些误报,也不是世界末日,只要存在或多或少一致的夸大率即可。 最佳答案 庞大的列表和目标受众。您是否可以使用专门从事此方面的第3方服务,而不是自行推出?一些快速的想法:Scunthorpe问题(并点击“Swearfilter”的链接了解更多)英式英语还是美式英语?范妮、同性恋等政治正确性:
假设有一句话:OnMarch1,hewasborn.将其更改为HewasbornonMarch1.没有破坏句子的意思,它仍然有效。以任何其他方式改组单词会产生奇怪的无效句子。所以基本上,我说的是句子的某些部分,它们使信息更具体,但删除它们并不会破坏整个句子。是否有任何NLP库可以识别这些部分? 最佳答案 成分听起来您想识别句子的constituents,它们是根据语言语法作为单个单元运行的词组。事实上,当语言学家试图发现一种语言的语法时,他们部分地通过查看movement来做到这一点。.在您的示例中,这就是一组单词可以移动到句子中不
我正在使用apachelucene开发一个文本分析项目。我需要对一些文本进行词形还原(将单词转换为它们的规范形式)。我已经编写了生成词干的代码。使用它,我可以转换以下句子Thestemisthepartofthewordthatneverchangesevenwhenmorphologicallyinflected;alemmaisthebaseformoftheword.Forexample,from"produced",thelemmais"produce",butthestemis"produc-".Thisisbecausetherearewordssuchasproducti
有人知道处理查找句子边界的Java库吗?我认为这将是一个智能的StringTokenizer实现,它知道语言可以使用的所有句子终止符。这是我使用BreakIterator的经验:使用示例here:我有以下日语:今日はパソコンを買った。高性能のマックは早い!とても快適です。在ascii中,它看起来像这样:\ufeff\u4eca\u65e5\u306f\u30d1\u30bd\u30b3\u30f3\u3092\u8cb7\u3063\u305f\u3002\u9ad8\u6027\u80fd\u306e\u30de\u30c3\u30af\u306f\u65e9\u3044\uff01
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。我正在从事一个项目,该项目包含一个连接到NCBI(国家生物技术信息中心)并在那里搜索文章的网站。问题是我必须对所有结果进行一些文本挖掘。我使用JAVA语言进行文本挖掘,使用AJAX和ICEFACES开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个ID和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字,找出重复次数最
我正在尝试对来自社交网络的帖子之间的相似性进行评分,但没有找到任何好的算法,想法?我刚刚尝试了Levenshtein、JaroWinkler和其他人,但那些人更多地用于比较没有情感的文本。在帖子中,我们可以看到一条文字说“我真的很喜欢狗”,而另一条文字说“我真的很讨厌狗”,我们需要将这种情况归类为完全不同的情况。谢谢 最佳答案 啊...但是“我真的很爱狗”和“我真的很讨厌狗”是完全相似的;),都是在讨论一个人对狗的感受。看来你错过了一步:运行您的算法并获取一般主题组(即“对狗的感受”)。再次运行您的算法,但这次针对之前“发现”的每个