NLP

java - 使用 Stanford NLP : Filter unrequired words and characters 进行文本标记化

我使用StanfordNLP在我的分类工具中进行字符串标记化。我只想得到有意义的词，但我得到的是非词标记(如---、>、.等)而不是重要的词，如am、is、to(停用词)。有人知道解决这个问题的方法吗？最佳答案在stanfordCorenlp中，有一个stopwordremovalannotator它提供了删除标准停用词的功能。您还可以根据需要在此处定义自定义停用词(即---、可以看例子here:Propertiesprops=newProperties();props.put("annotators","tokenize,ss

本标行文 code section 用词 java machine-learning tokenize stanford-nlp

java - 在斯坦福解析器中查找名词和动词

我需要找出一个词是动词还是名词还是两者都是例如，单词是“搜索”，它既可以是名词也可以是动词，但是斯坦福解析器给它赋予了NN标签。stanford解析器有什么办法可以让“搜索”既是名词又是动词吗？我现在使用的代码publicstaticStringLemmatize(Stringword){WordTagw=newWordTag(word);w.setTag(POSTagWord(word));Morphologym=newMorphology();WordLemmaTagwT=m.lemmatize(w);returnwT.lemma();}或者我应该使用任何其他软件来完成它吗？请给我

斯坦 java section noreferrer noopener nlp stanford-nlp

java - 如何判断一个字符串是英文句子还是代码？

考虑以下两个字符串，第一个是代码，第二个是英文句子(准确地说是短语)。我怎样才能检测到第一个是代码而第二个不是。1.for(inti=0;i我正在考虑对特殊字符(例如“=”、“;”、“++”等)进行计数，并将if设置为某个阈值。有没有更好的方法来做到这一点？任何Java库？请注意，代码可能无法解析，因为它不是完整的方法/语句/表达式。我的假设是英语句子很规则，它很可能只包含“,”、“.”、“_”、“(”、“)”等。它们不包含这样的东西:write("全部文本"); 最佳答案您可以尝试OpenNLP句子解析器。它返回一个句子的n个最

句子 java final section string nlp

java - 如何为特定句子创建感叹号

我想使用javaAPI为特定句子创建感叹号？例如很惊喜==是不是很惊喜!例如好冷==不冷吗!如果您给出一个句子(即上例中的左侧)，是否有任何供应商或工具可以帮助您生成感叹号。注意:句子将由用户提供，我们应该可以得到正确的句子。我不确定，是否需要将其标记在其他类别下编辑1更多示例，我希望它尽可能通用例如他们迟到了==他们不是迟到了吗!例如他看起来很累==他看起来不累吗!例如那个child脏==那个child不脏吗!例如好热==好不热啊! 最佳答案根据您希望它变得多么“聪明”和“复杂”，这可能是非常困难或非常简单的问题。这是一个非常愚

感叹号何为 section 句子例如 java regex nlp text-manipulation

java - 自然语言处理 : Find obscenities in English?

给定一组词性标记的词，我想找到那些在主流英语中是淫秽的词。我该怎么做？我是否应该列出一个巨大的列表，然后检查列表中是否存在任何内容？我应该尝试使用正则表达式来捕获单个根上的一堆变体吗？如果它更容易，我不想过滤掉，只是为了得到一个计数。因此，即使存在一些误报，也不是世界末日，只要存在或多或少一致的夸大率即可。最佳答案庞大的列表和目标受众。您是否可以使用专门从事此方面的第3方服务，而不是自行推出？一些快速的想法:Scunthorpe问题(并点击“Swearfilter”的链接了解更多)英式英语还是美式英语？范妮、同性恋等政治正确性:

obscenities English section noreferrer noopener java nlp

java - 如何用java获取句子的逻辑部分？

假设有一句话:OnMarch1,hewasborn.将其更改为HewasbornonMarch1.没有破坏句子的意思，它仍然有效。以任何其他方式改组单词会产生奇怪的无效句子。所以基本上，我说的是句子的某些部分，它们使信息更具体，但删除它们并不会破坏整个句子。是否有任何NLP库可以识别这些部分？最佳答案成分听起来您想识别句子的constituents，它们是根据语言语法作为单个单元运行的词组。事实上，当语言学家试图发现一种语言的语法时，他们部分地通过查看movement来做到这一点。.在您的示例中，这就是一组单词可以移动到句子中不

何用 java noreferrer noopener nofollow artificial-intelligence nlp linguistics

java - 使用 apache lucene 进行词形还原

我正在使用apachelucene开发一个文本分析项目。我需要对一些文本进行词形还原(将单词转换为它们的规范形式)。我已经编写了生成词干的代码。使用它，我可以转换以下句子Thestemisthepartofthewordthatneverchangesevenwhenmorphologicallyinflected;alemmaisthebaseformoftheword.Forexample,from"produced",thelemmais"produce",butthestemis"produc-".Thisisbecausetherearewordssuchasproducti

词形 apache code lucene the java nlp stemming lemmatization

查找句子边界的 Java 库

有人知道处理查找句子边界的Java库吗？我认为这将是一个智能的StringTokenizer实现，它知道语言可以使用的所有句子终止符。这是我使用BreakIterator的经验:使用示例here:我有以下日语:今日はパソコンを買った。高性能のマックは早い！とても快適です。在ascii中，它看起来像这样:\ufeff\u4eca\u65e5\u306f\u30d1\u30bd\u30b3\u30f3\u3092\u8cb7\u3063\u305f\u3002\u9ad8\u6027\u80fd\u306e\u30de\u30c3\u30af\u306f\u65e9\u3044\uff01

句子 Java section code BreakIterator string nlp text-segmentation

java - 在 JAVA 中使用哪个 NLP 工具包？

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我正在从事一个项目，该项目包含一个连接到NCBI(国家生物技术信息中心)并在那里搜索文章的网站。问题是我必须对所有结果进行一些文本挖掘。我使用JAVA语言进行文本挖掘，使用AJAX和ICEFACES开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个ID和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字，找出重复次数最

工具包 java section notice 关键 nlp text-mining

java - 计算文本之间相似度的算法

我正在尝试对来自社交网络的帖子之间的相似性进行评分，但没有找到任何好的算法，想法？我刚刚尝试了Levenshtein、JaroWinkler和其他人，但那些人更多地用于比较没有情感的文本。在帖子中，我们可以看到一条文字说“我真的很喜欢狗”，而另一条文字说“我真的很讨厌狗”，我们需要将这种情况归类为完全不同的情况。谢谢最佳答案啊...但是“我真的很爱狗”和“我真的很讨厌狗”是完全相似的；)，都是在讨论一个人对狗的感受。看来你错过了一步:运行您的算法并获取一般主题组(即“对狗的感受”)。再次运行您的算法，但这次针对之前“发现”的每个

java 计算 noreferrer noopener nofollow text artificial-intelligence nlp mining

4 5 678 9 10