词干

c++ - 报告 ListView 中的气球式工具提示中错误的词干位置

我想将ListView控件工具提示的默认样式更改为气球。我首先调用了ListView_GetToolTips()获取ListView工具提示控件的HWND，然后使用了GetWindowLongPtr()/SetWindowLongPtr()添加TTS_BALLOON样式。我处理LVN_GETINFOTIP以自定义ListView中项目(第一列)的工具提示:第一列项目出现的工具提示文本实际上是第三列文本的拷贝柱子。其他列(子项)由ListView自动管理。第一列项目的气球式工具提示看起来不错；它们的词干位置正确:但是第二列的工具提示似乎画错了，例如气球被绘制为好像它被引用到鼠标光标指向的

php - Sphinx 的斯洛文尼亚词干分析器

我正在搜索可与Sphinx搜索一起使用的斯洛文尼亚语词干提取算法。例如，我想要实现的是在搜索“jabolka”时，我还想要包含“jabolko”、“jabolki”、“jabolk”等的文档的结果。我找到了一些关于斯洛文尼亚词干分析器存在的引用资料，但我找不到下载它的地方，它甚至没有在任何地方出售......我遇到的另一个选择是在Sphinx源配置(http://sphinxsearch.com/docs/manual-0.9.9.html#conf-wordforms)中使用选项wordforms，但是构建我自己的字典太困难了，所以我想知道是否有公开的可访问的词典已经可用了吗？如果斯

斯洛文尼亚分析器 code snowball php search full-text-search sphinx stemming

java - 小词词干提取/词形还原

目前我使用“lucene”和“elasticsearch”，遇到下一个问题。我需要获得diminutive的词干形式或引理单词。例如:小狗->狗小猫->猫等等但我得到下一个结果:doggy->doggikitty->kitti有没有什么方法(不重要的现成库、任何算法、方法等)来获取diminutive的词根/原始词形式单词形式？目标语言:俄语。例如:собачка->собакакошечка->кошка提前致谢! 最佳答案首先，作为旁注:您尝试做的事情通常不称为词干提取或词形还原。您的第一个问题是将观察到的token(例如со

词形 java em section 例如 lucene elasticsearch nlp morphological-analysis

java - 词干的逆过程

我使用lucene雪球分析器来执行词干提取。结果是没有意义的话。我提到了这个question.其中一个解决方案是使用一个数据库，该数据库包含一个词干版本与一个稳定版本之间的映射。(从社区到社区的示例，无论社区的基础是什么(社区/或其他词))我想知道是否有一个数据库可以执行这样的功能。最佳答案理论上不可能从一个词干中恢复出一个特定的词，因为一个词干可能是许多词所共有的。根据您的应用程序，一种可能性是构建一个词干数据库，每个词干映射到一个包含多个单词的数组。但是您随后需要根据要重新转换的词干来预测这些词中的哪一个是合适的。作为这个问

java 词干 section 单词的 similarity stemming porter-stemmer

java - Java 中的意大利语词干提取库

我正在搜索Java库或其他东西来提取意大利语单词字符串。目标是比较意大利语单词。在这一刻，像“attacco”、“attacchi”、“attaccare”等词被认为是不同的，相反我想返回一个真实的比较。我找到了类似Lucene、snowball.tartarus.org等的东西。还有其他有用的东西吗？或者我如何在Java中使用它们？感谢您的回答。最佳答案下载Snowball对于Javahere.它包含一个名为org.tartarus.snowball.ext.italianStemmer的类，它扩展了SnowballStemm

意大利语利语 code snowball section java nlp stemming

java - 我想要一个 Java 阿拉伯语词干分析器

我正在寻找阿拉伯语的Java词干分析器。我找到了一个名为“AraMorph”的库，但它的输出是无法控制的，并且它会形成不需要的单词。阿拉伯语还有其他词干分析器吗？最佳答案这是新的阿拉伯语词干分析器:Assem'sArabiclightstemmer使用Snowball框架编码并生成多种语言，包括Java。您可以通过下载适用于Java的libstemmer来使用它here. 关于java-我想要一个Java阿拉伯语词干分析器，我们在StackOverflow上找到一个类似的问题：

阿拉伯语分析器 section java arabic stemming porter-stemmer

java - java中的词干库

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。Java中是否有用于词干提取的库!？

java 中的 section notice class api stemming

c++ - 如何从路径中获取文件名的词干？

我想从constchar*文件路径中提取一个constchar*文件名。我尝试使用正则表达式但失败了:constchar*currentLoadedFile="D:\files\file.lua";charfileName[256];if(sscanf(currentLoadedFile,"%*[^\\]\\%[^.].lua",fileName)){return(constchar*)fileName;//WILLRETURN"D:\files\file!!}问题是将返回“D:\files\file”而不是想要的"file"(注意:没有“.lua”) 最佳

amp 43 section string char c++regex filenames scanf

文本预处理技巧：去除停用词、词形还原、词干提取等

文本预处理是自然语言处理中非常重要的一步，它是为了使得文本数据能够被机器学习模型所处理而进行的一系列操作。其中，去除停用词、词形还原、词干提取等技巧是比较常用的。本文将介绍这些技巧的原理，并提供使用Python实现的代码示例，帮助读者更好地理解和实践。文章目录1.停用词2.词形还原3.词干提取1.停用词停用词指在自然语言文本中非常常见的单词，它们通常不携带特定含义，例如“the”、“a”、“an”、“in”等。在文本分析中，这些词语可能会干扰模型的训练效果，因此需要将它们从文本中移除。在Python中，我们可以使用nltk库来完成停用词的去除。nltk中已经包含了一些常用的停用词列表，我们可以

词干词形 span class token python 开发语言

mongodb - MongoDB 文本索引的词干提取无法正常工作

我正在尝试使用MongoDB的全文搜索功能并观察到一些意外行为。该问题与文本索引功能的“词干提取”方面有关。全文搜索的方式在许多在线文章中都有描述，如果文档字段中的字符串“bighuntingdogs”是文本索引的一部分，那么您应该也可以搜索“hunt”或“hunting”如“狗”或“狗”。MongoDB应该在索引和搜索时规范化或阻止文本。所以在我的示例中，我希望它在索引中保存单词“dog”和“hunt”并搜索这些单词的词干版本。如果我搜索“狩猎”，MongoDB应该搜索“狩猎”。嗯，这不是我的工作方式。我在启用了全文搜索的Linux上运行MongoDB2.4.8。如果我的记录有值“b

mongodb section 单词 search indexing full-text-search stemming

12 3 4