草庐IT

查找句子边界的 Java 库

有人知道处理查找句子边界的Java库吗?我认为这将是一个智能的StringTokenizer实现,它知道语言可以使用的所有句子终止符。这是我使用BreakIterator的经验:使用示例here:我有以下日语:今日はパソコンを買った。高性能のマックは早い!とても快適です。在ascii中,它看起来像这样:\ufeff\u4eca\u65e5\u306f\u30d1\u30bd\u30b3\u30f3\u3092\u8cb7\u3063\u305f\u3002\u9ad8\u6027\u80fd\u306e\u30de\u30c3\u30af\u306f\u65e9\u3044\uff01

搜索SQL Server中不同段落中可能包含的句子

实际上,在这里,我将错误记录到数据库表(@error)直接从存储过程中。我的要求是,我只需要记录一些错误,例如在获取价格值时仅出错。因为我得到的任何错误都存储在@Error变量,我需要检查此错误段落是否包含一些句子,例如“在获取价格值时错误”。SQLServer中是否有任何想法或逻辑,以便我可以检查是否@error在错误desc段落中包含某些短语?例如:过程ALTERPROCEDURE[dbo].a@bbigint,@csmallint,@dsmallint,@evarchar(50)ASBEGINBEGINTRYDECLARE@bvarchar(4000),@Loggervarchar(50

java - 正则表达式排除包含java中特定单词的句子

我正在读取一个包含大量信息的文件,如下所示:typedw_3fromu_dwwithinw_pg6p0012_01booleanvisible=falseintegerx=1797integery=388integerwidth=887integerheight=112integertaborder=0booleanbringtotop=truestringdataobject="d_pg6p0012_14"endtypetypedw_3fromu_dwwithinw_pg6p0012_01integerx=1797integery=388integerwidth=887integer

java - 如何使用 SimpleDateFormat 格式化句子中的西类牙月份?

这是我的代码:/*packagewhatever;//don'tplacepackagename!*/importjava.util.*;importjava.lang.*;importjava.io.*;importjava.text.SimpleDateFormat;/*Nameoftheclasshastobe"Main"onlyiftheclassispublic.*/classIdeone{publicstaticvoidmain(String[]args)throwsjava.lang.Exception{SimpleDateFormatdate=newSimpleDate

java - 如何将文本解析成句子

我正在尝试将一个段落分解成句子。到目前为止,这是我的代码:importjava.util.*;publicclassStringSplit{publicstaticvoidmain(Stringargs[])throwsException{StringtestString="Theoutcomeofthenegotiationsisvital,becausethecurrenttaxlevelssignedintolawbyPresidentGeorgeW.BushexpireonDec.31.UnlessCongressacts,taxratesonvirtuallyallAmeri

java - JSF-<h :outputText> making some of words Bold

这个问题在这里已经有了答案:ComponenttoinjectandinterpretStringwithHTMLcodeintoJSFpage(1个回答)关闭6年前。我们怎样才能让句子中的某些单词以粗体显示例如-我试图将句子中的一个单词用粗体表示,即句子是“请选择金额”金额应该是粗体,现在,当我使用message="pleaseselecttheamount"这行不通。它只是显示pleaseselecttheamount.我怎样才能让它工作?

java - 句子之间的语义相似度

我正在做一个项目。我需要任何开源工具或技术来找到两个句子的语义相似性,我将两个句子作为输入,并接收分数(即语义相似性)作为输出。有帮助吗? 最佳答案 Salma,恐怕这个论坛不适合您的问题,因为它与编程没有直接关系。我建议您在corporalist上再次提问.您可能还想先搜索他们的文件。除此之外,您的问题不够精确,我将解释我的意思。我假设您的项目是关于计算句子之间的语义相似度,而不是关于语义相似度只是其中之一的其他事物。如果是这样,那么有几点需要考虑:首先,无论是从计算语言学还是理论语言学的角度,都不清楚“语义相似性”这个术语的确切

加载了预定的Word2VEC模型后,如何获得新句子的Word2Vec表示?

我使用Google新闻数据集加载了Word2Vec模型。现在,我想获取我希望集中的句子列表的Word2Vec表示。经过文档我找到了这个gensim.models.word2vec.LineSentence但是我不确定这就是我想要的。应该有一种方法可以从验证的模型中获取句子列表的Word2Vec表示吗?我搜索的链接都没有任何内容。任何线索都将不胜感激。看答案Word2Vec仅提供单词而不是句子的矢量表示。从单词向量到较长的文本(如句子)的一种粗糙但有效的方法(出于某些目的),是平均所有单词向量的媒介。这不是Gensim的功能Word2Vec班级;您必须自己编码。例如,单词向量已经加载为word_

java - 使用 NLP 进行句子检测

我正在尝试从大量文本中解析出句子。使用java我开始使用NLP工具,例如OpenNLP和Stanford的Parser。但这就是我卡住的地方。尽管这两个解析器都非常棒,但是当涉及到非统一文本时它们会失败。例如,在我的文本中,大多数句子都是用句号分隔的,但在某些情况下,例如要点,它们不是。这里两个解析都失败了。我什至尝试在stanford解析中设置多个句子终止符的选项,但输出并没有好多少!有什么想法吗??编辑:为了使它更简单,我希望解析分隔符是新行(“\n”)或句点(“。”)的文本...... 最佳答案 首先,您必须明确定义任务。确切

从句子中提取ID的错误

我有一个带有H列的表格,其中包含评论。我正在使用以下代码来从评论中提取我的ID。在几乎所有情况下,这都是成功的工作。我不知道,为什么对于特定行,提取不起作用。任何人都可以看我的代码,并建议我在哪里出错。我附上了一个显示相似结果的图像。我添加了一些示例,如果您在第3行中找到,在这种特殊情况下,我无法从注释中提取ID。对此的影响将有所帮助。以下是我的代码。SubCmt()DimstrLengthAsIntegerDimiAsLongFori=5ToRows.CountDimAllWordsAsVariantAllWords=Split(Cells(i,8).Value,"")ForEachItem