草庐IT

stanford-nlp

全部标签

java - 在 JAVA 中使用哪个 NLP 工具包?

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。我正在从事一个项目,该项目包含一个连接到NCBI(国家生物技术信息中心)并在那里搜索文章的网站。问题是我必须对所有结果进行一些文本挖掘。我使用JAVA语言进行文本挖掘,使用AJAX和ICEFACES开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个ID和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字,找出重复次数最

时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt

今天给大家介绍一篇最新的大模型+时间序列预测工作,由康涅狄格大学发表,提出了一种将时间序列在隐空间和NLP大模型对齐,并利用隐空间prompt提升时间序列预测效果的方法。论文标题:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址:https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型在时间序列上的应用越来越多,主要分为两类:第一类使用各类时间序列数据训练一个时间序列领域自己的大模型;第二类直接使用NLP领域训练好的文本大模型应用到时间序列中。由于

java - 使用斯坦福 CoreNLP

我正在尝试使用StanfordCoreNLP。我使用了网络上的一些代码来了解coreference工具的运行情况。我尝试在Eclipse中运行该项目,但一直遇到内存不足异常。我尝试增加堆大小但没有任何区别。关于为什么这种情况不断发生的任何想法?这是特定于代码的问题吗?任何有关使用CoreNLP的说明都会很棒。编辑-添加代码importedu.stanford.nlp.dcoref.CorefChain;importedu.stanford.nlp.dcoref.CorefCoreAnnotations;importedu.stanford.nlp.pipeline.Annotation

java - 斯坦福 CoreNLP 注释器线程安全吗?

StanfordCoreNLP网站http://nlp.stanford.edu/software/corenlp.shtml列出了数十个非常有用的注释器。我想将注释器的实例用于多个线程的常见任务(词形还原、标记、解析)。例如,将大量(GB文本)的处理拆分为线程或提供Web服务。过去有一些讨论涉及LocalThreads,据我所知,每个线程使用一个Annotator实例(从而避免有关线程安全的问题)。这是一个选项,但这样所有模型文件和资源也必须加载n次。注释器(或其中一些)使用线程安全吗?我在讨论、文档或常见问题解答中找不到任何结论性/官方的内容。 最佳答案

java - 如何从 java 中的字符串中删除无效的 unicode 字符

我正在使用CoreNLPNeuralNetworkDependencyParser解析一些社交媒体内容。不幸的是,根据fileformat.info,该文件包含的字符是,不是有效的unicode字符或unicode替换字符。这些是例如U+D83D或U+FFFD.如果这些字符在文件中,coreNLP会使用如下错误消息进行响应:Nov15,20155:15:38PMedu.stanford.nlp.process.PTBLexernextWARNING:Untokenizable:?(U+D83D,decimal:55357)基于this回答,我试过document.replaceAll(

java - 检测代词及其名词?

想知道是否有任何工具可以帮助我检测文本中的代词名称。例子JoneisSpanish.HecanspeakGerman.如何将He标记为Jone? 最佳答案 您要解决的问题称为anaphoraresolution.可以使用执行此任务的Java工具here.源代码在该站点上可用。要从理论上了解它是如何工作的,请查看thispaper由Lappin和Leass从1994年开始。 关于java-检测代词及其名词?,我们在StackOverflow上找到一个类似的问题:

今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练

引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(LargeLanguageModels,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在庞大的PDF文件中分析和回应查询、保留扩展的对话历史以及增强交互式聊天机器人的功能。然而,由于训练语料库的可获取性有限,以及长上下文微调的成本过高,目前的开源模型在性能上往往无法与专有模型相媲美,且通常只能提供较小的模型尺寸(例如7B/13B)。针对这些限制,不需要额外训练即可进行上下文扩展的方法变得尤为吸引人。最近的无训练方法,包括LM-infin

java - 子句的 QA 生成 - NLP

我的数据集结构如下:产品1-句子1产品2-句子2产品3-句子3..等等句子看起来像这样:Product1-“我们建议您将这件时尚单品搭配金色吊坠耳环、丘里达紧身裤和平底鞋,打造低调的造型。”一个可能的问题是——“我们是否建议您将这件时尚单品与金色吊坠耳环、churidar紧身裤和平底鞋搭配起来,以打造低调的造型?”-这就是我使用的http://www.cs.cmu.edu/~ark/mheilman/questions/但是,我想要这样的问题/答案:问:如何打造低调的造型?A:您可以尝试Product1以获得低调的外观。问:金色吊坠耳环可以戴什么?答:Product1可以搭配金色吊坠耳

java - 如何使用斯坦福解析器

我下载了Stanfordparser2.0.5并使用了包中的Demo2.java源代码,但是我编译运行程序后出现了很多错误。我的程序的一部分是:publicclasstestStanfordParser{/**Usage:ParserDemo2[[grammar]textFile]*/publicstaticvoidmain(String[]args)throwsIOException{Stringgrammar=args.length>0?args[0]:"edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz";String[]op

清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!

大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研究人员联合提出无需额外训练的大模型长文本理解方法InfLLM,利用少量计算和显存开销实现了LLM的超长文本处理。论文地址:https://arxiv.org/abs/2402.04617代码仓库:https://github.com/thunlp/InfLLM实验结果表明,InfLLM能够有效地扩展Mistral、LLaMA的上下文处理窗口,并在