草庐IT

java - 将自然语言描述解析为结构化数据的策略

我有一组要求,我正在寻找最好的基于Java的策略/算法/软件来使用。基本上,我想获取一组由真人以自然英语输入的食谱成分,并将元数据解析为结构化格式(请参阅下面的要求以了解我正在尝试做什么)。我环顾四周和其他地方,但没有发现任何关于遵循什么方向的高级建议。所以,我会把它交给聪明的人:-):解决这个问题最好/最简单的方法是什么?我应该使用自然语言解析器、dsl、lucene/solr还是其他一些工具/技术?NLP看起来可能有用,但它看起来真的很复杂。我宁愿不花大量时间进行深入研究,只是为了发现它无法满足我的要求,或者发现有更简单的解决方案。要求鉴于这些配方成分描述......“8杯混合蔬菜

【NLP】语音识别 — GMM, HMM

 一、说明        在语音识别的深度学习(DL)时代之前,HMM和GMM是语音识别的两项必学技术。现在,有将HMM与深度学习相结合的混合系统,并且有些系统是免费的HMM。我们现在有更多的设计选择。然而,对于许多生成模型来说,HMM仍然很重要。但无论状态如何,语音识别都有助于我们更好地理解HMM和GMM在ML环境中的应用。所以停止长脸,让我们有时花在上面。二、自动语音识别(ASR)        让我们先了解一下高级概述。下图是语音识别的高级体系结构,它将HMM(隐马尔可夫模型)与语音识别联系起来。        从音频剪辑开始,我们滑动宽度为25毫秒、间隔10毫秒的窗口以提取 MFCC特

java - 用 Java 创建自然 DSL 的最佳工具是什么?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭2年前。Improvethisquestion几天前,我阅读了一篇博客文章(http://ayende.com/Blog/archive/2008/09/08/Implementing-generic-natural-language-DSL.aspx),其中作者讨论了使用.NET的通用自然语言DSL解析器的想法。在我看来,他的想法最精彩的部分是对文本进行解析并与使用与句子同名的类进行匹配。以下面几行为例:Cre

NLP(六十四)使用FastChat计算LLaMA-2模型的token长度

LLaMA-2模型部署  在文章NLP(五十九)使用FastChat部署百川大模型中,笔者介绍了FastChat框架,以及如何使用FastChat来部署百川模型。  本文将会部署LLaMA-270B模型,使得其兼容OpenAI的调用风格。部署的Dockerfile文件如下:FROMnvidia/cuda:11.7.1-runtime-ubuntu20.04RUNapt-getupdate-y&&apt-getinstall-ypython3.9python3.9-distutilscurlRUNcurlhttps://bootstrap.pypa.io/get-pip.py-oget-pip.

带你上手基于Pytorch和Transformers的中文NLP训练框架

本文分享自华为云社区《全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据》,作者:汀丶。1.简介目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案;数据:从开源社区,整理了海量的训练数据,帮助用户可以快速上手;同时也开放训练数据模版,可以快速处理垂直领域数据;结合多线程、内存映射等更高效的数据处理方式,即使需要处理百GB规模的数据,也是轻而易举;流程:每一个项目有完整的模型训练步骤,如:数据清洗、

java - 文本简化工具 (Java)

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion可以使用Java进行文本简化的最佳工具是什么?这里是一个文本简化的例子:John,whowastheCEOofacompany,playedgolf.↓Johnplayedgolf.JohnwastheCEOofacompany.

java - 如何在 OpenNLP 中创建良好的 NER 训练模型?

我刚刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型:PierreVinken,61yearsold,willjointheboardasanonexecutivedirectorNov.29.Mr.VinkenischairmanofElsevierN.V.,theDutchpublishinggroup.RudolphAgnew,55yearsoldand

java - 斯坦福核心 nlp java 输出

我是Java和StanfordNLP工具包的新手,正在尝试将它们用于一个项目。具体来说,我正在尝试使用StanfordCorenlp工具包来注释文本(使用Netbeans而不是命令行)并且我尝试使用http://nlp.stanford.edu/software/corenlp.shtml#Usage上提供的代码(使用StanfordCoreNLPAPI)。问题是:谁能告诉我如何在文件中获取输出以便我可以进一步处理它?我试过将图表和句子打印到控制台,只是为了查看内容。这样可行。基本上我需要的是返回带注释的文档,这样我就可以从我的主类中调用它并输出一个文本文件(如果可能的话)。我正在尝试

python - 使用 nltk 的 2 个句子/字符串/文本之间的句法相似性/距离

这个问题在这里已经有了答案:Howtocomputethesimilaritybetweentwotextdocuments?(13个答案)关闭6年前。我有2个文本如下文本1:约翰喜欢苹果Text2:Mike讨厌橙色如果检查以上2个文本,它们在句法上相似,但在语义上具有不同的含义。我要找1)2个文本之间的句法距离2)2个文本之间的语义距离我是NLP的新手,有什么方法可以使用nltk来做到这一点吗?

Python——计算共现矩阵

我正在处理NLP任务,我需要计算文档的共现矩阵。基本公式如下:这里我有一个形状为(n,length)的矩阵,其中每一行代表一个由length单词组成的句子。所以总共有n个长度相同的句子。然后使用定义的上下文大小,例如window_size=5,我想计算共现矩阵D,其中cth中的条目>行和wth列为#(w,c),表示上下文词c出现在中的次数w的上下文。例子可以引用这里。Howtocalculatetheco-occurrencebetweentwowordsinawindowoftext?我知道可以通过循环堆叠来计算,但我想知道是否存在简单的方法或简单的函数?我找到了一些答案,但它们无法